Bootcamp MasterClass AI for Document Understanding End-to-end System
Thời lượng
12 buổi
Hình thức đào tạo
Online qua Zoom
Học phí
Liên hệ
Tổng quan
Từ hóa đơn, chứng từ ngân hàng, hợp đồng, biểu mẫu cho đến tài liệu doanh nghiệp, bài toán ngày nay không còn dừng lại ở OCR. Một hệ thống Document AI hiện đại cần có khả năng hiểu bố cục tài liệu, trích xuất thông tin quan trọng, suy luận ngữ cảnh và triển khai hiệu quả trong môi trường production.
Khóa học MasterClass AI for Document Understanding được thiết kế để đưa học viên đi trọn hành trình từ OCR truyền thống đến Document AI thế hệ mới với quy trình:
Layout Analysis → OCR → KIE → LLM/VLM → Model Optimization → FastAPI → Docker → Kubernetes → Production System
Kết quả vượt trội sau khóa học: Thay vì chỉ dừng lại ở các bài toán nhận diện cơ bản, học viên sẽ sở hữu một dự án Document AI hoàn chỉnh theo tiêu chuẩn production-ready, sẵn sàng ứng dụng để giải quyết các bài toán xử lý hóa đơn, chứng từ và giấy tờ định danh (eKYC) trong thực tế.

Lợi ích khóa học
Thực hành trên dữ liệu thực tế
Xuyên suốt khóa học, học viên sẽ sử dụng Dataset SROIE (Receipt Understanding Benchmark) để huấn luyện mô hình.
Hỗ trợ tài nguyên toàn diện
Được cung cấp đầy đủ slide bài giảng, notebook thực hành, source code toàn bộ pipeline, checkpoint model và deployment template.
Thời lượng
12 buổi chuyên sâu + Final Production Project.
Đồng hành cùng giảng viên
Được hỗ trợ giải đáp trong suốt chương trình, có recording đầy đủ các buổi học để xem lại.
Chứng nhận & Học bổng
Nhận chứng nhận hoàn thành khóa học và cơ hội được hoàn 50% học phí cho Top 3 Final Project xuất sắc nhất.
Lịch học
Thứ 4 & Thứ 6 hàng tuần (20:00 – 22:00) .
Mục tiêu học tập
Nắm vững kiến thức từ việc xử lý ảnh tài liệu thô cho đến khi xuất ra dữ liệu có cấu trúc và tích hợp API serving.
Xây dựng hệ thống OCR với các công nghệ lõi như Layout Analysis (DocLayout-YOLO), Text Detection (MixNet), Text Recognition (PARSeq).
Xây dựng hệ thống Key Information Extraction (KIE) trên tài liệu thực tế với Transformer-based (LayoutLMv3).
Áp dụng các phương pháp OCR-free Document Understanding tiên tiến.
Fine-tune mô hình bằng kỹ thuật LoRA/QLoRA cho tiếng Việt bằng Vintern-1B-v3.5 và Qwen2.5-3B.
Thực hiện export sang ONNX Runtime, lượng tử hóa (Quantization) INT8/INT4 nhằm tối ưu cho môi trường production.
Biết cách đánh giá mô hình bằng các chỉ số CER, WER, F1 Score, Exact Match và Hallucination Rate.
Triển khai AI serving với FastAPI, vLLM.
Sử dụng Docker Compose và Kubernetes (K8s) để hoàn thiện hệ thống end-to-end có khả năng mở rộng.
Đối tượng học tập & Yêu cầu đầu vào
Chuẩn đầu ra
Giá trị lớn nhất của khóa học là học viên sẽ hoàn thành hệ thống AI Document Understanding End-to-End. Pipeline hệ thống cuối khóa bao gồm
Giá trị lớn nhất của khóa học là học viên sẽ hoàn thành hệ thống AI Document Understanding End-to-End. Pipeline hệ thống cuối khóa bao gồm
Layout Analysis: Xác định các vùng nội dung trên tài liệu.
OCR & KIE: Phát hiện, nhận diện chữ và trích xuất các trường thông tin quan trọng (Tên công ty, Ngày tháng, Địa chỉ, Tổng tiền).
Serving & API: Trả về dữ liệu dạng Structured JSON thông qua FastAPI và Swagger UI.
Deployment: Cấu trúc Dual Backend, benchmark tốc độ và triển khai thực tế bằng Docker.
Lộ trình học tập
- Giới thiệu Document Understanding: pipeline tổng thể, ứng dụng thực tế.
- Giới thiệu SROIE: cấu trúc thư mục, format annotation (bbox + text + KIE label).
- Layout Analysis (lý thuyết): DocLayout-YOLO – YOLO-based, phân vùng text/table/figure/title.
- DB-Net: real-time, differentiable binarization.
- MixNet: mixed depthwise convolution, multi-scale feature fusion.
- YOLO Detection Text.
- Fine-tune MixNet cho text detection trên bộ dữ liệu SROIE.
- Đánh giá mô hình với Precision, Recall, F1-Score.
- TransformerOCR: encoder-decoder Transformer, cross-attention.
- PARSeq: Permuted Autoregressive Sequence.
- So sánh CTC vs Attention vs PARSeq.
- Fine-tune PARSeq trên bộ dữ liệu SROIE.
- Đánh giá bằng CER/WER.
- Giới thiệu VietOCR cho tiếng Việt.
- LayoutLMv3: Multi-modal Pretraining.
- So sánh LayoutLM v1, v2, v3.
- Trích xuất Company, Date, Address, Total từ hóa đơn.
- Fine-tune LayoutLMv3 trên bộ dữ liệu SROIE.
- Đánh giá bằng F1 Score và Exact Match.
- LoRA, QLoRA, PEFT, Instruction Tuning.
- Xây dựng dataset SROIE dạng OCR Text → JSON.
- Zero-shot Evaluation trên Qwen2.5-3B.
- Fine-tune Qwen2.5-3B cho bài toán KIE.
- So sánh trước và sau Fine-tune.
- Các mô hình OCR hiện đại: GLM-OCR, LightRAG OCR, Chandra OCR, NanoOCR.
- OCR-Free KIE và OCR-Based KIE.
- Trade-off giữa OCR Pipeline và VLM Pipeline.
- Phân tích latency, chi phí, độ chính xác.
- Xây dựng VLM Instruction Dataset từ SROIE.
- Fine-tune bằng LoRA.
- OCR-Free KIE bằng Vision-Language Model.
- Đánh giá bằng Exact Match và F1 Score.
- So sánh OCR Pipeline với VLM Pipeline.
- ONNX Runtime và TensorRT.
- Quantization INT8 và FP16.
- Dynamic vs Static Quantization.
- Benchmark latency, throughput và memory usage.
- Tối ưu LayoutLMv3, PARSeq và Qwen VLM.
- REST API cho OCR, KIE và VLM.
- Upload file PDF/Image.
- Async Processing.
- Middleware, Logging, Error Handling.
- Swagger/OpenAPI Documentation.
- Tích hợp OCR Pipeline vào API Service.
- Docker Compose cho hệ thống OCR/KIE.
- Container hóa FastAPI Service.
- Kubernetes cơ bản.
- Deployment, Service, Ingress.
- Horizontal Pod Autoscaling (HPA).
- Public API ra Internet.
- Tích hợp Layout Detection → OCR → KIE → API.
- Hoặc xây dựng hệ thống OCR-Free KIE bằng VLM.
- ONNX Export và Quantization Production.
- Docker Compose Full Stack.
- Benchmark F1, Latency, Throughput.
- Review kiến trúc và Code Review.
- Bảo vệ dự án cuối khóa.
- Đánh giá kiến trúc hệ thống.
- Phân tích hiệu năng và khả năng mở rộng.
- Góp ý từ giảng viên.
Giảng viên
- Giảng viên Computer Science tại Phenikaa University.
- Product Architecture Lead tại ZenAVI Tech, AI Team Leader & Data Scientist tại Zsolution, AI Engineer tại Hyperlogy và Viettel Construction.
- Hơn 5 năm kinh nghiệm phát triển OCR, Document AI, eKYC; từng triển khai giải pháp cho AEON, CoopMart, Agribank, HDBank.
- Chuyên gia thực chiến thành thạo PyTorch, FastAPI, OpenCV, ONNX, Docker, vLLM.
Dự án học viên
Feedback học viên

Phạm Tiến Dũng
AI Engineer - Giải pháp Số hóa Ngân hàng - ★★★★★
Ngân hàng mình có hàng triệu tài liệu KYC, sao kê và tờ trình pháp lý ở dạng PDF quét tay rất mờ, dùng OCR truyền thống lỗi font và mất cấu trúc bảng liên tục. Khóa học AI for Document Understanding tại Cole thực sự đã giải quyết tận gốc bài toán. Lộ trình hướng dẫn từ xử lý ảnh nâng cao, table detection bằng YOLO đến fine-tune LayoutLM cực kỳ thực chiến. Hiện tại, hệ thống tự động bóc tách của team mình đạt độ chính xác trên 95%, giải phóng 90% sức lao động nhập tay.

Nguyễn Khánh Chi
Tech Lead - Tự động hóa Chuỗi cung ứng - ★★★★
Khi công ty muốn tự động hóa bóc tách hóa đơn vận đơn từ nhiều quốc gia với bố cục thay đổi liên tục, mình đã bế tắc với các tool viết rule vì chúng rất dễ vỡ. Bootcamp MasterClass AI for Document Understanding tại Cole chính là câu trả lời toàn diện nhất. Khóa học dạy cực sâu về kiến trúc End-to-End từ tiền xử lý, phân tích Layout đến đưa data về dạng JSON chuẩn hóa để đồng bộ trực tiếp lên ERP. Mentor hỗ trợ sửa lỗi logic nghiệp vụ rất sát sao, giúp dự án của mình triển khai thành công sau 3 tháng học.

Hoàng Minh Triết
Fullstack Developer / Freelancer - ★★★★★
Là một lập trình viên phần mềm, mình muốn xây dựng các tính năng AI trích xuất tài liệu thông minh cho khách hàng nhưng luôn gặp rào cản về xử lý ảnh và AI đa phương tiện. Tham gia khóa học Document Understanding System của Cole đã cung cấp cho mình một bộ khung code (boilerplate) hoàn chỉnh từ A-Z. Tài liệu mẫu chi tiết, mã nguồn cực kỳ gọn gàng giúp mình ứng dụng ngay vào các dự án freelancer như bóc tách bệnh án y khoa hay hợp đồng thương mại. Một khóa học vô cùng đắt giá!
Lợi ích chỉ có tại COLE
Giới thiệu việc làm sau khóa học
Học lại free
Cộng đồng chuyển đổi số 1
Câu hỏi thường gặp
Để biết thêm thông tin chi tiết đừng ngần ngại gọi cho chúng tôi.
-
Hotline
-
Email
-
Trang tin chính thức
Hoặc để lại thông tin
COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills
5000+
Học viên theo học
30%
Thu nhập học viên tăng lên sau khi học
30+ Khóa học
Hàng đầu về ứng dụng công nghệ
50+
Chuyên gia hàng đầu về chuyển đổi số
300+ Doanh nghiệp hàng đầu lựa chọn Cole để nâng cấp kỹ năng