Bootcamp MasterClass AI for Document Understanding End-to-end System

Thời lượng

12 buổi

Hình thức đào tạo

Online qua Zoom

Học phí

Liên hệ

Tổng quan

AI có thể đọc và hiểu tài liệu tốt đến đâu?

Từ hóa đơn, chứng từ ngân hàng, hợp đồng, biểu mẫu cho đến tài liệu doanh nghiệp, bài toán ngày nay không còn dừng lại ở OCR. Một hệ thống Document AI hiện đại cần có khả năng hiểu bố cục tài liệu, trích xuất thông tin quan trọng, suy luận ngữ cảnh và triển khai hiệu quả trong môi trường production.

Khóa học MasterClass AI for Document Understanding được thiết kế để đưa học viên đi trọn hành trình từ OCR truyền thống đến Document AI thế hệ mới với quy trình:

Layout Analysis → OCR → KIE → LLM/VLM → Model Optimization → FastAPI → Docker → Kubernetes → Production System

Kết quả vượt trội sau khóa học: Thay vì chỉ dừng lại ở các bài toán nhận diện cơ bản, học viên sẽ sở hữu một dự án Document AI hoàn chỉnh theo tiêu chuẩn production-ready, sẵn sàng ứng dụng để giải quyết các bài toán xử lý hóa đơn, chứng từ và giấy tờ định danh (eKYC) trong thực tế.

Lợi ích khóa học

Thực hành trên dữ liệu thực tế

Xuyên suốt khóa học, học viên sẽ sử dụng Dataset SROIE (Receipt Understanding Benchmark) để huấn luyện mô hình.

Hỗ trợ tài nguyên toàn diện

Được cung cấp đầy đủ slide bài giảng, notebook thực hành, source code toàn bộ pipeline, checkpoint model và deployment template.

Thời lượng

12 buổi chuyên sâu + Final Production Project.

Đồng hành cùng giảng viên

Được hỗ trợ giải đáp trong suốt chương trình, có recording đầy đủ các buổi học để xem lại.

Chứng nhận & Học bổng

Nhận chứng nhận hoàn thành khóa học và cơ hội được hoàn 50% học phí cho Top 3 Final Project xuất sắc nhất.

Lịch học

Thứ 4 & Thứ 6 hàng tuần (20:00 – 22:00) .

Mục tiêu học tập

1. Hiểu toàn bộ Pipeline Document AI hiện đại

Nắm vững kiến thức từ việc xử lý ảnh tài liệu thô cho đến khi xuất ra dữ liệu có cấu trúc và tích hợp API serving.
2. Làm chủ OCR Pipeline và Trích xuất thông tin (KIE)

Xây dựng hệ thống OCR với các công nghệ lõi như Layout Analysis (DocLayout-YOLO), Text Detection (MixNet), Text Recognition (PARSeq).

Xây dựng hệ thống Key Information Extraction (KIE) trên tài liệu thực tế với Transformer-based (LayoutLMv3).
3. Triển khai Vision-Language Model (VLM)

Áp dụng các phương pháp OCR-free Document Understanding tiên tiến.

Fine-tune mô hình bằng kỹ thuật LoRA/QLoRA cho tiếng Việt bằng Vintern-1B-v3.5Qwen2.5-3B.
4. Tối ưu hóa Mô hình (Model Optimization)

Thực hiện export sang ONNX Runtime, lượng tử hóa (Quantization) INT8/INT4 nhằm tối ưu cho môi trường production.

Biết cách đánh giá mô hình bằng các chỉ số CER, WER, F1 Score, Exact MatchHallucination Rate.
5. Xây dựng API và Hệ thống Deployment (Production-Ready)

Triển khai AI serving với FastAPI, vLLM.

Sử dụng Docker ComposeKubernetes (K8s) để hoàn thiện hệ thống end-to-end có khả năng mở rộng.

Đối tượng học tập & Yêu cầu đầu vào

Kỹ sư công nghệ (AI/ML/NLP/CV/Software Engineer): Những người muốn xây dựng hệ thống Document AI hoàn chỉnh, hoặc backend engineer muốn rèn luyện kỹ năng xây dựng AI production-ready .
Data Scientist: Những người muốn mở rộng chuyên môn sang mảng LLM/VLM và Document Understanding .
Chuyên viên, Technical BA, Tester: Những người đang tham gia hoặc xây dựng giải pháp eKYC, Invoice Processing, Intelligent Document Processing (IDP) tại các ngân hàng, công ty Fintech .

Chuẩn đầu ra 

Giá trị lớn nhất của khóa học là học viên sẽ hoàn thành hệ thống AI Document Understanding End-to-End. Pipeline hệ thống cuối khóa bao gồm

Giá trị lớn nhất của khóa học là học viên sẽ hoàn thành hệ thống AI Document Understanding End-to-End. Pipeline hệ thống cuối khóa bao gồm

Layout Analysis: Xác định các vùng nội dung trên tài liệu.

OCR & KIE: Phát hiện, nhận diện chữ và trích xuất các trường thông tin quan trọng (Tên công ty, Ngày tháng, Địa chỉ, Tổng tiền).

Serving & API: Trả về dữ liệu dạng Structured JSON thông qua FastAPI và Swagger UI.

Deployment: Cấu trúc Dual Backend, benchmark tốc độ và triển khai thực tế bằng Docker.

Lộ trình học tập 

- Demo các sản phẩm nổi bật hiện nay: PaddleOCR + PP-Structure, EasyOCR, DeepDoc + VietOCR.
- Giới thiệu Document Understanding: pipeline tổng thể, ứng dụng thực tế.
- Giới thiệu SROIE: cấu trúc thư mục, format annotation (bbox + text + KIE label).
- Layout Analysis (lý thuyết): DocLayout-YOLO – YOLO-based, phân vùng text/table/figure/title.
- Tổng quan bài toán Text Detection.
- DB-Net: real-time, differentiable binarization.
- MixNet: mixed depthwise convolution, multi-scale feature fusion.
- YOLO Detection Text.
- Fine-tune MixNet cho text detection trên bộ dữ liệu SROIE.
- Đánh giá mô hình với Precision, Recall, F1-Score.
- CRNN + BiLSTM + CTC – kiến trúc OCR baseline.
- TransformerOCR: encoder-decoder Transformer, cross-attention.
- PARSeq: Permuted Autoregressive Sequence.
- So sánh CTC vs Attention vs PARSeq.
- Fine-tune PARSeq trên bộ dữ liệu SROIE.
- Đánh giá bằng CER/WER.
- Giới thiệu VietOCR cho tiếng Việt.
- NER trên tài liệu với BIO Tagging.
- LayoutLMv3: Multi-modal Pretraining.
- So sánh LayoutLM v1, v2, v3.
- Trích xuất Company, Date, Address, Total từ hóa đơn.
- Fine-tune LayoutLMv3 trên bộ dữ liệu SROIE.
- Đánh giá bằng F1 Score và Exact Match.
- Kiến trúc Transformer và Qwen2.5-3B.
- LoRA, QLoRA, PEFT, Instruction Tuning.
- Xây dựng dataset SROIE dạng OCR Text → JSON.
- Zero-shot Evaluation trên Qwen2.5-3B.
- Fine-tune Qwen2.5-3B cho bài toán KIE.
- So sánh trước và sau Fine-tune.
- Kiến trúc VLM: Vision Encoder + LLM Decoder.
- Các mô hình OCR hiện đại: GLM-OCR, LightRAG OCR, Chandra OCR, NanoOCR.
- OCR-Free KIE và OCR-Based KIE.
- Trade-off giữa OCR Pipeline và VLM Pipeline.
- Phân tích latency, chi phí, độ chính xác.
- Fine-tune InternVL-1B/3B/8B cho dữ liệu tiếng Việt.
- Xây dựng VLM Instruction Dataset từ SROIE.
- Fine-tune bằng LoRA.
- OCR-Free KIE bằng Vision-Language Model.
- Đánh giá bằng Exact Match và F1 Score.
- So sánh OCR Pipeline với VLM Pipeline.
- ONNX Export.
- ONNX Runtime và TensorRT.
- Quantization INT8 và FP16.
- Dynamic vs Static Quantization.
- Benchmark latency, throughput và memory usage.
- Tối ưu LayoutLMv3, PARSeq và Qwen VLM.
- FastAPI Fundamentals.
- REST API cho OCR, KIE và VLM.
- Upload file PDF/Image.
- Async Processing.
- Middleware, Logging, Error Handling.
- Swagger/OpenAPI Documentation.
- Tích hợp OCR Pipeline vào API Service.
- Docker cơ bản.
- Docker Compose cho hệ thống OCR/KIE.
- Container hóa FastAPI Service.
- Kubernetes cơ bản.
- Deployment, Service, Ingress.
- Horizontal Pod Autoscaling (HPA).
- Public API ra Internet.
- Thiết kế hệ thống Document Understanding hoàn chỉnh.
- Tích hợp Layout Detection → OCR → KIE → API.
- Hoặc xây dựng hệ thống OCR-Free KIE bằng VLM.
- ONNX Export và Quantization Production.
- Docker Compose Full Stack.
- Benchmark F1, Latency, Throughput.
- Review kiến trúc và Code Review.
- Demo hệ thống hoàn chỉnh.
- Bảo vệ dự án cuối khóa.
- Đánh giá kiến trúc hệ thống.
- Phân tích hiệu năng và khả năng mở rộng.
- Góp ý từ giảng viên.

Giảng viên

ThS. Nguyễn Hữu Đạt

- Giảng viên Computer Science tại Phenikaa University.

- Product Architecture Lead tại ZenAVI Tech, AI Team Leader & Data Scientist tại Zsolution, AI Engineer tại Hyperlogy và Viettel Construction.

- Hơn 5 năm kinh nghiệm phát triển OCR, Document AI, eKYC; từng triển khai giải pháp cho AEON, CoopMart, Agribank, HDBank.

- Chuyên gia thực chiến thành thạo PyTorch, FastAPI, OpenCV, ONNX, Docker, vLLM.

Xem thêm

Dự án học viên

Feedback học viên 

Phạm Tiến Dũng

AI Engineer - Giải pháp Số hóa Ngân hàng - ★★★★★

Ngân hàng mình có hàng triệu tài liệu KYC, sao kê và tờ trình pháp lý ở dạng PDF quét tay rất mờ, dùng OCR truyền thống lỗi font và mất cấu trúc bảng liên tục. Khóa học AI for Document Understanding tại Cole thực sự đã giải quyết tận gốc bài toán. Lộ trình hướng dẫn từ xử lý ảnh nâng cao, table detection bằng YOLO đến fine-tune LayoutLM cực kỳ thực chiến. Hiện tại, hệ thống tự động bóc tách của team mình đạt độ chính xác trên 95%, giải phóng 90% sức lao động nhập tay.

Nguyễn Khánh Chi

Tech Lead - Tự động hóa Chuỗi cung ứng - ★★★★

Khi công ty muốn tự động hóa bóc tách hóa đơn vận đơn từ nhiều quốc gia với bố cục thay đổi liên tục, mình đã bế tắc với các tool viết rule vì chúng rất dễ vỡ. Bootcamp MasterClass AI for Document Understanding tại Cole chính là câu trả lời toàn diện nhất. Khóa học dạy cực sâu về kiến trúc End-to-End từ tiền xử lý, phân tích Layout đến đưa data về dạng JSON chuẩn hóa để đồng bộ trực tiếp lên ERP. Mentor hỗ trợ sửa lỗi logic nghiệp vụ rất sát sao, giúp dự án của mình triển khai thành công sau 3 tháng học.

Hoàng Minh Triết

Fullstack Developer / Freelancer - ★★★★★

Là một lập trình viên phần mềm, mình muốn xây dựng các tính năng AI trích xuất tài liệu thông minh cho khách hàng nhưng luôn gặp rào cản về xử lý ảnh và AI đa phương tiện. Tham gia khóa học Document Understanding System của Cole đã cung cấp cho mình một bộ khung code (boilerplate) hoàn chỉnh từ A-Z. Tài liệu mẫu chi tiết, mã nguồn cực kỳ gọn gàng giúp mình ứng dụng ngay vào các dự án freelancer như bóc tách bệnh án y khoa hay hợp đồng thương mại. Một khóa học vô cùng đắt giá!

Lợi ích chỉ có tại COLE

Giới thiệu việc làm sau khóa học

Học lại free

Cộng đồng chuyển đổi số 1

Câu hỏi thường gặp

Không. Đây là khóa học online qua video đã được ghi hình, học viên có thể học theo tốc độ của riêng mình, không phụ thuộc vào lịch học live.
Video được cung cấp trọn đời, bạn có thể xem lại không giới hạn số lần cho đến khi nắm vững kiến thức.
Có. Học viên sẽ được nhận slide bài giảng, file dữ liệu thực hành, hướng dẫn chi tiết để dễ dàng thực hành song song với video.
Nội dung được thiết kế theo tỉ lệ 60% lý thuyết – 40% thực hành, kèm các bài tập & case study từ tình huống thực tế.
Bạn có thể đặt câu hỏi và nhận hỗ trợ từ trợ giảng & cộng đồng học viên riêng.
Có. Bạn sẽ nhận toàn bộ video, tài liệu và quyền tham gia cộng đồng học viên.
Liên hệ với chúng tôi

Để biết thêm thông tin chi tiết đừng ngần ngại gọi cho chúng tôi.

Hoặc để lại thông tin

COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills

5000+

Học viên theo học

30%

Thu nhập học viên tăng lên sau khi học

30+ Khóa học

Hàng đầu về ứng dụng công nghệ

50+

Chuyên gia hàng đầu về chuyển đổi số

300+ Doanh nghiệp hàng đầu lựa chọn Cole để nâng cấp kỹ năng