AI có thể đọc và hiểu tài liệu tốt đến đâu?
Từ hóa đơn, chứng từ ngân hàng, hợp đồng, biểu mẫu cho đến tài liệu doanh nghiệp, bài toán ngày nay không còn dừng lại ở OCR. Một hệ thống Document AI hiện đại cần có khả năng hiểu bố cục tài liệu, trích xuất thông vị quan trọng, suy luận ngữ cảnh và triển khai hiệu quả trong môi trường production.
MasterClass AI for Document Understanding được thiết kế để đưa học viên đi trọn hành trình từ OCR truyền thống đến Document AI thế hệ mới:
Layout Analysis → OCR → KIE → LLM/VLM → Model Optimization → FastAPI → Docker → Kubernetes → Production System
Khóa học phù hợp với AI Engineer, Machine Learning Engineer, Data Scientist và các kỹ sư phần mềm muốn xây dựng hệ thống Document AI hoàn chỉnh phục vụ các bài toán OCR, eKYC, Intelligent Document Processing và tự động hóa nghiệp vụ doanh nghiệp.
3 Trụ cột cốt lõi của khoá học
OCR & Layout Analysis
Làm chủ OCR Pipeline thực tế với DocLayout-YOLO, MixNet và PARSeq. Xây dựng KIE (Key Information Extraction) hiệu quả.
LLM/VLM cho Document AI
Ứng dụng Vision-Language Model (Vintern-1B, Qwen2.5), phương pháp OCR-free, Fine-tuning với LoRA/QLoRA và xây dựng dataset.
Serving & Production
Tối ưu mô hình ONNX, Quantization INT8/INT4. Triển khai API serving với FastAPI, vLLM, Docker và Kubernetes.
Hiểu toàn bộ pipeline của một hệ thống Document AI hiện đại từ ảnh tài liệu đến dữ liệu có cấu trúc và API serving.
Làm chủ các thành phần cốt lõi của OCR Pipeline gồm Layout Analysis, Text Detection và Text Recognition và hệ thống KIE.
Hiểu, áp dụng, fine-tune (LoRA/QLoRA) và đánh giá các mô hình Document Understanding sử dụng LLM/VLM tiên tiến.
Tối ưu mô hình cho môi trường production với ONNX Runtime, INT8/INT4 Quantization.
Xây dựng hệ thống AI serving production-ready bằng FastAPI, vLLM, Docker Compose và Kubernetes.
Nội dung nổi bật (12 buổi + Capstone Project)
1. OCR Pipeline cho tài liệu thực tế
- Tổng quan về Document Understanding
- Layout Analysis với DocLayout-YOLO
- Text Detection với MixNet & Text Recognition với PARSeq
- Đánh giá và phân tích lỗi OCR
2. Key Information Extraction (KIE)
- LayoutLMv3 & Spatial-aware Transformer
- Document Understanding dựa trên Layout Information
- Fine-tune và đánh giá trên dataset SROIE
3. Vision-Language Model cho Document AI
- Vintern-1B-v3.5 cho tiếng Việt & OCR-free Document Understanding
- Instruction Dataset Construction
- LoRA và QLoRA Fine-tuning
- So sánh OCR Pipeline và VLM Pipeline
4. LLM Serving & Production Deployment
- Qwen2.5-3B cho Document Understanding & vLLM Serving
- FastAPI Inference Service
- ONNX Runtime, Model Optimization, INT8/INT4 Quantization
- Benchmark Latency, Throughput và Resource Usage
- Docker Compose và Kubernetes Deployment & Production Architecture
5. Capstone Project
Xây dựng hệ thống Document Understanding hoàn chỉnh:
Document Image → Layout Analysis → OCR → Key Information Extraction → Structured JSON → API Serving → Deployment
(Dataset xuyên suốt khóa học: SROIE - Receipt Understanding Benchmark)
Mentor — ThS. Nguyễn Hữu Đạt
Giảng viên Computer Science tại Phenikaa University
- Product Architecture Lead tại ZenAVI Tech
- AI Team Leader & Data Scientist tại Zsolution
- AI Engineer & Big Data Engineer tại Viettel Construction
- AI Engineer tại Hyperlogy Corporation
Kinh nghiệm chuyên môn: Hơn 5 năm kinh nghiệm phát triển các hệ thống OCR, Document AI, Information Extraction và eKYC. Từng triển khai giải pháp cho AEON, Circle K, CoopMart, Big C, Agribank, HDBank. Thành thạo PyTorch, FastAPI, OpenCV, ONNX, TensorRT, Docker, vLLM, LLM và RAG.
Khóa học được thiết kế dành cho:
- AI Engineer, Machine Learning Engineer, Data Scientist.
- NLP Engineer, Computer Vision Engineer.
- Software Engineer muốn chuyển hướng sang AI.
- Technical BA hoặc Tester đang tham gia các dự án OCR, eKYC hoặc Document AI.
- Các kỹ sư muốn xây dựng hệ thống Intelligent Document Processing trong doanh nghiệp.
Học viên tham gia sẽ nhận được
- Slide bài giảng chi tiết, Notebook thực hành & Source code toàn bộ pipeline.
- Dataset và tài nguyên thực hành, Checkpoint model, Deployment template.
- Recording đầy đủ các buổi học & Chứng nhận hoàn thành khóa học.
- Hỗ trợ giải đáp chuyên môn trực tiếp từ Mentor trong suốt chương trình.
Thông tin khóa học
Khai giảng: Thứ 4 – 08/07/2026
Hình thức: Online qua Zoom (có recording)
Lịch học: Thứ 4 & Thứ 6 hàng tuần, 20h00 – 22h00
Thời lượng: 12 buổi chuyên sâu + Final Production Project
Nội dung chi tiết: Xem Sheet Lộ Trình
Nếu bạn muốn xây dựng các hệ thống OCR, eKYC, Document AI production-ready cho doanh nghiệp, đây sẽ là lộ trình giúp bạn đi từ mô hình AI đến hệ thống hoàn chỉnh sẵn sàng triển khai thực tế.