Computer Vision đang phát triển mạnh mẽ và là một trong những trụ cột của Trí tuệ nhân tạo. Từ việc tự động hóa trong các nhà máy đến các công nghệ hiện đại như xe tự lái hay eKYC, CV luôn đóng vai trò nòng cốt.
Nhằm giúp các bạn nắm bắt quy trình làm việc thực tế, trong buổi Webinar "Computer Vision end-to-end — From Scratch to Production", diễn giả Anh Cường (Chuyên gia Computer Vision tại VinFast, cựu chuyên gia tại Samsung SDS AI Research Lab) đã có những chia sẻ cực kỳ chuyên sâu về kiến thức nền tảng và cách giải quyết bài toán thực chiến. Cùng Cole.vn recap lại những giá trị cốt lõi và các câu hỏi ấn tượng nhất từ buổi hội thảo nhé!
Phần 1: Kiến Thức Diễn Giả Chia Sẻ
1.1. Computer Vision Là Gì Và Tại Sao Nó Quan Trọng?
Theo anh Cường, AI và CV sinh ra để mô phỏng khả năng của con người. Thị giác là giác quan mạnh mẽ nhất — não người dùng gần một nửa vỏ não để xử lý thông tin hình ảnh, và võng mạc con người truyền dữ liệu với tốc độ lên đến ~3 GB/giây. Việc trang bị "đôi mắt" cho máy tính mang lại vô vàn lợi ích:
Giải phóng sức lao động: Thay thế con người trong các công việc nhàm chán và lặp đi lặp lại như kiểm tra lỗi sản phẩm trong nhà máy, đọc biển số xe hay đếm số lượng người ra vào.
Nâng cao khả năng con người: Hỗ trợ các công nghệ như nhận diện khuôn mặt, điều khiển bằng cử chỉ tay, Augmented Reality (AR) hay theo dõi ánh mắt.
Công nghệ tương lai: Là nền tảng không thể thiếu cho robot, xe tự lái (autonomous vehicles), drone giao hàng.
Tổ chức nội dung trực quan: Giúp máy tính tìm kiếm, phân loại và hiểu nội dung từ hàng tỷ ảnh/video trên internet (Google Photos, TikTok, YouTube...).
1.2. Luồng Xử Lý Cơ Bản Của Một Hệ Thống Computer Vision
Một pipeline CV hoàn chỉnh bao gồm bốn bước tuần tự:
Thu thập hình ảnh (Image Acquisition): Chụp ảnh hoặc thu video từ camera.
Xử lý hình ảnh (Image Processing): Nâng cao chất lượng ảnh, loại bỏ nhiễu, chuẩn hóa kích thước và định dạng.
Trích xuất đặc điểm (Feature Extraction): Nhận dạng đối tượng, cạnh, màu sắc và các mẫu hình đặc trưng trong ảnh.
Đưa ra quyết định (Decision Making): Phát hiện khuôn mặt, phân loại đối tượng, đếm người, cảnh báo bất thường...
1.3. Các Cấp Độ Bài Toán Trong Computer Vision
Anh Cường phân chia các bài toán CV theo độ phức tạp tăng dần, giúp người học xác định rõ mình đang ở đâu trên lộ trình:
Phân loại ảnh (Image Classification): Gán nhãn cho toàn bộ bức ảnh. Ví dụ: ảnh này là "mèo" hay "chó"? Đây là bài toán cốt lõi, là nền tảng cho hầu hết các bài toán CV phức tạp hơn.
Phát hiện đối tượng (Object Detection): Xác định vị trí và loại của từng đối tượng trong ảnh bằng bounding box. Ví dụ: phát hiện người và xe trong camera giao thông.
Phân đoạn ảnh (Image Segmentation): Xác định chính xác từng pixel thuộc về đối tượng nào. Ứng dụng phổ biến trong y tế (phân tích ảnh MRI, X-quang).
Các bài toán nâng cao: Nhận diện khuôn mặt (Face Recognition), OCR (nhận dạng ký tự), Depth Estimation (ước lượng độ sâu), Video Analytics (phân tích video nhiều frame)...
1.4. Thách Thức Của Bài Toán Phân Loại Ảnh Dưới Góc Nhìn Thuật Toán
Dù nghe có vẻ đơn giản, nhưng để xây dựng một mô hình phân loại ảnh tốt trong thực tế, thuật toán phải đồng thời vượt qua rất nhiều thách thức:
Biến đổi góc nhìn (Viewpoint variation): Cùng một đối tượng nhìn từ các góc độ khác nhau trông rất khác nhau.
Biến đổi tỷ lệ (Scale variation): Cùng một vật thể nhưng ở khoảng cách khác nhau sẽ có kích thước rất khác trong ảnh.
Biến dạng (Deformation): Nhiều đối tượng (như cơ thể người, động vật) có thể uốn cong theo nhiều hình dạng khác nhau.
Che khuất (Occlusion): Đôi khi chỉ nhìn thấy một phần rất nhỏ của đối tượng mà vẫn cần nhận diện đúng.
Điều kiện chiếu sáng (Illumination): Ánh sáng thay đổi ảnh hưởng cực lớn đến giá trị pixel — cùng một vật nhưng ban ngày và ban đêm trông rất khác nhau.
Nhiễu nền (Background clutter): Đối tượng hòa lẫn vào môi trường xung quanh, gây khó khăn cho việc tách biệt.
Biến thiên trong cùng lớp (Intra-class variation): "Cái ghế" có hàng nghìn kiểu dáng khác nhau nhưng đều phải được nhận diện đúng là "ghế".
1.5. Research Demo vs. Production AI System — Ranh Giới Quan Trọng
Đây là một trong những nội dung được anh Cường nhấn mạnh nhất. Rất nhiều kỹ sư mới ra trường nhầm lẫn giữa hai thế giới này:
Research Demo: Chạy trên notebook Jupyter với dataset sạch từ Kaggle, chỉ cần đạt accuracy cao là thành công. Môi trường ổn định, không có áp lực latency hay chi phí vận hành.
Production AI System: Phải xử lý dữ liệu thực tế "bẩn" và không đồng đều, yêu cầu độ trễ thấp, hoạt động ổn định 24/7, có khả năng mở rộng (scale) và cần bảo trì liên tục. Thất bại có thể gây thiệt hại kinh tế trực tiếp cho doanh nghiệp.
Khoảng cách giữa hai thế giới đó chính là cơ hội nghề nghiệp cho những ai chịu học đúng hướng. Ngay từ khi học, hãy tập thói quen suy nghĩ: hệ thống này sẽ chạy ở đâu, xử lý bao nhiêu request/giây, nếu model sai thì hậu quả là gì?
1.6. Tối Ưu Hóa Cho Real-Time & Edge Devices
Một phần nội dung được nhiều kỹ sư chú ý là cách tối ưu mô hình để chạy trên các thiết bị biên có tài nguyên hạn chế. Các kỹ thuật phổ biến trong production:
Quantization (Lượng tử hóa): Giảm độ chính xác số học của model (FP32 xuống INT8) để model nhẹ và chạy nhanh hơn, chấp nhận đánh đổi một chút độ chính xác.
Pruning (Cắt tỉa): Loại bỏ các neuron/kết nối ít quan trọng trong mạng để giảm kích thước model.
Knowledge Distillation (Chưng cất tri thức): Dùng model lớn (teacher) dạy model nhỏ (student) để đạt kết quả tương đương với kích thước siêu gọn.
TensorRT / ONNX Runtime: Các framework tối ưu inference hiệu quả trên GPU NVIDIA và các chip chuyên dụng. Anh Cường chia sẻ kinh nghiệm tại VinFast: kết hợp quantization và TensorRT giúp giảm latency từ hơn 100ms xuống dưới 20ms — bước ngoặt giúp hệ thống đáp ứng được yêu cầu dây chuyền sản xuất.
1.7. Các Bài Toán Computer Vision Thực Tế Trong Doanh Nghiệp
Anh Cường điểm qua các bài toán CV phổ biến nhất mà ông đã trực tiếp triển khai hoặc nghiên cứu trong sự nghiệp:
Nhận diện khuôn mặt (Face Recognition): Pipeline gồm nhiều bước — Face Detection → Face Embedding → Face Matching. Ứng dụng: mở khóa điện thoại, chấm công tự động, kiểm soát an ninh.
Phát hiện đối tượng (Object Detection): Phát hiện và định vị người, xe, vật thể trong camera giao thông, giám sát. Yêu cầu xử lý real-time với độ trễ thấp.
Nhận dạng ký tự (OCR): Pipeline gồm Text Detection (phát hiện vùng chứa chữ) và Text Recognition (đọc nội dung). Ứng dụng: đọc biển số xe, số serial sản phẩm, xử lý tài liệu.
Phát hiện bất thường (Anomaly Detection): Phát hiện lỗi sản phẩm trên dây chuyền sản xuất — bài toán điển hình của class imbalance nghiêm trọng (99.9% sản phẩm tốt, 0.1% lỗi).
eKYC (Electronic Know Your Customer): Xác minh danh tính điện tử kết hợp nhiều module — Document Detection → OCR đọc CCCD → Face Detection → Face Matching đối chiếu ảnh giấy tờ với ảnh chụp trực tiếp. Đòi hỏi độ chính xác cao trong môi trường tài chính - ngân hàng.
Bạn muốn học cách xây dựng các hệ thống AI như trên từ đầu đến production? Khám phá Khóa học AI Engineer tại Cole.vn
Phần 2: Các Câu Hỏi Hay Từ Người Tham Gia Webinar
Phần giá trị nhất của buổi Webinar là khi anh Cường trực tiếp giải đáp những bài toán nan giải mà các kỹ sư CV đang gặp phải trong thực tế. Dưới đây là toàn bộ câu hỏi và câu trả lời từ phiên Q&A.
Câu hỏi 1: Làm sao để tăng tốc độ Inference (suy luận) khi chạy mô hình trên Edge Device (thiết bị biên) mà vẫn giữ được độ chính xác?
Để đưa mô hình chạy real-time trên các thiết bị cấu hình yếu, anh Cường gợi ý các phương pháp:
Tối ưu hóa Pipeline: Tối ưu lại khâu tiền xử lý (Pre-processing) và hậu xử lý (Post-processing). Đôi khi việc chuyển đổi các hàm tính toán hợp lý cũng tiết kiệm được rất nhiều thời gian.
Lượng tử hóa (Quantization): Khi export mô hình, hãy chuyển định dạng về mức thấp hơn (ví dụ INT8 thay vì FP32). Mô hình sẽ nhẹ hơn và chạy nhanh hơn rất nhiều, tuy nhiên cần kiểm tra kỹ xem độ chính xác có bị giảm mạnh không.
Cắt tỉa (Pruning) & Chưng cất tri thức (Knowledge Distillation): Cắt bỏ các layer/node không có giá trị, hoặc dùng một mô hình nhỏ (Student) học lại từ một mô hình lớn (Teacher) để giữ hiệu suất cao với kích thước siêu gọn.
Câu hỏi 2: Bài toán nhận diện lỗi sản phẩm trong nhà máy, nếu dây chuyền thay đổi sản phẩm liên tục thì mô hình theo kịp như thế nào?
Trong thực tế sản xuất, nhà máy thay đổi mã hàng liên tục. Giải pháp thực chiến được đưa ra:
Xây dựng Tool linh hoạt cho người dùng cuối: Thiết kế một hệ thống pipeline tự động. Khi có mã hàng mới, người kỹ sư dưới xưởng chỉ cần chụp và đưa "ảnh sản phẩm chuẩn" (golden pattern) vào hệ thống.
Hệ thống có thể sử dụng xử lý ảnh truyền thống (so khớp pattern) hoặc tự động fine-tune nhanh ra một mô hình mới cho riêng mã hàng đó mà không cần team AI phải can thiệp lại từ đầu.
Câu hỏi 3: Từ lúc làm Prototype (nguyên mẫu) ở máy cá nhân đến khi đưa lên Production phục vụ khách hàng (như eKYC) sẽ trải qua các bước nào?
Quá trình này không hề toàn màu hồng và cần có quy trình chặt chẽ:
Xử lý bài toán bắt đầu từ số 0: Khi mới bắt đầu thường không có data. Bạn phải dùng code, quy tắc cắt ghép để sinh ra dữ liệu nhân tạo giả lập để train mô hình bản v1.
Deploy và thu thập: Đóng gói thành API/Web App. Khi user bắt đầu dùng thật, hệ thống sẽ thu thập được dữ liệu thực tế đẩy về database.
Vòng lặp Active Learning: Bộ phận vận hành sẽ gán nhãn lại tập dữ liệu thực tế đó. Team AI lấy data thật này để train lại, vá các "edge cases" (trường hợp lỗi) và liên tục update lên production.
Câu hỏi 4: Làm thế nào để giải quyết bài toán kiểm tra nhân viên có mặc đồng phục hay không tại môi trường công sở/trường học?
Tiếp cận theo dạng pipeline 2 giai đoạn:
Bước 1: Sử dụng mô hình nhận diện người (như YOLO) để khoanh vùng vị trí người trong ảnh.
Bước 2: Cắt vùng ảnh đó và đưa vào mô hình phân loại (Classification) để xác định xem họ có mặc đồng phục hay không.
Mẹo về Data: Nếu thiếu data, có thể dùng phương pháp Data Augmentation (cắt ghép ảnh người mặc đồng phục chèn vào các background lớp học/công sở khác nhau) để làm đa dạng hóa bộ dữ liệu train.
Câu hỏi 5: Lấy tọa độ 3D của vật thể từ một bức ảnh 2D như thế nào?
Để giải quyết, bạn cần sử dụng các mô hình Depth Estimation (ví dụ như Depth Anything) để tính toán độ sâu từ camera đến các điểm ảnh. Để có tọa độ không gian chính xác, bạn cần xác định gốc tọa độ và có một vật thể tham chiếu để quy đổi tỉ lệ (ví dụ một người cao 1.7m) từ ảnh ra thực tế.
3. Định Hướng Nghề Nghiệp Ngành Computer Vision
Theo anh Cường, thị trường tuyển dụng kỹ sư Computer Vision đang ấm dần lên. Điểm cốt lõi giúp CV Engineer ghi điểm với nhà tuyển dụng:
Không chỉ là Deep Learning: Đừng bỏ qua kiến thức xử lý ảnh truyền thống (như OpenCV). Rất nhiều bài toán công nghiệp chỉ cần OpenCV là giải quyết xong gọn gàng và chạy cực nhanh.
Mở rộng phạm vi: Nếu muốn thăng tiến xa, bạn nên biết rộng. Hiểu biết thêm về NLP (Xử lý ngôn ngữ tự nhiên) hoặc LLM sẽ là một điểm cộng cực lớn, giúp bạn xây dựng các hệ thống giải quyết vấn đề toàn diện.
Tư duy giải quyết vấn đề: Nhà tuyển dụng thường đánh giá cao cách bạn tiếp cận và debug phân tích data hơn là việc bạn biết dùng bao nhiêu framework hay ngôn ngữ lập trình.
Portfolio thực chiến: Một dự án CV hoàn chỉnh được deploy lên server thật sẽ thuyết phục nhà tuyển dụng hơn nhiều chứng chỉ online cộng lại.
Tham khảo ngay: Khóa học Data Science tại Cole.vn — Làm chủ Machine Learning và Deep Learning từ nền tảng!
Lời Kết
Computer Vision không chỉ là cuộc chơi của những thuật toán phức tạp, mà là nghệ thuật của việc hiểu dữ liệu, tối ưu quy trình và giải quyết bài toán thực tế của doanh nghiệp. Hy vọng qua những chia sẻ chân thực từ chuyên gia Cường đến từ VinFast, các bạn đã có thêm cái nhìn toàn cảnh về ngành CV cũng như định hình được con đường phát triển chuyên môn vững chắc cho mình.
Sẵn sàng chinh phục mọi bài toán AI và Data từ con số 0? Tham khảo ngay các lộ trình học tập bài bản, thực chiến cùng Mentor giàu kinh nghiệm tại Cole.vn:
Tài liệu buổi học: Tham khảo Slide Presentation tại đây