Khóa Master Class DataOps for Data Platforms: From Pipeline to Production| Bootcamp

Tổng quan

Trong thực tế, xây được data pipeline chỉ là bước đầu - thách thức lớn nhất nằm ở việc vận hành hệ thống dữ liệu ổn định, an toàn và scalable trên production. Với khối lượng dữ liệu ngày càng lớn và yêu cầu real-time, DataOps đang trở thành “mảnh ghép còn thiếu” giúp Data Platform hoạt động hiệu quả trong doanh nghiệp. MasterClass DataOps for Modern Data Platforms: From Pipeline to Production được thiết kế nhằm giúp học viên xây dựng tư duy vận hành hệ thống dữ liệu theo chuẩn production: reliable, observable, secure và có khả năng scale thực tế. Lộ trình học đi từ nền tảng → pipeline → monitoring → production (11 buổi học): Python & SQL , Airflow , Data Warehouse & Lakehouse , PySpark , CI/CD , Monitoring (Prometheus, Grafana) , Data Quality , Security & PII , Optimization , Incident Handling , Lineage , DataOps Mindset

Mục tiêu học tập

1. Hiểu & áp dụng các nguyên lý vận hành DataOps Nắm được các khái niệm cốt lõi như idempotency, reliability, reconciliation – nền tảng để xây pipeline an toàn.

2. Tự xây dựng & vận hành pipeline dữ liệu an toàn Có khả năng thiết kế pipeline chạy lại không lỗi, không gây sai lệch dữ liệu.

3. Giám sát & kiểm thử chất lượng dữ liệu Biết cách theo dõi pipeline, kiểm tra data quality và thiết lập cảnh báo khi có sự cố.

4. Truy vết & xử lý sự cố theo quy trình (runbook) Có kỹ năng tìm root cause, xử lý lỗi hệ thống dữ liệu một cách bài bản.

5. Hiểu các khái niệm vận hành nâng cao Nắm được các nền tảng như high-SLA, high availability (HA), disaster recovery để phát triển sâu hơn.

6. Xây nền tảng để phát triển lên DataOps / Platform Engineer Sau khóa học có đủ kiến thức và định hướng để đi theo career path chuyên sâu về vận hành hệ thống dữ liệu.

7. Hoàn thiện 1 project DataOps Hoàn thiện 1 dự án DataOps end-to-end, sẵn sàng đưa vào CV/Portfolio để chứng minh năng lực vận hành hệ thống dữ liệu thực tế.

Đối tượng học tập

Học viên đang học / đã có nền tảng Data Engineering, muốn học cách VẬN HÀNH hệ thống dữ liệu

Data Engineer muốn nâng kỹ năng về reliability, security, monitoring & xử lý sự cố

System Engineer / DevOps muốn định hướng sang lĩnh vực Data.

Người muốn định hướng sang vai trò DataOps / Platform Engineer

Lộ trình học tập

Buổi 1: Tư duy DataOps & Nguyên lý vận hành

• DataOps là gì & ranh giới với Data Engineer/Data Analytics & Vai trò của DataOps trong Data Team
• Vì sao reliability quan trọng - nhất là với dữ liệu tài chính / giao dịch
• Nguyên lý cốt lõi: idempotency, reproducibility, reconciliation.
• Thế nào là pipeline chuẩn trên Production.
• Tổng quan tech stack & lộ trình: Python, SQL, Spark, Airflow, Prometheus/Grafana.

Buổi 2: Giới thiệu Airflow, kiến trúc & triển khai

• Airflow là gì & vai trò trong DataOps
• Các component: Scheduler, Executor, Webserver, Metadata DB, Worker
• Các loại Executor: Local / Celery / Kubernetes - khác nhau ra sao
• Các hướng triển khai: local Docker, Docker Compose, trên Kubernetes (Helm)
• Giới thiệu khái niệm HA & GitOps cho Airflow

Buổi 3: Viết DAG & các khái niệm nâng cao

• DAG, Task, Operator - cách viết DAG đúng chuẩn
• Idempotency & atomicity - vì sao cực kỳ quan trọng
• Scheduling: cron, schedule interval, catchup; backfill an toàn
• Retry, timeout, SLA, alert; dependency giữa Task & giữa DAG
• XCom, Pool, Connection, Variable, Sensor

Buổi 4: SQL in DataOps - Stack Data Warehouse

• SQL pipeline reliable: MERGE/upsert, overwrite theo partition,...
• Transaction & chạy lại không nhân đôi dữ liệu
• Reconciliation - đối soát số liệu để đảm bảo đúng/đủ
• Quản lý dependency giữa các bước SQL

Buổi 5: PySpark in Modern Lakehouse

• Khi nào cần Lakehouse (dữ liệu lớn, object storage + table format)
• Triển khai stack Lakehouse trong DataOps
• PySpark pipeline reliable: atomic & idempotent writes, partition overwrite an toàn
• Table format (Delta/Iceberg): ACID & time travel giúp pipeline an toàn
• Case study: migrate DWH → Data Lake an toàn, minimal-downtime

Buổi 6: Tối ưu hiệu năng & chi phí

• Tư duy tối ưu: đủ nhanh để đạt mục tiêu, không over-engineer
• Đọc query plan (DWH) & Spark UI (Lakehouse) tìm bottleneck
• Bottleneck phổ biến: data skew, small-files, shuffle
• Partitioning, caching, broadcast join cơ bản
• Tối ưu chi phí cloud

Buổi 7: Bảo mật & Dữ liệu nhạy cảm

• Secrets management - tuyệt đối không hardcode
• Xử lý PII: masking, encryption, anonymization
• Phân quyền truy cập dữ liệu (least privilege)
• Governance cho dữ liệu regulated (vd: tài chính, ngân hàng)
• Audit logging cơ bản

Buổi 8: CI/CD cho Data Pipeline

- Git flow & vì sao cần CI/CD cho pipeline
- Test cho pipeline: unit test (Python/SQL/Spark) & data test
- CI: tự động lint + test khi có thay đổi code
- CD: tự động deploy pipeline lên môi trường (local / Docker)
- Khái niệm GitOps & rollback (giới thiệu)

Buổi 9: Monitoring, Cảnh báo & Data Quality

• Vì sao cần giám sát cả pipeline lẫn chất lượng dữ liệu
• Metric cơ bản & dashboard với Prometheus + Grafana
• Alerting đúng cách - tránh alert fatigue
• Data quality testing với Great Expectations (schema, null, duplicate, business rule)
• Theo dõi data freshness & reconciliation tự động

Buổi 10: Sự cố, root cause analysis(RCA) & Phục hồi

• Khi pipeline fail: quy trình điều tra nguyên nhân (RCA)
• Dùng metadata & lineage để truy vết tác động & nguồn gốc lỗi
• Runbook - kịch bản xử lý sự cố lặp lại
• Backup & Disaster Recovery: khái niệm RTO/RPO
• Case study: trợ lý DataOps tự động điều tra sự cố & gợi ý runbook (LLM agent)
Hướng dẫn hoàn thành Final Project:
• Giới thiệu đề bài final project & bối cảnh nghiệp vụ
• Yêu cầu đầu ra bắt buộc & tiêu chí đánh giá
• Gợi ý kiến trúc & lựa chọn stack (DWH vs Lakehouse)

Buổi 11: Project & Demo cuối khóa

• Các bạn học viên hoàn thiện & demo dự án DataOps end-to-end
• Trình bày quyết định thiết kế: reliability, security, monitoring
• Review chéo & feedback từ mentor
• Tổng kết & career roadmap: DataOps / Platform Engineer

FINAL PROJECT

Yêu cầu nghiệp vụ
- Xây dựng pipeline đưa dữ liệu giao dịch (eCommerce/POS hoặc tài chính) thành các bảng phân tích phục vụ báo cáo.
- Pipeline phải idempotent, an toàn khi chạy lại / backfill, có reconciliation đối soát số liệu.
- Có kiểm thử chất lượng dữ liệu, giám sát & cảnh báo khi sự cố.
- Dữ liệu nhạy cảm (PII) được che/giấu & phân quyền.
Kiến trúc tổng quan (chọn 1 trong 2 stack)
- Stack DWH: SQL trên Data Warehouse (Postgres/BigQuery...), hoặc
- Stack Lakehouse: PySpark + table format (Delta/Iceberg) trên object storage.
- Điều phối bằng Apache Airflow.
- CI/CD chạy trên local / Docker.
- Monitoring bằng Prometheus + Grafana; kiểm thử dữ liệu bằng Great Expectations.
- Có runbook xử lý sự cố cơ bản.
- Triển khai bằng Docker Compose.

Giảng viên

Nguyễn Hoàng Quốc Anh

Nguyễn Hoàng Quốc Anh - Senior Data Engineer / Senior DataOps tại Techcombank

- Kinh nghiệm sâu về Data / Ops Engineer (Banking & E-Commerce)
- Xây dựng & phát triển data pipeline ở quy mô lớn (batch & streaming)
- Thiết kế, vận hành data platform trên Kubernetes (Docker, Airflow, Terraform)
- Chuyên sâu streaming pipeline xử lý hàng triệu event/ngày, latency thấp
- Tối ưu hạ tầng & pipeline, tiết kiệm đáng kể chi phí vận hành
- Vững về data quality, reconciliation & governance cho dữ liệu tài chính / e-commerce.

Câu hỏi thường gặp

Khóa Master Class DataOps for Data Platforms: From Pipeline to Production| Bootcamp

Tổng quan

Lợi ích khóa học

Mục tiêu học tập

Đối tượng học tập

Chuẩn đầu ra

Lộ trình học tập

Giảng viên

Lợi ích chỉ có tại COLE

Câu hỏi thường gặp

COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills

Hình ảnh lớp học

Khóa Master Class DataOps for Data Platforms: From Pipeline to Production| Bootcamp

Tổng quan

Lợi ích khóa học

Mục tiêu học tập

Đối tượng học tập

Chuẩn đầu ra

Lộ trình học tập

Giảng viên

Lợi ích chỉ có tại COLE

Câu hỏi thường gặp

COLE - Lựa chọn hàng đầu cho nhânsự về Digital Skills

Hình ảnh lớp học

COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills