Chào mọi người, mình là Đỗ Kiên – sinh viên năm cuối và cũng là cựu học viên lớp Data Engineer (DE K14) tại Cole.vn.
Hôm nay, ngồi nhìn lại luồng chạy mượt mà của hệ thống Project Data Engineering End-to-End NYC Taxi Lakehouse Analytics, mình mới thở phào nhẹ nhõm. Quá trình làm dự án tốt nghiệp này không chỉ là những đêm thức trắng để debug lỗi pipeline, mà còn là một hành trình thay đổi hoàn toàn tư duy của mình về Data và Business.

Mục Lục
1. Bài Toán Đặt Ra Không Chỉ Là Xử Lý Dữ Liệu Khủng
Khi bắt tay vào làm dự án cuối khóa, mình đã chọn phân tích bộ dữ liệu lịch sử của NYC Taxi (từ tháng 6 đến tháng 11/2025) kết hợp cùng dữ liệu thời tiết thực tế từ API của OpenWeather (cập nhật 3 giờ/lần). Mục tiêu mình đặt ra khá tham vọng, tập trung vào 3 bài toán chính:
Historical Analytics: Xử lý và lưu trữ khối lượng data lịch sử khổng lồ.
Real-time Monitoring: Giám sát các chỉ số vận hành (KPI, Active Trips, Heatmap các khu vực đón/trả khách).
Forecast: Xây dựng mô hình dự báo doanh thu và số lượng chuyến đi dựa trên sự biến động của thời tiết (trời quang, có mây, mưa) và biên độ nhiệt độ.

2. Kiến Trúc Lakehouse
Để giải quyết bài toán, mình đã thiết kế một hệ thống kiến trúc mà bản thân cảm thấy khá tâm đắc:
Storage Layer: Sử dụng Apache Iceberg trên nền MinIO để lưu trữ dữ liệu thô và bảng chuẩn hóa. Việc này giúp mình tách bạch hoàn toàn phần lưu trữ khỏi pipeline xử lý (ETL).
Serving Layer: Đẩy dữ liệu qua ClickHouse để phục vụ dashboard trên Streamlit với độ trễ cực thấp (low-latency).
API & Visualization: Dùng FastAPI để chuẩn hóa truy vấn time-series. Nếu ClickHouse có vấn đề, hệ thống sẽ tự động fallback sang PostgreSQL.
Nhưng điều đắt giá nhất không nằm ở việc công nghệ mình dùng 'xịn' ra sao, mà ở việc mình đã bị mentor 'xoay' như thế nào.
Trong buổi bảo vệ, anh mentor đã hỏi mình một câu chí mạng: "Dữ liệu của em là lịch sử (historical), đã tính toán sẵn trên Iceberg rồi. Tại sao em lại phải tốn công và tài nguyên để sync nó sang ClickHouse? Em có thực sự hiểu lý do mình dùng công cụ đó không?"
Lúc đó mình thực sự khựng lại. Anh mentor sau đó đã phân tích cực kỳ cặn kẽ cho mình về khái niệm Speed Layer: Việc dùng ClickHouse là xuất sắc khi ta cần xử lý những câu lệnh phân tích (analytical query) cực nặng trực tiếp trên dữ liệu thô (hàng chục triệu dòng) ở thời gian thực để giảm tải cho database vận hành. Còn với data tĩnh đã được tính toán sẵn, việc sync sang ClickHouse không mang lại nhiều ý nghĩa về mặt hiệu năng.
Đó là một bài học "tỉnh người" về tư duy thiết kế: Đừng dùng công nghệ chỉ vì thấy người ta dùng, hãy dùng vì hiểu rõ nó giải quyết nỗi đau gì cho hệ thống.
3. Tư Duy Business Data Sinh Ra Phải Make Sense
Một kỷ niệm đáng nhớ nữa là khi mình trình bày biểu đồ về sự tương quan giữa thời tiết và cước phí. Dashboard của mình hiện ra một điểm bất thường: Trời trong xanh (Clear) lại có mức phí trung bình (Average Fare) cao nhất. Anh mentor lập tức dừng lại và "vặn": "Theo logic thông thường, trời mưa gió, khách gọi taxi nhiều thì giá cước mới bị đẩy lên cao. Data của em hiện ra như vậy liệu có hợp lý không?"
Câu hỏi đó buộc mình phải nhìn lại toàn bộ logic làm data của mình. Mình nhận ra rằng doanh thu (Revenue) không chỉ là số tiền cước (Fare Amount), mà phải cấu thành từ Cước phí + Tiền Tip + Phụ phí (Extra). Việc tính toán sai lệch hoặc thiếu sót các trường dữ liệu nhỏ có thể dẫn đến insight hoàn toàn sai cho doanh nghiệp. Làm Data Engineer không chỉ là viết code luân chuyển dữ liệu từ A sang B, mà phải thực sự hiểu business, hiểu từng con số mình hiển thị lên Dashboard mang ý nghĩa gì.
*Mọi người có thể tham khảo Project trên github của mình tại: https://github.com/dokien092-hash/end-to-end-data-pipeline-lakehouse
4. Lời Cảm Ơn Tới Cole.vn
Hành trình tại lớp DE K14 của Cole.vn với mình không chỉ là nhồi nhét kỹ năng lập trình. Đó là nơi mình được rèn luyện tư duy phản biện, học cách bảo vệ quan điểm kiến trúc hệ thống, và quan trọng nhất là nhận được sự hỗ trợ nhiệt thành từ các anh chị giảng viên.
Biết mình là sinh viên năm cuối chuẩn bị đi thực tập, anh mentor không chỉ góp ý chuyên môn mà còn chủ động ngỏ ý review CV và giới thiệu cơ hội việc làm tại doanh nghiệp (Sota Hà Nội) để mình được va chạm thực tế.
Từ một sinh viên còn bỡ ngỡ với các khái niệm data pipeline, giờ đây mình đã tự tin làm chủ được Iceberg, ClickHouse, Fast API và hoàn thiện một dự án End-to-End đúng nghĩa. Cảm ơn Cole.vn, cảm ơn các anh chị Mentor đã khắt khe để mình trưởng thành hơn. Chặng đường của một Data Engineer phía trước giờ mới thực sự bắt đầu!