Hành Trình Xây Dựng Hệ Thống Lakehouse Analytics Đầu Tay - Đỗ Kiên - Cole

Hành Trình Xây Dựng Hệ Thống Lakehouse Analytics Đầu Tay - Đỗ Kiên

26/05/2026

Chào mọi người, mình là Đỗ Kiên – sinh viên năm cuối và cũng là cựu học viên lớp Data Engineer (DE K14) tại Cole.vn.

Hôm nay, ngồi nhìn lại luồng chạy mượt mà của hệ thống Project Data Engineering End-to-End NYC Taxi Lakehouse Analytics, mình mới thở phào nhẹ nhõm. Quá trình làm dự án tốt nghiệp này không chỉ là những đêm thức trắng để debug lỗi pipeline, mà còn là một hành trình thay đổi hoàn toàn tư duy của mình về Data và Business.


1. Bài Toán Đặt Ra Không Chỉ Là Xử Lý Dữ Liệu Khủng

Khi bắt tay vào làm dự án cuối khóa, mình đã chọn phân tích bộ dữ liệu lịch sử của NYC Taxi (từ tháng 6 đến tháng 11/2025) kết hợp cùng dữ liệu thời tiết thực tế từ API của OpenWeather (cập nhật 3 giờ/lần). Mục tiêu mình đặt ra khá tham vọng, tập trung vào 3 bài toán chính:

  • Historical Analytics: Xử lý và lưu trữ khối lượng data lịch sử khổng lồ.

  • Real-time Monitoring: Giám sát các chỉ số vận hành (KPI, Active Trips, Heatmap các khu vực đón/trả khách).

  • Forecast: Xây dựng mô hình dự báo doanh thu và số lượng chuyến đi dựa trên sự biến động của thời tiết (trời quang, có mây, mưa) và biên độ nhiệt độ.

2. Kiến Trúc Lakehouse

Để giải quyết bài toán, mình đã thiết kế một hệ thống kiến trúc mà bản thân cảm thấy khá tâm đắc:

  • Storage Layer: Sử dụng Apache Iceberg trên nền MinIO để lưu trữ dữ liệu thô và bảng chuẩn hóa. Việc này giúp mình tách bạch hoàn toàn phần lưu trữ khỏi pipeline xử lý (ETL).

  • Serving Layer: Đẩy dữ liệu qua ClickHouse để phục vụ dashboard trên Streamlit với độ trễ cực thấp (low-latency).

  • API & Visualization: Dùng FastAPI để chuẩn hóa truy vấn time-series. Nếu ClickHouse có vấn đề, hệ thống sẽ tự động fallback sang PostgreSQL.

Nhưng điều đắt giá nhất không nằm ở việc công nghệ mình dùng 'xịn' ra sao, mà ở việc mình đã bị mentor 'xoay' như thế nào.

Trong buổi bảo vệ, anh mentor đã hỏi mình một câu chí mạng: "Dữ liệu của em là lịch sử (historical), đã tính toán sẵn trên Iceberg rồi. Tại sao em lại phải tốn công và tài nguyên để sync nó sang ClickHouse? Em có thực sự hiểu lý do mình dùng công cụ đó không?"

Lúc đó mình thực sự khựng lại. Anh mentor sau đó đã phân tích cực kỳ cặn kẽ cho mình về khái niệm Speed Layer: Việc dùng ClickHouse là xuất sắc khi ta cần xử lý những câu lệnh phân tích (analytical query) cực nặng trực tiếp trên dữ liệu thô (hàng chục triệu dòng) ở thời gian thực để giảm tải cho database vận hành. Còn với data tĩnh đã được tính toán sẵn, việc sync sang ClickHouse không mang lại nhiều ý nghĩa về mặt hiệu năng.

Đó là một bài học "tỉnh người" về tư duy thiết kế: Đừng dùng công nghệ chỉ vì thấy người ta dùng, hãy dùng vì hiểu rõ nó giải quyết nỗi đau gì cho hệ thống.

3. Tư Duy Business Data Sinh Ra Phải Make Sense

Một kỷ niệm đáng nhớ nữa là khi mình trình bày biểu đồ về sự tương quan giữa thời tiết và cước phí. Dashboard của mình hiện ra một điểm bất thường: Trời trong xanh (Clear) lại có mức phí trung bình (Average Fare) cao nhất. Anh mentor lập tức dừng lại và "vặn": "Theo logic thông thường, trời mưa gió, khách gọi taxi nhiều thì giá cước mới bị đẩy lên cao. Data của em hiện ra như vậy liệu có hợp lý không?"

Câu hỏi đó buộc mình phải nhìn lại toàn bộ logic làm data của mình. Mình nhận ra rằng doanh thu (Revenue) không chỉ là số tiền cước (Fare Amount), mà phải cấu thành từ Cước phí + Tiền Tip + Phụ phí (Extra). Việc tính toán sai lệch hoặc thiếu sót các trường dữ liệu nhỏ có thể dẫn đến insight hoàn toàn sai cho doanh nghiệp. Làm Data Engineer không chỉ là viết code luân chuyển dữ liệu từ A sang B, mà phải thực sự hiểu business, hiểu từng con số mình hiển thị lên Dashboard mang ý nghĩa gì.

*Mọi người có thể tham khảo Project trên github của mình tại: https://github.com/dokien092-hash/end-to-end-data-pipeline-lakehouse

4. Lời Cảm Ơn Tới Cole.vn

Hành trình tại lớp DE K14 của Cole.vn với mình không chỉ là nhồi nhét kỹ năng lập trình. Đó là nơi mình được rèn luyện tư duy phản biện, học cách bảo vệ quan điểm kiến trúc hệ thống, và quan trọng nhất là nhận được sự hỗ trợ nhiệt thành từ các anh chị giảng viên.

Biết mình là sinh viên năm cuối chuẩn bị đi thực tập, anh mentor không chỉ góp ý chuyên môn mà còn chủ động ngỏ ý review CV và giới thiệu cơ hội việc làm tại doanh nghiệp (Sota Hà Nội) để mình được va chạm thực tế.

Từ một sinh viên còn bỡ ngỡ với các khái niệm data pipeline, giờ đây mình đã tự tin làm chủ được Iceberg, ClickHouse, Fast API và hoàn thiện một dự án End-to-End đúng nghĩa. Cảm ơn Cole.vn, cảm ơn các anh chị Mentor đã khắt khe để mình trưởng thành hơn. Chặng đường của một Data Engineer phía trước giờ mới thực sự bắt đầu!

Có thể bạn quan tâm

VINH DANH GIẢNG VIÊN XUẤT SẮC NĂM 2023 TẠI COLE

Kết thúc 1 chặng đường dài trong năm 2023, Cole.vn vô cùng vinh hạnh được công bố TOP 3 giảng viên xuất sắc nhất trong năm vừa qua do toàn thể các học viên bình chọn.

  • Tin tức
  • 05/02/2024

MMA ALC SUMMIT 2024 SỰ KIỆN LỚN NHẤT VỀ AI TẠI ĐÔNG NAM Á LẦN ĐẦU CÓ MẶT TẠI VIỆT NAM!!!

𝐌𝐌𝐀 𝐀𝐈 𝐋𝐞𝐚𝐝𝐞𝐫𝐬𝐡𝐢𝐩 𝐂𝐨𝐚𝐥𝐢𝐭𝐢𝐨𝐧 𝐒𝐮𝐦𝐦𝐢𝐭 𝟐𝟎𝟐𝟒, 𝐡𝐚𝐲 𝐌𝐌𝐀 𝐀𝐋𝐂 𝐒𝐮𝐦𝐦𝐢𝐭 𝟐𝟎𝟐𝟒, là hội nghị về chủ đề Đổi mới AI trong ngành Marketing đầu tiên do MMA Global tổ chức tại khu vực Châu Á - Thái Bình Dương (APAC), địa điểm tổ chức tại Việt Nam.

  • Tin tức
  • 06/08/2024

Bootcamp Data Visualization with Power BI 2025 - Xây dựng Dashboard doanh nghiệp thực chiến

Chương trình Bootcamp Power BI cực hot kết hợp Tư duy dữ liệu và Casestudy Project (Kinh doanh, Marketing, Tài chính) cùng Thạc sĩ Nguyễn Danh Tú (Giảm viên bộ môn Data Warehouse & BI tại ĐHBK Hà Nội).

  • Tin tức
  • 08/05/2025

Cole & Viettel - Tiếp Tục Đồng Hành, Nâng Tầm Thế Hệ Product Manager Tương Lai Việt Nam

Cole đào tạo Product Manager cho cán bộ nhân viên Viettel

  • Doanh nghiệp
  • 21/11/2025