Tổng quan về lộ trình
1. Bạn sẽ nhận được gì?
Nền tảng Data Science toàn diện: Nắm vững tư duy phân tích dữ liệu, thống kê, tiền xử lý dữ liệu và mô hình hóa.
Machine Learning thực chiến: Xây dựng, đánh giá và triển khai các mô hình ML theo chuẩn doanh nghiệp.
MLOps & Production Workflow: Áp dụng MLOps từ prototype đến production, tự động hóa quy trình ML.
Coding & Analytical Engineering Skills: Thành thạo kỹ năng coding (Python/R), phân tích dữ liệu và phối hợp với Data Engineer.
2. Vị trí sẵn sàng ứng tuyển
Sẵn sàng chinh chiến tại các vị trí: Data Scientist Fresher / Junior / Middle, Machine Learning Engineer (Entry-level), Analytics Engineer / Data Analyst nâng cao
Làm được gì?
Phân tích & trực quan hóa dữ liệu chuyên sâu.
Xây dựng các mô hình Machine Learning áp dụng thực tế.
Triển khai pipeline MLOps vào môi trường doanh nghiệp.
Phối hợp với Data Engineering để đưa mô hình vào sản xuất.
3. Lộ trình này dành cho ai?
Người mới bắt đầu, chưa biết gì về lập trình hay khoa học dữ liệu.
Người đi làm các ngành khác muốn hiểu và ứng dụng dữ liệu.
Sinh viên các ngành CNTT, kinh tế, nghiên cứu... muốn theo đuổi lĩnh vực dữ liệu.
4. Tại sao chọn Cole?
Mô hình Core + Bootcamp độc quyền: Học chắc nền tảng qua khóa Live, mở rộng công nghệ qua Bootcamp.
Học từ dự án thực tế: Không chỉ lý thuyết – thực hành bài bản theo quy trình doanh nghiệp.
Giảng viên thực chiến: Đội ngũ chuyên gia triển khai Data Science & MLOps trong doanh nghiệp lớn.
Định hướng nghề nghiệp rõ ràng: Lộ trình gắn với vị trí công việc, tự tin ứng tuyển sau khóa học.
Lộ trình học
Khóa học 1
Khóa học Data Analyst/Data Science/Machine Learning từ A - Z
Buổi 1 - Tổng quan về khoa học dữ liệu Data Science
- Tổng quan về lĩnh vực Khoa Học Dữ liệu và tầm quan trọng của nó.
- Các bài toán phổ biến và quan trọng trong lĩnh vực Khoa học dữ liệu.
- Python và SQL trong Data Science
- Tổng quan kiến thức cơ bản về Machine Learning cần thiết trong khóa học.
- Giới thiệu và hướng dẫn cài đặt môi trường thực hành như Jupyter Notebook, Colab, v.v.
Buổi 2 - SQL câu lệnh cơ bản
- Hàm tạo bảng và truyền dữ liệu: Create and insert
- Select statement
- Where clause + And/or
- In, not in, is null, between
- Order by, Limit, Distinct and rename columns
Buổi 3 - SQL Functions
- UPPER(), LOWER(), LENGTH(), TRIM()
- String Functions: SUBSTRING(), REPLACE(), POSITION() and COALESCE()
- Grouping Functions: MIN(), MAX(), AVG(), SUM(), COUNT()
Buổi 4 - SQL group data & Subqueries
- Understanding Grouping - GROUP BY & HAVING Clauses
- SubqueriesBuổi 5 - Case When & Join table
- Using CASE Clause
- INNER and OUTER Joins
- Using UNION, UNION ALL and EXCEPT Clauses
- Joins and Subqueries
Buổi 6 - Làm quen với Python cơ bản
- Cấu trúc chương trình Python
- Biến và các kiểu dữ liệu
- Input & print trong python
- Áp dụng các kiểu dữ liệu nào trong thực tế?
Buổi 7 - Cấu trúc điều khiển trong Python
- Các phép toán
- Biểu thức điều kiện và vòng lặp
Buổi 8 - Hàm và Module trong Python
- Cách thức hoạt động của hàm
- Gọi hàm trong python
- Biến cục bộ và biến toàn cục
- Hàm lambda
Buổi 9 - Hướng đối tượng trong Python
- Lớp và đối tượng
- Phương thức
- Package và import
- Thực hành: lớp và đối tượng
Buổi 10 - Python for data analyst(Thư viên Pandas)
- Xử lý dữ liệu thiếu Missing Data
- Đối tượng Groupby
- Làm việc với DataFrame
- Chèn, xóa, sửa dòng và cột trong DataFrame
- Sắp xếp dữ liệu trong DataFrame
Buổi 11 - Python for data visualization- Matplotlib & Seaborn
- Import thư viện
- Các biểu đồ cơ bản
- Lợi ích của Seaborn
- Biểu đồ trong Seaborn
Buổi 12 - Project I: Tổng hợp kiến thức Python & SQL cơ bản sử dụng trong Data Science
Sử dụng database trên kaggel dùng SQL và Python để tạo biểu đồ
Buổi 13 - Bài toán hồi quy
- Tổng quan về bài toán Hồi quy và các ứng dụng thực tế của nó.
- Giới thiệu các thuật toán Hồi quy phổ biến như Linear Regression, Logistic Regression,...
- Cách tiếp cận và xây dựng một mô hình Hồi quy trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống Hồi quy
Buổi 14 - Bài toán phân lớp dữ liệu
- Tổng quan về bài toán Phân loại và các ứng dụng thực tế của nó.
- Giới thiệu các thuật toán Phân loại phổ biến như Linear classifiers, Decision Tree, SVM,...
- Cách tiếp cận và xây dựng một mô hình phân loại trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống phân loại.
Buổi 15 - Thực hành về bài toán hồi quy và phân lớp
- Học viên thực hành áp dụng kiến thức đã học vào việc giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Tổng quan về bài tập lớn (Project) của khóa học, đưa ra mục tiêu, yêu cầu và quá trình thực hiện của dự án.
Buổi 16 - Bài toán phân cụm dữ liệu
- Giới thiệu bài toán phân cụm và giải thuật k-means, một phương pháp phân cụm phổ biến trong Khoa học Dữ liệu.
- Giới thiệu về khái niệm độ tương đồng trong phân cụm, là một phép đo để đánh giá sự tương đồng giữa các điểm dữ liệu.
- Giới thiệu một số phương pháp mã hóa văn bản như Bag-of-Words, TF-IDF và Word Embedding để biểu diễn văn bản thành dữ liệu số hóa.
- Hướng dẫn thực hành giải quyết bài toán truy xuất và phân cụm tài liệu, sử dụng các kỹ thuật và công cụ như k-means và phương pháp mã hóa văn bản, để xử lý và phân tích các tài liệu dựa trên nội dung của chúng.
Buổi 17 - Bài toán hệ gợi ý
- Giới thiệu về hệ thống gợi ý và vai trò của nó trong cung cấp thông tin và đề xuất cho người dùng.
- Tổng quan về một số thuật toán phổ biến trong hệ thống gợi ý như Lọc cộng tác, Gợi ý dựa trên nội dung,..
- Cách tiếp cận và quy trình xây dựng một hệ thống gợi ý trong môi trường thực tế, từ việc thu thập dữ liệu đến xây dựng mô hình và triển khai.
- Giới thiệu các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống gợi ý.
- Hướng dẫn thực hành xây dựng và đánh giá hệ thống gợi ý trên một bộ dữ liệu thực tế, áp dụng các thuật toán và phương pháp đã học vào thực tế.
Buổi 18 - Khai phá luật kết hợp
- Giới thiệu về khái niệm và mục tiêu của khai phá luật kết hợp trong Khoa học Dữ liệu.
- Các phương pháp và định dạng để biểu diễn luật kết hợp, bao gồm dạng tập hợp, dạng chuỗi, và dạng cây.
- Phương pháp khai thác và tìm kiếm các mẫu phổ biến từ dữ liệu, như tìm tập hợp phổ biến, chuỗi phổ biến, hoặc cây phổ biến.
- Khám phá các luật kết hợp từ các mẫu phổ biến.
- Phân tích tương quan giữa các mẫu hoặc thuộc tính dữ liệu, để tìm hiểu sự tương quan và tương tác giữa chúng, đồng thời đưa ra các phân tích và nhận định về mối quan hệ.
Buổi 19 - Thực hành về bài toán phân cụm, hệ gợi ý và khai phá luật kết hợp
- Học viên sẽ được thực hành áp dụng kiến thức về bài toán phân cụm, hệ gợi ý và khai phá luật kết hợp bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Học viên sẽ được giới thiệu tổng quan về bài tập lớn (Project) của khóa học, bao gồm mục tiêu, yêu cầu và quy trình thực hiện của dự án.
Buổi 20 - Học sâu và ứng dụng
- Tổng quan về Học Sâu và các lĩnh vực ứng dụng trong Khoa học dữ liệu.
- Các kiến thức cơ bản cần nắm về Học Sâu, bao gồm kiến trúc mạng neural, hàm kích hoạt, lan truyền ngược, và thuật toán tối ưu hóa.
- Giới thiệu về xử lý và phân tích hình ảnh thông qua công nghệ thị giác máy tính và các ứng dụng trong thực tế.
- Giới thiệu về xử lý ngôn ngữ tự nhiên và các phương pháp, công cụ để xử lý, phân tích và hiểu văn bản tự nhiên.
Buổi 21 - Project II: Cơ sở lý thuyết về các bài toán và mô hình phổ biến trong khoa học dữ liệu
- Học viên sẽ được thực hành áp dụng kiến thức về mô hình học sâu bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Tổng kết Module 2 về lý thuyết.
- Hỏi đáp về Mini-Project.
Buổi 22 - Phân tích bài toán và dữ liệu
- Hướng dẫn về cách tiếp cận và phân tích một bài toán trong Khoa học dữ liệu, bao gồm việc định nghĩa mục tiêu, thu thập dữ liệu, đặt câu hỏi và tạo ra giả thuyết để đưa ra các phương pháp phân tích.
- Hướng dẫn về việc xác định và thu thập dữ liệu phù hợp cho bài toán, bao gồm các nguồn dữ liệu, phương pháp thu thập và quy trình xử lý dữ liệu.
- Hướng dẫn về quy trình khai phá dữ liệu (EDA) để hiểu cấu trúc và tính chất của dữ liệu. Bên cạnh đó, cung cấp hướng dẫn về các phương pháp biểu diễn trực quan dữ liệu, như biểu đồ, đồ thị, hay bản đồ, để hỗ trợ quá trình khai phá và hiểu rõ hơn về dữ liệu.
Buổi 23 - Tiền xử lý dữ liệu
- Hướng dẫn về các phương pháp tiếp cận dữ liệu, bao gồm tiền xử lý, lọc dữ liệu và trích xuất đặc trưng. Điều này bao gồm các kỹ thuật như xử lý dữ liệu thiếu, giải quyết nhiễu, trích xuất thông tin quan trọng và giảm chiều dữ liệu.
- Hướng dẫn về cách khai thác thông tin từ các trường dữ liệu có sẵn và tạo ra các trường dữ liệu mới dựa trên kiến thức và hiểu biết về bài toán. Điều này có thể bao gồm việc kết hợp, biến đổi hoặc áp dụng các quy tắc và hàm tính toán để tạo ra thông tin mới từ dữ liệu hiện có.
- Hướng dẫn về việc mã hóa và chuẩn hóa dữ liệu để đảm bảo tính nhất quán và khả năng so sánh giữa các đặc trưng. Bao gồm các phương pháp như mã hóa one-hot, mã hóa số hóa, chuẩn hóa z-score và chuẩn hóa min-max để biến đổi và điều chỉnh các giá trị dữ liệu thành dạng phù hợp và thống nhất.
Buổi 24 - Xây dựng mô hình
- Hướng dẫn về quá trình phân tích bài toán và lựa chọn mô hình phù hợp dựa trên yêu cầu và đặc điểm của dữ liệu. Bao gồm việc tìm hiểu và so sánh các mô hình khác nhau, đánh giá khả năng của chúng trong việc giải quyết bài toán cụ thể.
- Hướng dẫn về quá trình xây dựng mô hình, bao gồm việc định nghĩa kiến trúc mô hình, khởi tạo các tham số và quyết định các thông số quan trọng như learning rate, số lượng layer, kích thước batch, v.v.
- Hướng dẫn về quá trình huấn luyện mô hình base, bao gồm việc chuẩn bị dữ liệu huấn luyện, chia thành batch, tạo bộ kiểm tra, lựa chọn hàm mất mát và phương pháp tối ưu hóa, đánh giá và tinh chỉnh mô hình dựa trên kết quả huấn luyện.
Buổi 25 - Xây dựng mô hình(tiếp)
- Giới thiệu tổng quan về các tham số của mô hình và các tham số được sử dụng trong quá trình huấn luyện, bao gồm các thông số kiến trúc như số lượng layer, số lượng units trong mỗi layer, hệ số dropout, v.v. Các tham số huấn luyện bao gồm learning rate, số lượng epoch, kích thước batch, v.v.
- Hướng dẫn về cách tối ưu các tham số của mô hình trong quá trình huấn luyện. Điều này có thể bao gồm việc sử dụng phương pháp tìm kiếm lưới (grid search) để thử nghiệm các giá trị khác nhau cho các tham số, sử dụng kỹ thuật tinh chỉnh tự động (automated tuning) như tối ưu bayes (Bayesian optimization), hoặc sử dụng phương pháp tinh chỉnh thông qua việc giảm thiểu hàm mất mát (loss function minimization).
Buổi 26 - Đánh giá mô hình
- Phân tích lỗi mô hình: Sử dụng hàm lỗi và quan sát thực tế để hiểu các hạn chế và điểm yếu của mô hình.
- Đánh giá mô hình và lựa chọn mô hình tốt nhất: Sử dụng các phương pháp như cross-validation, độ đo hiệu suất và so sánh mô hình để lựa chọn mô hình tốt nhất cho áp dụng thực tế.
Buổi 27 - Triển khai mô hình
- Triển khai mô hình bằng cách xây dựng các API hoặc dịch vụ để cung cấp chức năng dự đoán cho người dùng hoặc hệ thống khác.
- Xây dựng một quy trình tự động hoàn chỉnh để xử lý dữ liệu, huấn luyện mô hình và triển khai mô hình trong môi trường thực tế. Quy trình này bao gồm các bước từ chuẩn bị dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá, triển khai và cập nhật mô hình.
Buổi 29 - Project III - Module 4:Hướng dẫn thực hiện Project về khoa học dữ liệu
- Tổng kết và củng cố kiến thức đã học trong module thực hành, bao gồm các phương pháp, công cụ và kỹ năng đã được áp dụng để giải quyết các bài toán thực tế.
- Các hướng giải quyết khác có thể áp dụng để đạt được kết quả tốt hơn, khám phá và nghiên cứu thêm về các phương pháp mới và tiến bộ trong lĩnh vực khoa học dữ liệu.
- Một số vấn đề cần chú ý khi áp dụng vào hệ thống dữ liệu lớn trong thực tiễn doanh nghiệp bao gồm quy mô, tính khả thi, hiệu suất, bảo mật và tính ổn định của hệ thống và các yếu tố khác như quản lý dữ liệu, quản lý tài nguyên, và tương tác với các thành phần khác trong hệ thống.
- Học viên đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận về project.
Buổi 29 - Học viên trình bày Project
- Các nhóm đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận
Buổi 30 - Học viên trình bày Project
- Học viên trình bày Mini-project của mình cá nhân hoặc theo nhóm
- Các nhóm đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận
Buổi 31 - Tổng kết khóa học
- Tổng hợp và phân tích kiến thức đã học: Tổng kết và đánh giá lại các khái niệm, kỹ năng và công nghệ đã học trong suốt khóa học.
- Đánh giá tiến độ và kết quả học tập: Xem xét và đánh giá tiến bộ cá nhân và kết quả học tập của mỗi học viên để đảm bảo họ đã đáp ứng được các mục tiêu và yêu cầu của khóa học.
- Thảo luận về ứng dụng thực tế: Trao đổi về cách áp dụng kiến thức đã học vào thực tế và giải quyết các vấn đề trong lĩnh vực tương ứng.
- Phân tích và đánh giá project: Đánh giá và phân tích kết quả của các dự án đã thực hiện bởi các nhóm học viên, bao gồm sự đóng góp, hiệu suất và tính khả thi của các giải pháp.
- Tổng kết và phản hồi: Tổng kết khóa học bằng cách cung cấp phản hồi về nội dung, phương pháp giảng dạy và trải nghiệm học tập, nhằm cải thiện chất lượng của khóa học trong tương lai.
Buổi 32 - Tư vấn sau khóa học 1-1
- Tư vấn hướng nghiệp ngành khoa học dữ liệu trực tiếp 1-1 với giảng viên
Khóa học 2
Bootcamp Analytic Engineer
Khóa học 3
Bootcamp MLOps trong Thực Tế: Từ Notebook đến Production
Khóa học 4
Bootcamp Vibe-Coding
Giảng viên
Giảng viên Thạc sĩ. Nguyễn Danh Tú
Giảng viên Tiến sĩ Đặng Lê Quang
Giảng viên TS. Doãn Trung Tùng
Dự án của học viên
Cảm nhận của học viên
Khóa học 1
Khóa học Data Analyst/Data Science/Machine Learning từ A - Z
Khóa học 2
Bootcamp Analytic Engineer
Khóa học 3
Bootcamp MLOps trong Thực Tế: Từ Notebook đến Production
Khóa học 4
Bootcamp Vibe-Coding