Data Analyst/Data Science/Machine Learning


Thời lượng
5 tháng (45 buổi)

Hình thức đào tạo
Online qua Zoom

Số tín chỉ
Tổng quan
Chương trình học Tổng quan về Data Science được thiết kế để trang bị cho học viên những kiến thức và kỹ năng cần thiết nhằm khai thác dữ liệu hiệu quả trong môi trường kinh doanh hiện đại. Nội dung khóa học giúp học viên nắm vững các khái niệm về Data Science, thành thạo lập trình SQL và Python, hiểu và vận dụng xác suất thống kê trong EDA, làm quen với các mô hình học máy. Cuối khóa, học viên sẽ trình bày và đánh giá dự án của mình, chia sẻ kinh nghiệm và thảo luận về ứng dụng thực tế của kiến thức đã học.
Chương trình bao gồm các buổi học lý thuyết kết hợp với thực hành, giúp học viên áp dụng kiến thức vào các bài tập và dự án thực tế. Sau khi hoàn thành khóa học, học viên sẽ có khả năng làm việc với các công cụ và công nghệ tiên tiến trong lĩnh vực Data Science, sẵn sàng đối mặt với các thách thức trong ngành.

Một số lợi ích khác của việc cạnh tranh bằng Khoa học dữ liệu bao gồm:
Mục tiêu học tập
Đối tượng học tập

Những người muốn theo đuổi nghề phân tích dữ liệu và khoa học dữ liệu nhưng chưa biết gì.

Những người làm việc trong các ngành khác nhưng muốn nâng cấp bản thân, trau dồi kỹ năng về các thuật toán, mô hình và học về khoa học dữ liệu bài bản.

Học sinh, sinh viên khối ngành công nghệ thông tin, hệ thống thông tin, nghiên cứu, kinh tế,..muốn học nâng cấp để theo đuổi nghề dữ liệu trong tương lai
Chuẩn đầu ra

Theo chuẩn BLOOM 3 mốc đầu
Biết:
• Học viên nắm vững kiến thức về xác suất thống kê, đại số tuyến tính và giải tích.
• Nắm được cơ bản phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA).
• Biết cách sử dụng ngôn ngữ lập trình Python và SQL để thu thập, xử lý, phân tích và trực quan hóa dữ liệu.
• Được trang bị kiến thức về học máy (machine learning), học máy chuyên sâu (deep learning) và các kỹ thuật học máy như gradient boosted trees, random forest.
• Kiến thức về xử lý dữ liệu phân tán và dữ liệu lớn (Elastic Search).
• Kiến thức về các loại cơ sở dữ liệu (RDBMS, Graph Databases, NoSQL Products).
Hiểu:
• Học viên phát triển khả năng phân tích và đánh giá thông tin từ dữ liệu, phân biệt rõ cách mà các kỹ thuật thống kê và học máy có thể áp dụng để phát hiện xu hướng và mẫu hình.
• Giải thích được tầm quan trọng của việc làm sạch và chuẩn hóa dữ liệu, cũng như cách xử lý dữ liệu thiếu và outliers để đảm bảo chất lượng dữ liệu.
• Nắm vững các khái niệm về xây dựng và đánh giá các mô hình học máy, cũng như thiết kế và phân tích kết quả A/B testing trong bối cảnh thực tế.
Áp dụng:
• Sau khóa học, học viên có thể làm việc như một Junior Data Analyst hoặc Fresher Data Scientist, thực hiện các công việc liên quan đến thu thập và xử lý dữ liệu từ nhiều nguồn khác nhau (database, API, file).
• Học viên sẽ xây dựng POC (chứng minh khả thi) để kiểm tra tính khả thi của các giải pháp trước khi triển khai, đồng thời phối hợp với các bên liên quan (Data engineering) để đạt được mục tiêu dự án.
• Học viên có khả năng sử dụng các kỹ thuật thống kê và công cụ phân tích dữ liệu (Excel, SQL, Python) để tìm kiếm thông tin giá trị và trả lời các câu hỏi phát sinh từ các bên liên quan.
• Học viên sẽ thiết kế và trực quan hóa dữ liệu, kết quả phân tích dưới dạng biểu đồ và dashboard, hỗ trợ xây dựng và đánh giá các mô hình học máy, cũng như trình bày báo cáo một cách rõ ràng và thuyết phục cho ban lãnh đạo và các phòng ban liên quan.



Chuẩn đầu ra theo tư duy, công cụ, kỹ năng
Công cụ:
• Có khả năng sử dụng các công cụ phân tích và xử lý dữ liệu như Python, SQL, và các thư viện và package hỗ trợ học máy như it-learn, TensorFlow, Keras và MLFLOW.
• Xử lý dữ liệu lớn Elastic Search.
• Trực quan hóa dữ liệu Streamlit để tạo dashboard và trình bày kết quả phân tích.
• Lưu trữ dữ liệu RDBMS và NoSQL.
Tư duy:
• Tư duy phân tích: Rèn luyện tư duy, khả năng phân tích yêu cầu bài toán, xem xét nhiều khía cạnh của dữ liệu và đặt câu hỏi để hiểu sâu hơn về vấn đề, tìm ra insights.
• Tư duy giải quyết vấn đề: Các vấn đề liên quan đến xử lý và quản lý dữ liệu lớn.
• Tư duy hệ thống: Minh họa và thiết kế các hệ thống dữ liệu phức tạp, đảm bảo sự hiệu quả và tối ưu của các quy trình xử lý dữ liệu.
Kỹ năng:
• Kỹ năng thu thập, làm sạch và chuẩn hóa dữ liệu: xử lý dữ liệu bị thiếu và outliers một cách hiệu quả.
• Kỹ năng phân tích và đánh giá dữ liệu sử dụng các kỹ thuật thống kê và học máy để phát hiện xu hướng, mẫu hình và đưa ra dự đoán.
• Kỹ năng giao tiếp hiệu quả, có khả năng trình bày báo cáo và kết quả phân tích một cách rõ ràng, dễ hiểu và thuyết phục cho các bên liên quan.
• Kỹ năng làm việc nhóm: phối hợp với các bên liên quan để đạt được mục tiêu.

Công việc sau khi hoàn thành khóa học
Sau khi hoàn thành khóa học, học viên sẽ có khả năng thực hiện các công việc của một Junior Data Analyst, Fresher Data Scientist, hoặc các vị trí liên quan khác như Data Engineer, Business Intelligence (BI) Analyst, Machine Learning Engineer trong doanh nghiệp. Bạn sẽ làm việc với các bên liên quan để hiểu rõ bài toán, mục tiêu và yêu cầu của dự án, đồng thời xây dựng POC để kiểm tra tính khả thi của các giải pháp. Hiện nay, nhu cầu tuyển dụng các vị trí liên quan đang tăng mạnh tại Việt Nam. Các công ty trong nhiều lĩnh vực như tài chính, ngân hàng, thương mại điện tử, và công nghệ đều cần những chuyên gia để hỗ trợ ra quyết định chiến lược và tối ưu hóa hoạt động. Một số công ty có thể kể đến như: VCB, VPBank, Lazada, Tiki…

Lộ trình học tập
- Các bài toán phổ biến và quan trọng trong lĩnh vực Khoa học dữ liệu.
- Python và SQL trong Data Science
- Tổng quan kiến thức cơ bản về Machine Learning cần thiết trong khóa học.
- Giới thiệu và hướng dẫn cài đặt môi trường thực hành như Jupyter Notebook, Colab, v.v.
Select statement
Where clause + And/or
In, not in, is null, between
Order by, Limit, Distinct and rename columns
String Functions: SUBSTRING(), REPLACE(), POSITION() and COALESCE()
Grouping Functions: MIN(), MAX(), AVG(), SUM(), COUNT()
Subqueries
INNER and OUTER Joins
Using UNION, UNION ALL and EXCEPT Clauses
Joins and Subqueries
- Self-Join
- Cross-Join
Phép toán tập hợp:
- INTERSECT
- EXCEPT
- Ứng dụng thực tế của UNION.
Các ví dụ thực tiễn về việc sử dụng hàm cửa sổ trong phân tích dữ liệu.
Truy vấn đệ quy để xử lý dữ liệu dạng phân cấp (ví dụ: tìm mối quan hệ cha - con).
Biến và các kiểu dữ liệu
Input & print trong python
Áp dụng các kiểu dữ liệu nào trong thực tế?
Biểu thức điều kiện
Tự động hóa các tác vụ lặp đi lặp lại
Gọi hàm trong python
Biến cục bộ và biến toàn cục
Hàm lambda
- Cắt chuỗi (slicing),
- Lập chỉ mục (indexing),
- Định dạng (formatting).
- Khởi tạo List
- Truy cập phần tử trong List (truy cập bằng index, truy cập đầu cuối danh sách)
- Thao tác trên List (Thêm, xóa, thay đổi giá trị phần tử)
- Cắt (slicing) List
- Các phương thức List (sort(), reverse(), count(), index(), extend())
Các thao tác trên Tuple
- Cú pháp để tạo tuple bằng dấu ngoặc tròn ().
- Truy cập phần tử trong Tuple:
- Thao tác với Tuple
- Ứng dụng của Tuple
- Tuple packing và unpacking
- Ứng dụng của Dictionaries và Sets
- Ứng dụng của Arrays và Vectors
Phương thức
Package và import
Thực hành: lớp và đối tượng
Đối tượng Groupby
Làm việc với DataFrame
Chèn, xóa, sửa dòng và cột trong DataFrame
Sắp xếp dữ liệu trong DataFrame
Các biểu đồ cơ bản
Lợi ích của Seaborn
Biểu đồ trong Seaborn
Phân biệt giữa thống kê mô tả và thống kê suy luận.
Sử dụng thống kê mô tả (Python) để:
- Tóm tắt nhanh dữ liệu.
- Đo lường trung tâm dữ liệu.
- Đo lường độ phân tán dữ liệu.
- Đo lường vị trí tương đối của dữ liệu.
Khám phá cách sử dụng định lý Bayes để mô tả các sự kiện phức tạp.
Học cách sử dụng các phân phối xác suất (nhị thức, Poisson, chuẩn) để hiểu rõ cấu trúc dữ liệu.
Tìm hiểu cách tránh sai lệch do chọn mẫu.
Học cách sử dụng phân phối mẫu để đưa ra ước lượng chính xác.
Sử dụng mẫu nhỏ để suy luận về tập dữ liệu lớn.
Học cách xây dựng và diễn giải khoảng tin cậy.
Tìm hiểu cách tránh các hiểu lầm phổ biến liên quan đến khoảng tin cậy.
Kiểm định giả thuyết giúp xác định tính ý nghĩa thống kê của kết quả so với ngẫu nhiên.
Học các bước cơ bản của một kiểm định giả thuyết.
Hiểu cách kiểm định giả thuyết giúp đưa ra kết luận có ý nghĩa về dữ liệu.
- Áp dụng kiến thức thống kê để đánh giá thêm về dữ liệu và mô hình trực quan hóa
- Giới thiệu các thuật toán Hồi quy phổ biến như Linear Regression, Logistic Regression,...
- Cách tiếp cận và xây dựng một mô hình Hồi quy trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống Hồi quy
"
- Giới thiệu các thuật toán Phân loại phổ biến như Linear classifiers, Decision Tree, SVM,...
- Cách tiếp cận và xây dựng một mô hình phân loại trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống phân loại.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Tổng quan về bài tập lớn (Project) của khóa học, đưa ra mục tiêu, yêu cầu và quá trình thực hiện của dự án.
- Giới thiệu về khái niệm độ tương đồng trong phân cụm, là một phép đo để đánh giá sự tương đồng giữa các điểm dữ liệu.
- Giới thiệu một số phương pháp mã hóa văn bản như Bag-of-Words, TF-IDF và Word Embedding để biểu diễn văn bản thành dữ liệu số hóa.
- Hướng dẫn thực hành giải quyết bài toán truy xuất và phân cụm tài liệu, sử dụng các kỹ thuật và công cụ như k-means và phương pháp mã hóa văn bản, để xử lý và phân tích các tài liệu dựa trên nội dung của chúng.
- Tổng quan về một số thuật toán phổ biến trong hệ thống gợi ý như Lọc cộng tác, Gợi ý dựa trên nội dung,...
- Cách tiếp cận và quy trình xây dựng một hệ thống gợi ý trong môi trường thực tế, từ việc thu thập dữ liệu đến xây dựng mô hình và triển khai.
- Giới thiệu các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống gợi ý.
- Hướng dẫn thực hành xây dựng và đánh giá hệ thống gợi ý trên một bộ dữ liệu thực tế, áp dụng các thuật toán và phương pháp đã học vào thực tế.
- Các phương pháp và định dạng để biểu diễn luật kết hợp, bao gồm dạng tập hợp, dạng chuỗi, và dạng cây.
- Phương pháp khai thác và tìm kiếm các mẫu phổ biến từ dữ liệu, như tìm tập hợp phổ biến, chuỗi phổ biến, hoặc cây phổ biến.
- Khám phá các luật kết hợp từ các mẫu phổ biến
- Phân tích tương quan giữa các mẫu hoặc thuộc tính dữ liệu, để tìm hiểu sự tương quan và tương tác giữa chúng, đồng thời đưa ra các phân tích và nhận định về mối quan hệ.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Học viên sẽ được giới thiệu tổng quan về bài tập lớn (Project) của khóa học, bao gồm mục tiêu, yêu cầu và quy trình thực hiện của dự án.
- Các kiến thức cơ bản cần nắm về Học Sâu, bao gồm kiến trúc mạng neural, hàm kích hoạt, lan truyền ngược, và thuật toán tối ưu hóa.
- Giới thiệu về xử lý và phân tích hình ảnh thông qua công nghệ thị giác máy tính và các ứng dụng trong thực tế.
- Giới thiệu về xử lý ngôn ngữ tự nhiên và các phương pháp, công cụ để xử lý, phân tích và hiểu văn bản tự nhiên.
- Học viên sẽ được thực hành áp dụng kiến thức về mô hình học sâu bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Tổng kết Module 4 về lý thuyết
- Hỏi đáp về Mini-Project.
- Hướng dẫn về việc xác định và thu thập dữ liệu phù hợp cho bài toán, bao gồm các nguồn dữ liệu, phương pháp thu thập và quy trình xử lý dữ liệu.
- Hướng dẫn về quy trình khai phá dữ liệu (EDA) để hiểu cấu trúc và tính chất của dữ liệu. Bên cạnh đó, cung cấp hướng dẫn về các phương pháp biểu diễn trực quan dữ liệu, như biểu đồ, đồ thị, hay bản đồ, để hỗ trợ quá trình khai phá và hiểu rõ hơn về dữ liệu.
- Hướng dẫn về cách khai thác thông tin từ các trường dữ liệu có sẵn và tạo ra các trường dữ liệu mới dựa trên kiến thức và hiểu biết về bài toán. Điều này có thể bao gồm việc kết hợp, biến đổi hoặc áp dụng các quy tắc và hàm tính toán để tạo ra thông tin mới từ dữ liệu hiện có.
- Hướng dẫn về việc mã hóa và chuẩn hóa dữ liệu để đảm bảo tính nhất quán và khả năng so sánh giữa các đặc trưng. Bao gồm các phương pháp như mã hóa one-hot, mã hóa số hóa, chuẩn hóa z-score và chuẩn hóa min-max để biến đổi và điều chỉnh các giá trị dữ liệu thành dạng phù hợp và thống nhất.
- Hướng dẫn về quá trình xây dựng mô hình, bao gồm việc định nghĩa kiến trúc mô hình, khởi tạo các tham số và quyết định các thông số quan trọng như learning rate, số lượng layer, kích thước batch, v.v.
- Hướng dẫn về quá trình huấn luyện mô hình base, bao gồm việc chuẩn bị dữ liệu huấn luyện, chia thành batch, tạo bộ kiểm tra, lựa chọn hàm mất mát và phương pháp tối ưu hóa, đánh giá và tinh chỉnh mô hình dựa trên kết quả huấn luyện.
- Giới thiệu tổng quan về các tham số của mô hình và các tham số được sử dụng trong quá trình huấn luyện, bao gồm các thông số kiến trúc như số lượng layer, số lượng units trong mỗi layer, hệ số dropout, v.v. Các tham số huấn luyện bao gồm learning rate, số lượng epoch, kích thước batch, v.v.
- Hướng dẫn về cách tối ưu các tham số của mô hình trong quá trình huấn luyện. Điều này có thể bao gồm việc sử dụng phương pháp tìm kiếm lưới (grid search) để thử nghiệm các giá trị khác nhau cho các tham số, sử dụng kỹ thuật tinh chỉnh tự động (automated tuning) như tối ưu bayes (Bayesian optimization), hoặc sử dụng phương pháp tinh chỉnh thông qua việc giảm thiểu hàm mất mát (loss function minimization).
- Đánh giá mô hình và lựa chọn mô hình tốt nhất: Sử dụng các phương pháp như cross-validation, độ đo hiệu suất và so sánh mô hình để lựa chọn mô hình tốt nhất cho áp dụng thực tế.
- Xây dựng một quy trình tự động hoàn chỉnh để xử lý dữ liệu, huấn luyện mô hình và triển khai mô hình trong môi trường thực tế. Quy trình này bao gồm các bước từ chuẩn bị dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá, triển khai và cập nhật mô hình.
- Các hướng giải quyết khác có thể áp dụng để đạt được kết quả tốt hơn, khám phá và nghiên cứu thêm về các phương pháp mới và tiến bộ trong lĩnh vực khoa học dữ liệu.
- Một số vấn đề cần chú ý khi áp dụng vào hệ thống dữ liệu lớn trong thực tiễn doanh nghiệp bao gồm quy mô, tính khả thi, hiệu suất, bảo mật và tính ổn định của hệ thống và các yếu tố khác như quản lý dữ liệu, quản lý tài nguyên, và tương tác với các thành phần khác trong hệ thống.
- Học viên đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận về project.
"
- Các nhóm đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận
- Đánh giá tiến độ và kết quả học tập: Xem xét và đánh giá tiến bộ cá nhân và kết quả học tập của mỗi học viên để đảm bảo họ đã đáp ứng được các mục tiêu và yêu cầu của khóa học.
- Thảo luận về ứng dụng thực tế: Trao đổi về cách áp dụng kiến thức đã học vào thực tế và giải quyết các vấn đề trong lĩnh vực tương ứng.
- Phân tích và đánh giá project: Đánh giá và phân tích kết quả của các dự án đã thực hiện bởi các nhóm học viên, bao gồm sự đóng góp, hiệu suất và tính khả thi của các giải pháp.
- Tổng kết và phản hồi: Tổng kết khóa học bằng cách cung cấp phản hồi về nội dung, phương pháp giảng dạy và trải nghiệm học tập, nhằm cải thiện chất lượng của khóa học trong tương lai.
Giảng viên

Giảng viên Toán ứng dụng và Khoa học máy tính - ĐH Ngoại Thương TP.HCM
- Hơn 3 năm là Giảng viên dạy các chủ đề Toán ứng dụng và Khoa học máy tính,Đại học Ngoại Thương,TP HCM Phân tích dữ liệu, AI, Cơ sở dữ liệu, PowerBI, v.v. |
- Hơn 3 năm Giảng viên Đại học Khoa Kỹ thuật Hàng không Vũ trụ, Khoa Kỹ thuật Giao thông Vận tải, Đại học Bách khoa TP.HCM Nhà khoa học nghiên cứu và Giảng viên về các chủ đề liên quan đến Khoa học tính toán. |
- Hơn 3 năm Nghiên cứu viên Viện Năng lượng ứng dụng – NUPEC (Nuclear Power Trung tâm Kỹ thuật), Tokyo, Nhật Bản. |
- Hơn 4 năm CNTT tại Công ty DFM-engineering |
- Hơn 10 năm nghiên cứu trong lĩnh vực khoa học tính toán và phân tích dữ liệu |
Trợ giảng


Feedback học viên

Vũ Minh Nhật
Data Scientist tại VP Bank

Mai Thị Hòa
Data Analyst tại Viettel

Đỗ Tiến Đạt
Data Scientist tại CMC
Dự án học viên
Thông tin khóa học
Đào tạo trực tuyến
Các buổi học sẽ diễn ra qua các nền tảng trực tuyến như Zoom, Microsoft Teams, và Google Meet.Học viên tham gia các buổi học trực tiếp với giảng viên qua hình thức online.
Lý thuyết và thực hành
60% lý thuyết và 40% thực hành. Các bài thực hành được lấy từ các bài toán thực tế, giúp học viên áp dụng ngay kiến thức vào công việc.
Tài liệu học tập
Slide bài giảng, hướng dẫn thực hành chi tiết.
Video bài giảng
Học viên có thể xem lại video các buổi học để ôn tập và nắm vững kiến thức.
Tương tác trực tiếp
Học viên có thể trao đổi trực tiếp 1-1 với giảng viên hoặc trợ giảng để được giải đáp thắc mắc và hỗ trợ trong quá trình học.
Lợi ích chỉ có tại COLE

Giới thiệu việc làm sau khóa học

Học lại free

Cộng đồng chuyển đổi số 1
Câu hỏi thường gặp
- Một số khóa học có công cụ để thhuwcj hành, các GV sẽ chuẩn bị trước thông tin và hướng dẫn cài đặt công cụ để học viên tham gia học tập một cách hiệu quả nhất."
Để biết thêm thông tin chi tiết đừng ngần ngại gọi cho chúng tôi.
-
Hotline
-
Email
-
Trang tin chính thức
Hoặc để lại thông tin
COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills

5000+
Học viên theo học

30%
Thu nhập học viên tăng lên sau khi học

30+ Khóa học
Hàng đầu về ứng dụng công nghệ

50+
Chuyên gia hàng đầu về chuyển đổi số
300+ Doanh nghiệp hàng đầu lựa chọn Cole để nâng cấp kỹ năng
Hình ảnh lớp học