"- Tổng quan về lĩnh vực Khoa Học Dữ liệu & trí tuệ nhân tạo và tầm quan trọng của nó hiện nay
- Các bài toán phổ biến và quan trọng trong lĩnh vực Khoa học dữ liệu.
- Python và SQL trong Data Science
- Tổng quan kiến thức cơ bản về Machine Learning cần thiết trong khóa học.
- Giới thiệu và hướng dẫn cài đặt môi trường thực hành như Jupyter Notebook, Colab, v.v."
"Hàm tạo bảng và truyền dữ liệu: Create and insert
Select statement
Where clause + And/or
In, not in, is null, between
Order by, Limit, Distinct and rename columns"
"UPPER(), LOWER(), LENGTH(), TRIM()
String Functions: SUBSTRING(), REPLACE(), POSITION() and COALESCE()
Grouping Functions: MIN(), MAX(), AVG(), SUM(), COUNT()"
"Understanding Grouping - GROUP BY & HAVING Clauses
Subqueries "
"Using CASE Clause
INNER and OUTER Joins
Using UNION, UNION ALL and EXCEPT Clauses
Joins and Subqueries "
"JOIN nâng cao:
- Self-Join
- Cross-Join
Phép toán tập hợp:
- INTERSECT
- EXCEPT
- Ứng dụng thực tế của UNION."
"Tìm hiểu về hàm cửa sổ (ROW_NUMBER(), RANK(), DENSE_RANK(), NTILE(), v.v.)
Các ví dụ thực tiễn về việc sử dụng hàm cửa sổ trong phân tích dữ liệu."
"Sử dụng WITH để tạo CTEs.
Truy vấn đệ quy để xử lý dữ liệu dạng phân cấp (ví dụ: tìm mối quan hệ cha - con)."
"Cấu trúc chương trình Python
Biến và các kiểu dữ liệu
Input & print trong python
Áp dụng các kiểu dữ liệu nào trong thực tế?"
"Các phép toán
Biểu thức điều kiện"
"Vòng lặp For, While
Tự động hóa các tác vụ lặp đi lặp lại"
"Cách thức hoạt động của hàm
Gọi hàm trong python
Biến cục bộ và biến toàn cục
Hàm lambda"
"Học cách xử lý chuỗi thông qua:
- Cắt chuỗi (slicing),
- Lập chỉ mục (indexing),
- Định dạng (formatting)."
"Các thao tác trên List
- Khởi tạo List
- Truy cập phần tử trong List (truy cập bằng index, truy cập đầu cuối danh sách)
- Thao tác trên List (Thêm, xóa, thay đổi giá trị phần tử)
- Cắt (slicing) List
- Các phương thức List (sort(), reverse(), count(), index(), extend())
Các thao tác trên Tuple
- Cú pháp để tạo tuple bằng dấu ngoặc tròn ().
- Truy cập phần tử trong Tuple:
- Thao tác với Tuple
- Ứng dụng của Tuple
- Tuple packing và unpacking"
"- Khởi tạo và thao tác trên Dictionaries và Sets
- Ứng dụng của Dictionaries và Sets"
"- Khởi tạo và thao tác trên Arrays và Vectors
- Ứng dụng của Arrays và Vectors"
"Lớp và đối tượng
Phương thức
Package và import
Thực hành: lớp và đối tượng "
"Xử lý dữ liệu thiếu Missing Data
Đối tượng Groupby
Làm việc với DataFrame
Chèn, xóa, sửa dòng và cột trong DataFrame
Sắp xếp dữ liệu trong DataFrame"
"Import thư viện
Các biểu đồ cơ bản
Lợi ích của Seaborn
Biểu đồ trong Seaborn"
Sử dụng database trên kaggel dùng SQL và Python để tạo biểu đồ
"Khám phá vai trò của thống kê trong khoa học dữ liệu.
Phân biệt giữa thống kê mô tả và thống kê suy luận.
Sử dụng thống kê mô tả (Python) để:
- Tóm tắt nhanh dữ liệu.
- Đo lường trung tâm dữ liệu.
- Đo lường độ phân tán dữ liệu.
- Đo lường vị trí tương đối của dữ liệu."
"Học các quy tắc cơ bản để tính xác suất cho sự kiện đơn lẻ.
Khám phá cách sử dụng định lý Bayes để mô tả các sự kiện phức tạp.
Học cách sử dụng các phân phối xác suất (nhị thức, Poisson, chuẩn) để hiểu rõ cấu trúc dữ liệu."
"Học về các phương pháp thu thập và phân tích dữ liệu mẫu.
Tìm hiểu cách tránh sai lệch do chọn mẫu.
Học cách sử dụng phân phối mẫu để đưa ra ước lượng chính xác.
Sử dụng mẫu nhỏ để suy luận về tập dữ liệu lớn."
"Khám phá cách sử dụng khoảng tin cậy để mô tả sự không chắc chắn trong ước lượng.
Học cách xây dựng và diễn giải khoảng tin cậy.
Tìm hiểu cách tránh các hiểu lầm phổ biến liên quan đến khoảng tin cậy.
Kiểm định giả thuyết giúp xác định tính ý nghĩa thống kê của kết quả so với ngẫu nhiên.
Học các bước cơ bản của một kiểm định giả thuyết.
Hiểu cách kiểm định giả thuyết giúp đưa ra kết luận có ý nghĩa về dữ liệu."
"- Sử dụng Python để trực quan hóa dữ liệu
- Áp dụng kiến thức thống kê để đánh giá thêm về dữ liệu và mô hình trực quan hóa"
Ứng dụng xác suất thống kê vào qui trình phân tích dữ liệu thăm dò (EDA) và trực quan hóa cho các bộ dữ liệu thật từ doanh nghiệp
"- Tổng quan về bài toán Hồi quy và các ứng dụng thực tế của nó.
- Giới thiệu các thuật toán Hồi quy phổ biến như Linear Regression, Logistic Regression,...
- Cách tiếp cận và xây dựng một mô hình Hồi quy trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống Hồi quy"
"- Tổng quan về bài toán Phân loại và các ứng dụng thực tế của nó.
- Giới thiệu các thuật toán Phân loại phổ biến như Linear classifiers, Decision Tree, SVM,...
- Cách tiếp cận và xây dựng một mô hình phân loại trong các tình huống thực tế.
- Các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống phân loại."
"- Học viên thực hành áp dụng kiến thức đã học vào việc giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Tổng quan về bài tập lớn (Project) của khóa học, đưa ra mục tiêu, yêu cầu và quá trình thực hiện của dự án."
"- Giới thiệu bài toán phân cụm và giải thuật k-means, một phương pháp phân cụm phổ biến trong Khoa học Dữ liệu.
- Giới thiệu về khái niệm độ tương đồng trong phân cụm, là một phép đo để đánh giá sự tương đồng giữa các điểm dữ liệu.
- Giới thiệu một số phương pháp mã hóa văn bản như Bag-of-Words, TF-IDF và Word Embedding để biểu diễn văn bản thành dữ liệu số hóa.
- Hướng dẫn thực hành giải quyết bài toán truy xuất và phân cụm tài liệu, sử dụng các kỹ thuật và công cụ như k-means và phương pháp mã hóa văn bản, để xử lý và phân tích các tài liệu dựa trên nội dung của chúng."
"- Giới thiệu về hệ thống gợi ý và vai trò của nó trong cung cấp thông tin và đề xuất cho người dùng.
- Tổng quan về một số thuật toán phổ biến trong hệ thống gợi ý như Lọc cộng tác, Gợi ý dựa trên nội dung,...
- Cách tiếp cận và quy trình xây dựng một hệ thống gợi ý trong môi trường thực tế, từ việc thu thập dữ liệu đến xây dựng mô hình và triển khai.
- Giới thiệu các phương pháp để đánh giá hiệu suất và độ chính xác của một hệ thống gợi ý.
- Hướng dẫn thực hành xây dựng và đánh giá hệ thống gợi ý trên một bộ dữ liệu thực tế, áp dụng các thuật toán và phương pháp đã học vào thực tế."
"- Giới thiệu về khái niệm và mục tiêu của khai phá luật kết hợp trong Khoa học Dữ liệu.
- Các phương pháp và định dạng để biểu diễn luật kết hợp, bao gồm dạng tập hợp, dạng chuỗi, và dạng cây.
- Phương pháp khai thác và tìm kiếm các mẫu phổ biến từ dữ liệu, như tìm tập hợp phổ biến, chuỗi phổ biến, hoặc cây phổ biến.
- Khám phá các luật kết hợp từ các mẫu phổ biến
- Phân tích tương quan giữa các mẫu hoặc thuộc tính dữ liệu, để tìm hiểu sự tương quan và tương tác giữa chúng, đồng thời đưa ra các phân tích và nhận định về mối quan hệ."
"- Học viên sẽ được thực hành áp dụng kiến thức về bài toán phân cụm, hệ gợi ý và khai phá luật kết hợp bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Cung cấp cơ hội cho học viên đặt câu hỏi và nhận được sự giải đáp từ giảng viên hoặc các thành viên khác trong khóa học.
- Học viên sẽ được giới thiệu tổng quan về bài tập lớn (Project) của khóa học, bao gồm mục tiêu, yêu cầu và quy trình thực hiện của dự án."
"- Tổng quan về Học Sâu và các lĩnh vực ứng dụng trong Khoa học dữ liệu.
- Các kiến thức cơ bản cần nắm về Học Sâu, bao gồm kiến trúc mạng neural, hàm kích hoạt, lan truyền ngược, và thuật toán tối ưu hóa.
- Giới thiệu về xử lý và phân tích hình ảnh thông qua công nghệ thị giác máy tính và các ứng dụng trong thực tế.
- Giới thiệu về xử lý ngôn ngữ tự nhiên và các phương pháp, công cụ để xử lý, phân tích và hiểu văn bản tự nhiên."
"- Học viên sẽ được thực hành áp dụng kiến thức về mô hình học sâu bằng cách giải quyết một bộ dữ liệu mẫu trên nền tảng Kaggle.
- Tổng kết Module 4 về lý thuyết
- Hỏi đáp về Mini-Project."
"- Hướng dẫn về cách tiếp cận và phân tích một bài toán trong Khoa học dữ liệu, bao gồm việc định nghĩa mục tiêu, thu thập dữ liệu, đặt câu hỏi và tạo ra giả thuyết để đưa ra các phương pháp phân tích.
- Hướng dẫn về việc xác định và thu thập dữ liệu phù hợp cho bài toán, bao gồm các nguồn dữ liệu, phương pháp thu thập và quy trình xử lý dữ liệu.
- Hướng dẫn về quy trình khai phá dữ liệu (EDA) để hiểu cấu trúc và tính chất của dữ liệu. Bên cạnh đó, cung cấp hướng dẫn về các phương pháp biểu diễn trực quan dữ liệu, như biểu đồ, đồ thị, hay bản đồ, để hỗ trợ quá trình khai phá và hiểu rõ hơn về dữ liệu."
"- Hướng dẫn về các phương pháp tiếp cận dữ liệu, bao gồm tiền xử lý, lọc dữ liệu và trích xuất đặc trưng. Điều này bao gồm các kỹ thuật như xử lý dữ liệu thiếu, giải quyết nhiễu, trích xuất thông tin quan trọng và giảm chiều dữ liệu.
- Hướng dẫn về cách khai thác thông tin từ các trường dữ liệu có sẵn và tạo ra các trường dữ liệu mới dựa trên kiến thức và hiểu biết về bài toán. Điều này có thể bao gồm việc kết hợp, biến đổi hoặc áp dụng các quy tắc và hàm tính toán để tạo ra thông tin mới từ dữ liệu hiện có.
- Hướng dẫn về việc mã hóa và chuẩn hóa dữ liệu để đảm bảo tính nhất quán và khả năng so sánh giữa các đặc trưng. Bao gồm các phương pháp như mã hóa one-hot, mã hóa số hóa, chuẩn hóa z-score và chuẩn hóa min-max để biến đổi và điều chỉnh các giá trị dữ liệu thành dạng phù hợp và thống nhất."
"- Hướng dẫn về quá trình phân tích bài toán và lựa chọn mô hình phù hợp dựa trên yêu cầu và đặc điểm của dữ liệu. Bao gồm việc tìm hiểu và so sánh các mô hình khác nhau, đánh giá khả năng của chúng trong việc giải quyết bài toán cụ thể.
- Hướng dẫn về quá trình xây dựng mô hình, bao gồm việc định nghĩa kiến trúc mô hình, khởi tạo các tham số và quyết định các thông số quan trọng như learning rate, số lượng layer, kích thước batch, v.v.
- Hướng dẫn về quá trình huấn luyện mô hình base, bao gồm việc chuẩn bị dữ liệu huấn luyện, chia thành batch, tạo bộ kiểm tra, lựa chọn hàm mất mát và phương pháp tối ưu hóa, đánh giá và tinh chỉnh mô hình dựa trên kết quả huấn luyện."
"- Giới thiệu tổng quan về các tham số của mô hình và các tham số được sử dụng trong quá trình huấn luyện, bao gồm các thông số kiến trúc như số lượng layer, số lượng units trong mỗi layer, hệ số dropout, v.v. Các tham số huấn luyện bao gồm learning rate, số lượng epoch, kích thước batch, v.v.
- Hướng dẫn về cách tối ưu các tham số của mô hình trong quá trình huấn luyện. Điều này có thể bao gồm việc sử dụng phương pháp tìm kiếm lưới (grid search) để thử nghiệm các giá trị khác nhau cho các tham số, sử dụng kỹ thuật tinh chỉnh tự động (automated tuning) như tối ưu bayes (Bayesian optimization), hoặc sử dụng phương pháp tinh chỉnh thông qua việc giảm thiểu hàm mất mát (loss function minimization)."
"- Phân tích lỗi mô hình: Sử dụng hàm lỗi và quan sát thực tế để hiểu các hạn chế và điểm yếu của mô hình.
- Đánh giá mô hình và lựa chọn mô hình tốt nhất: Sử dụng các phương pháp như cross-validation, độ đo hiệu suất và so sánh mô hình để lựa chọn mô hình tốt nhất cho áp dụng thực tế."
" - Triển khai mô hình bằng cách xây dựng các API hoặc dịch vụ để cung cấp chức năng dự đoán cho người dùng hoặc hệ thống khác.
- Xây dựng một quy trình tự động hoàn chỉnh để xử lý dữ liệu, huấn luyện mô hình và triển khai mô hình trong môi trường thực tế. Quy trình này bao gồm các bước từ chuẩn bị dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá, triển khai và cập nhật mô hình."
"- Tổng kết và củng cố kiến thức đã học trong module thực hành, bao gồm các phương pháp, công cụ và kỹ năng đã được áp dụng để giải quyết các bài toán thực tế.
- Các hướng giải quyết khác có thể áp dụng để đạt được kết quả tốt hơn, khám phá và nghiên cứu thêm về các phương pháp mới và tiến bộ trong lĩnh vực khoa học dữ liệu.
- Một số vấn đề cần chú ý khi áp dụng vào hệ thống dữ liệu lớn trong thực tiễn doanh nghiệp bao gồm quy mô, tính khả thi, hiệu suất, bảo mật và tính ổn định của hệ thống và các yếu tố khác như quản lý dữ liệu, quản lý tài nguyên, và tương tác với các thành phần khác trong hệ thống.
- Học viên đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận về project."
"- Học viên trình bày Mini-project của mình cá nhân hoặc theo nhóm
- Các nhóm đặt câu hỏi, chia sẻ kinh nghiệm và thảo luận "
"- Tổng hợp và phân tích kiến thức đã học: Tổng kết và đánh giá lại các khái niệm, kỹ năng và công nghệ đã học trong suốt khóa học.
- Đánh giá tiến độ và kết quả học tập: Xem xét và đánh giá tiến bộ cá nhân và kết quả học tập của mỗi học viên để đảm bảo họ đã đáp ứng được các mục tiêu và yêu cầu của khóa học.
- Thảo luận về ứng dụng thực tế: Trao đổi về cách áp dụng kiến thức đã học vào thực tế và giải quyết các vấn đề trong lĩnh vực tương ứng.
- Phân tích và đánh giá project: Đánh giá và phân tích kết quả của các dự án đã thực hiện bởi các nhóm học viên, bao gồm sự đóng góp, hiệu suất và tính khả thi của các giải pháp.
- Tổng kết và phản hồi: Tổng kết khóa học bằng cách cung cấp phản hồi về nội dung, phương pháp giảng dạy và trải nghiệm học tập, nhằm cải thiện chất lượng của khóa học trong tương lai."
"Giới thiệu các lĩnh vực ứng dụng AI phổ biến.
Quy trình xây dựng một dự án AI từ A-Z.
Các công cụ và nền tảng trong thực tiễn (PyTorch, TensorFlow, Docker, AWS, v.v.)."
"Tiền xử lý dữ liệu thực tế: xử lý dữ liệu thiếu, dữ liệu mất cân bằng.
Sử dụng Pandas, NumPy, và PySpark để xử lý dữ liệu lớn.
Tìm hiểu về các kỹ thuật augmentation cho dữ liệu.
"
"Ôn tập về mạng Neural Networks.
Thực hành xây dựng và huấn luyện mô hình cơ bản với PyTorch/TensorFlow."
"Các kỹ thuật cải thiện hiệu năng mô hình: Dropout, Batch Normalization.
Học về L1/L2 Regularization và Early Stopping.
Sử dụng TensorBoard để theo dõi quá trình huấn luyện
"
"Tích hợp thư viện OpenCV và TensorFlow/PyTorch.
Các kiến trúc CNN phổ biến: ResNet, EfficientNet.
Xây dựng ứng dụng phân loại ảnh và phát hiện đối tượng
"
"Các kỹ thuật NLP cơ bản: Tokenization, Embedding.
Tìm hiểu về Word2Vec, GloVe, BERT, và Transformer.
Ứng dụng: xây dựng chatbot cơ bản hoặc phân loại văn bản."
"Giảm kích thước mô hình và tăng tốc độ suy luận (pruning, quantization).
Triển khai mô hình trên các thiết bị biên (Raspberry Pi, NVIDIA Jetson)."
"Chọn dataset thực tế (ví dụ: phân loại sản phẩm, nhận diện biển số xe).
Huấn luyện mô hình và tích hợp vào hệ thống."
"Tích hợp NLP để hiểu và xử lý các câu hỏi của người dùng.
Triển khai chatbot trên web hoặc Telegram."
"Tích hợp AI với IoT: ví dụ, nhận diện đối tượng qua camera live stream.
Làm quen với Reinforcement Learning trong các bài toán tự động hóa
"
"Xây dựng A/B Testing cho các mô hình AI.
Đánh giá chi phí và tối ưu hóa hệ thống AI trong sản xuất.
"
"Thuyết trình dự án của học viên.
Hướng dẫn lộ trình học nâng cao (AI Ethics, Generative AI).
"
Buổi 61 "Các kỹ thuật nâng cao
"
Giới thiệu cơ hội việc làm, thực tập kết nối doanh nghiệp