Big Data Engineer
Thời lượng
7 tháng (60 buổi)
Hình thức đào tạo
Online qua Zoom
Số tín chỉ
30
Tổng quan
Chương trình học Big Data Engineer được thiết kế nhằm trang bị cho học viên kiến thức và kỹ năng cần thiết để trở thành một kỹ sư dữ liệu chuyên nghiệp. Các mục tiêu chính của khóa học bao gồm: Từ việc làm quên với nghề Data engineer, bằng việc học các kiến thức cơ bản đến SQL Sever, các khái niệm về Data Warehouse, thực hành làm Data Warehouse, các dịch vụ AWS trên Clound. Nắm vững các khái niệm cơ bản về Big Data, quy trình xử lý dữ liệu lớn và các lĩnh vực ứng dụng (bigdata). Thành thạo lập trình Python, từ cú pháp cơ bản đến lập trình đa luồng và lập trình mạng(python). Hiểu biết về hệ sinh thái Hadoop và các thành phần như HDFS, MapReduce, HBase, Sqoop, Flume và Spark. Tạo và quản lý cơ sở dữ liệu, bảng trong Hive, sử dụng các loại file format trong Big Data(hadoop). Tối ưu RDD, làm việc với DataFrame và SQL trong Spark, xử lý dữ liệu song song và streaming.
Chương trình bao gồm các buổi học lý thuyết kết hợp với thực hành, giúp học viên áp dụng kiến thức vào các bài tập và dự án thực tế. Sau khi hoàn thành khóa học, học viên sẽ có khả năng làm việc với các công cụ và công nghệ tiên tiến trong lĩnh vực Big Data Engineer, sẵn sàng đối mặt với các thách thức trong ngành.
Những xu hướng chính trong lĩnh vực Big Data Engineer có thể kể đến bao gồm:
Mục tiêu học tập
- Xây dựng hệ thống lưu trữ dữ liệu cho tập đoàn - nhiều công ty thành viên
- Xây dựng hệ thống lưu trữ dữ liệu cho tổng công ty - gồm nhiều phòng ban chức năng.
Đối tượng học tập
Sinh viên các ngành Công nghệ thông tin, Khoa học máy tính, và các ngành liên quan.
Các chuyên viên IT, lập trình viên, và những người muốn chuyển đổi nghề nghiệp sang lĩnh vực dữ liệu.
Những ai có mong muốn nâng cao kỹ năng và kiến thức về xử lý và quản lý dữ liệu lớn.
Chuẩn đầu ra
Theo chuẩn Bloom 3 mốc đầu
Knowledge (Hiểu biết):
• Khái niệm cơ bản về Kỹ sư Dữ liệu (Data Engineer), Data Warehousing, ETL, SQL, Business Intelligence, và các hệ thống cơ sở dữ liệu như SQL Server.
• Quy trình xử lý và quản lý dữ liệu lớn, bao gồm các công nghệ như Power BI, AWS, Google Cloud, Azure, Hadoop, HDFS, YARN, và hệ sinh thái Hadoop.
Comprehension (Lĩnh hội):
• Học viên có khả năng giải thích, thảo luận các khái niệm đã học, Python cho Data Engineers, và các công cụ xử lý dữ liệu lớn như Sqoop, HIVE, Flume, Hbase, Pig, Spark.
• Học viên áp dụng các kiến thức lý thuyết vào các tình huống thực tế trong lĩnh vực dữ liệu lớn, chẳng hạn như xây dựng data pipeline, trực quan hóa dữ liệu với Power BI, và thực hiện các quy trình ETL.
Application (Ứng dụng):
•Học viên có thể sử dụng thành thạo các công cụ và công nghệ để xử lý và quản lý dữ liệu, bao gồm việc triển khai và cấu hình các hệ thống Hadoop, Spark, và các công cụ liên quan như Sqoop, HIVE, Flume, Hbase, Pig, và các công cụ Spark như RDD, DataFrame, Spark SQL, và Spark Streaming.
• Học viên có khả năng thực hiện các thao tác phức tạp như tối ưu hóa câu lệnh SQL, xử lý dữ liệu với Python, và sử dụng các dịch vụ cloud như AWS, Google Cloud, Azure để quản lý và phân tích dữ liệu.
Chuẩn đầu ra theo tư duy, công cụ, kỹ năng
- Công cụ:
• SQL Server: Nắm vững các lệnh và cú pháp SQL, tối ưu hóa câu lệnh SQL, thiết kế và quản lý cơ sở dữ liệu.
• Power BI: Trực quan hóa dữ liệu, tạo báo cáo và dashboard.
• AWS, Google Cloud, Azure: Quản lý cơ sở dữ liệu trên đám mây, sử dụng các dịch vụ dữ liệu của AWS, Google Cloud và Azure.
• Hadoop Ecosystem: Sử dụng các công cụ trong hệ sinh thái Hadoop như HDFS, YARN, MapReduce, Hbase, Sqoop, Flume, Pig, và Spark.
• Python: Lập trình Python cho Data Engineering, sử dụng các thư viện và framework phổ biến.
- Tư duy:
• Tư duy phân tích: Phân tích dữ liệu, tìm ra insights từ dữ liệu lớn.
• Tư duy giải quyết vấn đề: Giải quyết các vấn đề liên quan đến xử lý và quản lý dữ liệu lớn.
• Tư duy hệ thống: Hiểu và thiết kế các hệ thống dữ liệu phức tạp, đảm bảo sự hiệu quả và tối ưu của các quy trình xử lý dữ liệu.
- Kỹ năng:
• Kỹ năng lập trình: Lập trình với SQL, Python, và các công cụ Hadoop.
• Kỹ năng quản lý dữ liệu: Thiết kế, triển khai và quản lý cơ sở dữ liệu lớn, sử dụng các công cụ ETL và Data Warehousing.
• Kỹ năng sử dụng công nghệ đám mây: Triển khai và quản lý dữ liệu trên các nền tảng đám mây như AWS, Google Cloud, Azure.( Xây dựng được Data warehouse, Data lakehouse - Onpremis hoặc Cloud AWS)
• Kỹ năng trực quan hóa dữ liệu: Sử dụng Power BI để tạo báo cáo và dashboard trực quan.
• Kỹ năng làm việc nhóm: quản lý mã nguồn, làm việc cùng nhóm trong các dự án data engineering.
Công việc sau khi hoàn thành khóa học
Mong muốn của trung tâm sau khi học xong khóa học tại COLE là có thể được sử dụng những dự án thực tế làm kinh nghiệm để có thể ứng tuyển vào các vị trí: Kỹ sư dữ liệu (Data Engineer), Quản trị hệ thống dữ liệu (Database Administrator), Chuyên gia về Big Data (Big Data Specialist), Nhà phát triển ứng dụng dữ liệu (Data Application Developer). Đây là vị trí mà có rất nhiều công ty công nghệ lớn tại Việt Nam cũng như toàn cầu có công việc tuyển dụng với mức lương cực kì cạnh tranh ví dụ như: FPT Software, Viettel Group, VNG Corporation, Tiki Corporation, Shopee Vietnam, VinGroup, Grab Vietnam, ZaloPay, Lazada Vietnam, NashTech Vietnam…
Lộ trình học tập
ETL
SQL
Business Intelligence
SQL Server
Framework ETL, ELT
Cài đặt Microsoft SQL Server
Cài đặt Tool SSMS
Cơ sở của truy vấn - Ngôn ngữ SQL
Các khái niệm, thành phần cơ bản trong SQL
Các nhóm lệnh cơ bản trong SQL
Kiểu dữ liệu trong SQL Server
Select statement
Bài tập thực hành
SQL statement with aggregate functions (COUNT, SUM, AVERAGE , MIN, MAX, ..)
SQL statement with datetime functions practice exercises DDL statement
Constraint
DML statement
Bài tập thực hành
Functioin (Hàm)
If ... else ...
case ... when ...
vòng lặp while
cursor (con trỏ)
bảng tạm with cte
Bài tập thực hành
Công cụ turning, debug, tracing
Tối ưu hóa câu lệnh SQL
Execution plan (Kế hoạch thực thi)
Bài tập thực hành
- bán hàng online
- book phòng khách sạn
- đặt vé sự kiện
- quản lý nhân sự...
- Tổng quan về ETL
- Transform
- Load
- SSIS
- Tổng quan trực quan hóa dữ liệu
- Xây dưng các biểu đồ
- AWS console
- IAM
- Các dịch vụ dữ liệu của AWS
- Cách tạo RDS và kết nối tới database
- Giám sát trạng thái hoạt động của server
- Backup dữ liệu định kỳ
- Bài tập thực hành
- Sử dụng công cụ aws-cli để upload/download file
- Sử dụng athena để truy vấn dữ liệu trên S3
- Bài tập thực hành
- Một số cú pháp truy vấn cơ bản
- Backup định kỳ
- Bài tập thực hành
- Data Catalogue
- Crawler
- Visual ETL
- Bài tập thực hành
- Chạy job theo định kỳ
- Sử dụng workflow
- Bài tập thực hành
- Big data Case Study
- 5V's of Big data
- Các lĩnh vực áp dụng
- Quy trình xử lý big data
- Các công việc liên quan đến big data ở Việt Nam
- Tóm tắt các ý chính cần nhớ và hỏi đáp
- Giao nhiệm vụ cho phần tiếp theo
- Observer, Decorator.
- Programming, client-server model.
- Giới thiệu hadoop
- Các thành phần trong hệ sinh thái hadoop:
• HadoopMap-Reduce
• HDFS
• Hbase
• Sqoop
• Flume
• Spark
• Pig
• Impala
• OOzie
• HUE
- Áp dụng hệ sinh thái công nghệ Hadoop Ecosystem vào trong quy trình xử lý bigdata.
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan.
-Giao nhiệm vụ cho phần tiếp theo
- Giải thích kiến trúc và các thành phần trong HDFS
- Mô tả YARN và các tính năng của YARN
- Giải thích kiến trúc của YARN
- Demo cài đặt hadoop với các cấu hình cơ bản (package sẵn hướng dẫn cài đặt hadoop trên môi trường linux)
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Diễn giải map-reduce
- Ví dụ map/reduce và một số trường hợp sử dụng trong thực tế
- Tìm hiểu mã lập trình mapreduce sử dụng thư viện của hadoop (JAVA)
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu tham khảo
- Giao nhiệm vụ cho phần tiếp theo
- Các trường hợp sử dụng Sqoop (có gợi ý thêm công cụ spark để làm pipeline với một số thế mạnh, chia sẻ bài tham khảo)
- Kiến trúc của Sqoop
- Demo Sqoop: (cài đặt sqoop, các thông số cấu hình cần quan tâm, pack sẵn gói cài đặt sqoop trên môi trường linux)
• Sử dụng Sqoop import dữ liệu từ RDBMS tới:
HDFS
HBASE (tùy chọn)
HIVE (tùy chọn)
• Export dữ liệu trong hadoop sử dụng sqoop
- Một số command line của sqoop
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Các tác động qua lại giữa hive & impala
- Demo
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Định nghĩa cơ sở dữ liệu và bảng
- Data Types trong Hive
- Demo
• Tạo CSDL và bảng trong HIVE
• Mô tả các tables
- Data validation
- Demo
• Load data trong HIIVE
• Query data ở HIVE và Impala
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
• Text
• Sequense
• Parquet
• Avro
• Ocr (optional)
- Data Serialization
- Demo
• Tạo Hive table với Avro
• Avro với Sqoop
• Import dữ liệu từ RDBMS (Mysql) và HDFS sử dụng Avro
• Làm lặp lại các demo trên bằng Parquet
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Học về Hive Query Language (HiveQL)
- HiveQL Extensibility
- Tóm tắt các ý chính cần nhớ và hỏi đáp
- Giao nhiệm vụ cho phần tiếp theo
- Demo Flume
- Ý nghĩa, kiến trúc và các thành phần trong Hbase
- Demo Hbase
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Pig Architecture & Operations
- Pig Commands & Demo
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Spark: Architecture, Execution, and Related Concepts
- RDD Basic
- Spark Example with python
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
• Data Types Supported by RDD
• Pair RDDs and Double RDDs
• Creating RDD from a Text File, Collection, Whole Files
• Creating Pair RDDs
With Examples
- Input and Output Formats in Spark
- Operations in RDD - Transfomrmation & Action (implemention)
- Spark RDD Closure & Shared Variable
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Running Spark on Yarn
- Running Spark Application
- Dynamic Resource Allocation
- Configuring the Spark Application
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- Spark Partitions
- Demo: Creating Partition
- Spark Terminology
- How Spark Calculates Stages
- Controlling the Level of Parallelism
- Spark Application UI
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
- RDD Persistence
- Demo
- Tóm tắt các ý chính cần nhớ và hỏi đáp
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao nhiệm vụ cho phần tiếp theo
Introduction to PySpark DataFrame
Features and Advantages
Working with PySpark DataFrame
a. Create DataFrame: createDataFrame(), spark.read.csv(), spark.read.json()
b. printSchema(), show()
c. count()
d. describe()
e. crosstab()
f. groupby()
g. select(), select() và agg, count, max, mean, min, sum..., select().distinct()
h. orderby().asc()/desc()
i. withColumn(), withColumnRenamed()
j. drop(), dropDuplicates(), dropna()
k. filter(), where()
l. Column string transformation
m. Conditional clauses: .when(
n. User defined functions (UDF)
Data Visualization in PySpark using DataFrames
a. hist(), distplot()
b. pandas_histogram()
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao bài tập về nhà và nhiệm vụ cho buổi tiếp theo
Introduction to PySpark SQL
Running SQL Queries Programmatically
a. select()
b. when()
c. like()
d. startswith(), endswith()
e. substr(), between()
Manipulating data
a. Group by
b. Filtering
c. Sorting
d. Missing and replacing value
e. Joining Data
f. Repartitioning
g. Registering DataFrames as Views
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao bài tập về nhà và nhiệm vụ cho buổi tiếp theo
- Dstream
- Spark Struct Streaming
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên quan
- Giao bài tập về nhà
- Đưa ra các đánh giá về công nghệ, một số gợi ý lựa chọn công nghệ phù hợp đối với từng mục đích khác nhau
- Tóm tắt các ý chính cần nhớ và hỏi đáp, chia sẻ tài liệu liên qua
Giảng viên
Data Architecture tại Tập đoàn BRG
- 15+ năm kinh nghiệm làm việc thực tế về chuyển đổi số, tham gia phát triển nhiều dự án CNTT lớn. Tham gia đánh giá, tư vấn hỗ trợ trong việc mua sắm phần mềm cho doanh nghiệp.
- Đã có kinh nghiêm làm việc chuyển đổi số trong và ngoài nước (Mỹ và Malaysia) - Tập đoàn BestBuy.Com với vai trò là key chính (kỹ sư dữ liệu.)
- Đã chuyển đổi số trong nhiều lĩnh vực từ doanh nghiệp nước ngoài, chính phủ, và doanh nghiệp tư nhân
- Làm việc với nhiều vai trò khác nhau từ nhân viên, thầy giáo, tư vấn, quản trị dự án, lãnh đạo CNTT trong doanh nghiệp, chủ doanh nghiệp, làm các dự án startup
- Đã làm các dự án phần mềm (chuyển đổi số) cho chính phủ (Chính phủ điện tử Đà Nẵng, Một cửa quốc gia, Chính phủ điện tử cho bộ Y tế, Bộ giao thông vận tải, Văn phòng chính phủ…).
- Đã đào tạo đội làm chính phủ điện tử bên VNPT , đào tạo STEM và có đưa team học sinh Việt Nam đi thi đấu tại Indonesia.
- Hiện tại phụ trách phần mềm, EA (enterprise architecture) của Tập đoàn BRG (Công ty đa ngành sở hữu ngân hàng SeaBank, Golf, Khách sạn, BDS, Dược phẩm……)
- Tốt nghiệp kỹ sư CNTT ngành ngành Toán - Tin Đại học Bách khoa Hà Nội
- Từng làm giảng viên tại Aptech
Senior Data Analyst - Business Inteligence tại Corp360
Senior Data Analyst - Business Inteligence tại Corp360
Principal Engineer tại IX - Công ty chuyển đổi số hàng đầu Nhật Bản
- Xây dựng các hệ thống Data Warehouse, Big Data tại tập đoàn Mynavi (công ty tuyển dụng lớn nhất Nhật Bản)
- 5 năm kinh nghiệm làm việc trực tiếp tại Nhật Bản
- 12 năm kinh nghiệm làm chuyển đổi số khách hàng Nhật Bản
Data Architect at Bosch Digital
- 7+ năm kinh nghiệm xây dựng và phát triển Big Data Platform tại ACB Bank và Bosch.
- 2+ năm phát triển và vận hành quy trình tự động hóa với vai trò RPA Engineer tại FPT và Bosch.
- Chứng chỉ:
- Big Data Specialization - Đại học California, San Diego.
- BI Foundations with SQL, ETL and Data Warehousing - IBM.
Trợ giảng
Feedback học viên
Nguyễn Thùy Linh
Intern Data Engineer tại tập đoàn FPT
Ngô Thái Huy
Fresher Data Engineer tại Viettel
Thái Thùy Trang
Junior Data Engineer tại CMC
Dự án học viên
Thông tin khóa học
Thời lượng
8 Module - 60 buổi
Địa điểm học
Online qua nền tảng Zoom
Lịch khai giảng
Hàng tháng Thời gian học: Từ 20h- 22h
Công cụ
Có LMS hỗ trợ video, record, nội dung, làm bài thi, đánh giá năng lực và hơn thế nữa, tài liệu học tập
Chứng nhận
Được cấp bởi Sở GDĐT HN chứng nhận hoàn thành khóa học
Hỗ trợ
Hỗ trợ trọn đời sau khóa học qua zoom, LMS
Lợi ích chỉ có tại COLE
Giới thiệu việc làm sau khóa học
Học lại free
Cộng đồng chuyển đổi số 1
Câu hỏi thường gặp
Để biết thêm thông tin chi tiết đừng ngần ngại gọi cho chúng tôi.
-
Hotline
-
Email
-
Trang tin chính thức
Hoặc để lại thông tin
COLE - Lựa chọn hàng đầu cho nhân
sự về Digital Skills
5000+
Học viên theo học
30%
Thu nhập học viên tăng lên sau khi học
30+ Khóa học
Hàng đầu về ứng dụng công nghệ
50+
Chuyên gia hàng đầu về chuyển đổi số
300+ Doanh nghiệp hàng đầu lựa chọn Cole để nâng cấp kỹ năng
Hình ảnh lớp học