Các loại dữ liệu thường sử dụng trong doanh nghiệp (P2) – dữ liệu phi cấu trúc cấu trúc!

admin
526
11-09-2021

Ở phần 1 bạn đã được đọc về dữ liệu có cấu trúc, phần này bạn sẽ khám phá tiếp các dữ liệu phi cấu trúc (hay nói cách khác là dữ liệu không có cấu trúc – NoSQL).

Dữ liệu phi cấu trúc là thuật ngữ dùng để chỉ bất kỳ dữ liệu nào không phù hợp với các định dạng hoặc cơ sở dữ liệu có cấu trúc truyền thống – ví dụ như các trao đổi thông qua e-mail, văn bản trang web, các bài viết trên phương tiện truyền thông xã hội, nội dung video, hình ảnh và bản ghi âm. Như bạn có thể biết, chúng thường dưới dạng văn bản khối lượng lớn, nhưng cũng có thể là những dữ liệu ở dạng ngày và số, hoặc các loại dữ liệu khác như hình ảnh. Cho đến thời gian gần đây, mọi thứ không phù hợp với cơ sở dữ liệu hoặc bảng tính thường bị loại bỏ hoặc lưu trữ trên giấy, vi phim, hoặc tập tin được scan mà không thể dễ dàng phân tích. Bây giờ, nhờ vào sự gia tăng vượt trội trong khả năng lưu trữ, khả năng gắn thẻ và phân loại dữ liệu phi cấu trúc, chưa kể đến những tiến bộ trong các công cụ phân tích dữ liệu, cuối cùng chúng ta đã có thể sử dụng dữ liệu này.

Dữ liệu bán cấu trúc là đường giao thoa giữa dữ liệu phi cấu trúc và có cấu trúc. Đây là dữ liệu có một số cấu trúc có thể được sử dụng để phân tích (như các thẻ hoặc các dạng đánh dấu khác) nhưng thiếu cấu trúc nghiêm ngặt, cái mà chúng ta thường thấy trong cơ sở dữ liệu hoặc bảng tính. Ví dụ, một dòng tweet có thể được phân loại theo tác giả, ngày tháng, thời gian, độ dài và thậm chí cả cảm xúc ẩn chứa đằng sau nó, nhưng bản thân nội dung thường không có cấu trúc. Hiện nay, người ta có thể tự động phân tích văn bản trong dòng tweet đó, nhưng không phải là sử dụng các phương pháp phân tích truyền thống, mà sẽ cần đến một công cụ phân tích văn bản chuyên nghiệp.

Nhược điểm của dữ liệu phi cấu trúc

Bạn có thể đoán được rằng nhược điểm chính của việc làm việc với những dữ liệu lộn xộn và phi cấu trúc là chúng khá phức tạp, thường đòi hỏi phần mềm và hệ thống được thiết kế đặc biệt. Kết quả là, chi phí có thể tăng lên. Điều này không phải là không hợp lý; dữ liệu phi cấu trúc có xu hướng lớn hơn nhiều so với dữ liệu có cấu trúc, điều đó có nghĩa là bạn cần phải có dung lượng lớn hơn, tốt hơn, và việc tổ chức cũng như trích xuất những hiểu biết sâu sắc trở nên phức tạp hơn, dẫn đến việc đòi hỏi các hệ thống chuyên biệt. Tất cả điều này không có nghĩa là bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

bạn không nên sử dụng dữ liệu phi cấu trúc. Điều quan trọng là bạn cần làm rõ những gì bạn muốn đạt được và dữ liệu nào bạn cần để thực hiện điều đó – nó là cách chắc chắn nhất để tránh việc “leo thang” và giữ cho chi phí được kiểm soát.

Dữ liệu phi cấu trúc và bán cấu trúc có lợi thế lớn là chúng rất nhiều. 80% dữ liệu liên quan đến kinh doanh bắt nguồn từ dữ liệu phi cấu trúc hoặc bán cấu trúc, do đó nó lớn hơn rất nhiều so với dữ liệu có cấu trúc về khối lượng tuyệt đối. Và một lợi thế quan trọng khác là nó có xu hướng cung cấp một bức tranh phong phú hơn so với dữ liệu có cấu trúc truyền thống. Hãy suy nghĩ theo hướng dữ liệu có cấu trúc cho bạn biết ai, cái gì, ở đâu khi nào, trong khi dữ liệu phi cấu trúc giúp bạn hiểu lý do tại sao.

Dưới đây là ví dụ đơn giản về cách chúng ta có thể làm việc dễ dàng hơn với dữ liệu phi cấu trúc. Hãy xem xét đoạn video một con mèo chơi với quả bóng bện bằng dây. Một vài năm trước, để video đó được phân loại (ví dụ như để cho nó có thể xuất hiện trong kết quả tìm kiếm), người ta sẽ phải xem và gắn thẻ theo một số từ khóa nhất định (mèo, dễ thương, quả bóng, vui nhộn,…) để cho những người tìm kiếm video mèo vui nhộn hoặc dễ thương có thể tìm thấy video này một cách dễ dàng hơn. Giờ đây, video có thể được tự động phân loại bằng thuật toán, nghĩa là máy tính có thể xem video, tự động phát hiện nội dung bên trong (thậm chí có thể là ai trong đó, nhờ phần mềm nhận diện khuôn mặt) và tự động tạo ra các thẻ riêng cho chúng. Các thương hiệu đang bắt đầu sử dụng công nghệ này như là một phần trong hoạt động marketing hàng ngày của họ. Một người bạn của tôi kiếm sống bằng việc tổ chức các buổi hội nghị, và một trong những hội nghị mà anh tổ chức là cho một công ty sản xuất thiết bị điện tử nổi tiếng. Ngay trước khi hội nghị bắt đầu, anh ấy đã chia sẻ một bức ảnh của sân khấu chính trên Twitter, đã sẵn sàng cho diễn giả đầu tiên. Bức ảnh có tên và logo của nhà sản xuất, được đặt trên một tấm biển phía sau sân khấu, nhưng anh đã không đề cập rõ ràng đến công ty bằng cách sử dụng hashtag hoặc gắn địa chỉ Twitter của họ một cách rõ ràng. Và tiếp theo thì sao, một tuần sau hội nghị, liệu anh ấy có còn tiếp tục nhìn thấy những quảng cáo trực tuyến được nhắm mục tiêu cho thương hiệu cụ thể đó không? Bởi vì công ty biết anh ta đang nói về họ; phần mềm phân tích có thể khai thác dữ liệu phi cấu trúc cho bất kỳ điều gì có liên quan đến công ty và sản phẩm của họ.

Xem thêm: Các loại dữ liệu thường sử dụng trong doanh nghiệp (P3) – dữ liệu nội bộ!

———————————————–

Cole.vn – Connect Learning

Địa chỉ: 289B Khuất Duy Tiến, Trung Hòa, Cầu Giấy

Hotline: 0869 810 635

Email: contact@cole.vn

Facebook: https://www.facebook.com/www.cole.vn

#thanh_thao_tin_hoc #tin_hoc_van_phong

#cong_nghe_thong_tin #lap_trinh #thiet_ke

#he_dieu_hanh #may_tinh #power_bi

#data_analyst #chuyendoiso

#digital_transformation

#Business_analyst #ketoan #hcns #excel

Theo sách chiến lược dữ liệu – Chương 6

CẢM NHẬN HỌC VIÊN

“Mình được biết đến khóa BA tại cole từ khi học xong khóa "Power BI" và "Chuyển đổi số", thực sự học trực tuyến rất tiện lợi cho thời gian của mình và vẫn đảm bảo kiến thức nên mình đã theo khóa thứ 3 tại đây.
Huy Đỗ

Chuyên viên Business Analyst

Khóa học đã giúp ích rất nhiều cho công việc của mình. Cách tổng hợp, phân tích dữ liệu báo cáo, một cách nhanh chóng và mình có thể show ra các dashboard báo cáo thông tin một cách dễ dàng
Chị Vân Anh

Trưởng phòng tuyển sinh công ty giáo dục Kidsup

“ Tình hình dịch covid nên học online mình cũng khá lo lắng. Nhưng giảng viên và các bạn cùng học trong lớp trực tuyến đã thực sự đem lại hiệu quả vượt kỳ vọng của mình. Mình muốn chia sẻ để cùng lan tỏa khóa học tích cực này”.
Mai Nguyễn

Chuyên viên Business Analyst

Làm CEO mình cần tổng hợp các dữ liệu realtime để xem tình trạng công việc của team nhanh nhất. Khóa học này giúp mình làm được điều đó qua các công cụ mình được học.
Anh Ngô Quý Thu

CEO tuyensinh247.com

Cách tư duy để xây dựng các chiều, bộ quản trị số liệu trong khóa học để việc xây dựng sản phẩm công nghệ, giúp việc quản trị công việc, và các dashboard cho việc phát triển được dễ dàng hơn.
An Linh

Project Manager

Sau khóa học mình tự xây dựng được các Dashboard, KPI Metrics cho phòng ban của mình. Khóa học của thầy rất hay, mình học tổng hợp được đầy đủ kiến thức và tư duy trong phân tích dữ liệu
Tra My Nguyen

Leader Marketing

Kiến thức của khóa học phải nói rất bổ ích. Mình thực sự cảm thấy giá trị của khóa học mang lại, đi từ thực hành đến tư duy tổng quá giúp mình biết xử lý dữ liệu theo quy trình
Thu Hoài

Chuyên viên mảng logictics

“Ban đầu mình chỉ biết hiểu chung BA là gì qua search google. Sau khi mày mò mình tìm được đến Cole và quyết định học khóa trực tyến phân tích nghiệp vụ BA tại đây. Mình áp dụng được rất nhiều kiến thức vào công việc đang làm, được tín nhiệm tại công ty và được offer một mức lương mới cao hơn khi mình chưa đi học.”.
Phương Chương

Chuyên Viên BA tại công ty công nghệ

“Mình ở Sài Gòn nhưng việc học tập vẫn rất hiệu quả. Cảm ơn chị Hạnh đã chia sẻ kiến thức, kỹ năng để em đạt được hiệu quả công việc như ngày hôm nay”
Thanh Hương

Business Analyst HCM

Thầy dạy sát đúng thực tế, mình đã áp dụng vào công việc và làm được nhiều thứ
Mai Nguyễn

Học viên khóa phân tích dữ liệu

Nâng cấp kỹ năng tin học, phân tích dữ liệu, phân tích nghiệp vụ kinh doanh, chuyển đổi số,... cùng chúng tôi ngay hôm nay.