Dữ liệu là gì? Những thông tin cần thiết về dữ liệu

Dữ liệu là thuật ngữ phổ biến và đóng vai trò quan trọng trong thời đại công nghệ số 4.0 hiện nay. Tuy nhiên, mọi người thường chỉ hiểu một cách khá chung chung về thuật ngữ này. Vậy dữ liệu là gì, hãy cùng tìm hiểu chi tiết trong bài viết sau đây nhé!

Dữ liệu là gì?

Dữ liệu (data) là tập hợp các dữ kiện, ví dụ như số, chữ, phép tính, quan sát hoặc mô tả về sự vật, hiện tượng…

Dữ liệu là tập hợp các dữ kiện khác nhau
Dữ liệu là tập hợp các dữ kiện khác nhau

Khái niệm thông tin và dữ liệu thường hay bị nhầm lẫn và đánh đồng với nhau. Theo nghĩa rộng, dữ liệu thô là các số, chữ, ký tự, hình ảnh hay các ký hiệu, đại lượng vật lý… Các dữ liệu này thường được con người tiếp tục xử lý hoặc đưa vào máy tính. Trong máy tính, dữ liệu được lưu trữ và xử lý hoặc được chuyển cho người hoặc máy tính khác.

Dữ liệu thô mang tính tương đối vì “dữ liệu đã được xử lý” tại bước này có thể được coi là “dữ liệu thô” cho bước tiếp theo.

Phân loại dữ liệu

Dữ liệu được chia làm 2 loại chính là dữ liệu có cấu trúc (structured data) và dữ liệu không có cấu trúc (unstructured data).

Structured data (Dữ liệu có cấu trúc)

Thường được gọi là dữ liệu định lượng với các đặc điểm như:

  • Thường là dữ liệu và số liệu có tính khách quan
  • Thường ở dưới dạng số hoặc chữ
  • Được lưu trữ trong Google Sheet, Excel, SQL
  • Dễ dàng thu thập, truy xuất, sắp xếp, lưu trữ và trích xuất
Dữ liệu có cấu trúc mang tính khách quan
Dữ liệu có cấu trúc mang tính khách quan

Ví dụ: trong tin học, dữ liệu là các con số; trong kinh doanh, dữ liệu là họ tên, ngày tháng, địa chỉ thông tin giao dịch

Unstructured data (Dữ liệu không có cấu trúc)

Thường được gọi là dữ liệu định tính với các đặc điểm như:

  • Thường là các ý kiến, đánh giá mang tính​​ chủ quan
  • Chỉ tồn tại dưới dạng văn bản
  • Được lưu trữ trong Word, Elasticsearch, Solr
  • Khó thu thập, truy xuất, lưu trữ và sắp xếp trong cơ sở dữ liệu thông thường
  • Không thể sử dụng các phương pháp và công cụ phân tích dữ liệu

Ví dụ: dữ liệu doanh nghiệp dưới dạng khảo sát, phản hồi, nhận xét trên mạng xã hội, website, blog, phản hồi email.

Cơ sở dữ liệu là gì?

Cơ sở dữ liệu là hệ thống dữ liệu được xây dựng theo một cấu trúc nhất định nhằm đáp ứng nhu cầu khai thác, sử dụng của nhiều người hay chạy nhiều chương trình cùng lúc.

Hình thức lưu trữ này có thể khắc phục được các điểm yếu của việc lưu file thông thường trên máy tính. 

  • Các thông tin lưu trữ thường có tính nhất quán, hạn chế tình trạng trùng lặp. 
  • Tăng cường khả năng chia sẻ dữ liệu, dễ dàng truy cập vào cơ sở dữ liệu mọi lúc mọi nơi, chỉ cần có password (mật khẩu).

Khái niệm Big data

Big data là thuật ngữ dùng để chỉ tập hợp dữ liệu rất lớn và phức tạp mà các công cụ, ứng dụng truyền thống không thể xử lý được.

Big Data là xu hướng của công nghệ 4.0
Big Data là xu hướng của công nghệ 4.0

Tuy nhiên, Big data lại chứa đựng rất nhiều thông tin quý giá, giúp ích cho việc kinh doanh, nghiên cứu khoa học, dự đoán thiên tai, dịch bệnh… nếu trích xuất thành công.

Do đó, Big data phải được tìm kiếm, thu thập, lưu trữ, chia sẻ, chuyển giao, cập nhất… theo một cách khác so với truyền thống.

Đặc trưng của Big data

Volume (Dung lượng)

Số lượng dữ liệu và thông tin được tạo ra và lưu trữ xác định giá trị và tiềm năng của tập hợp dữ liệu đó. Big data có kích thước lớn lên đến hàng ngàn tỉ Gigabyte hoặc thậm chí lớn hơn.

Variety (Tính đa dạng)

Dùng để chỉ các dạng và kiểu của dữ liệu. Dữ liệu được thu thập từ nhiều nguồn khác nhau và có rất nhiều cấu trúc riêng biệt, có thể lưu trữ dưới các định dạng khác nhau như văn bản, hình ảnh…

Velocity (Vận tốc)

Dùng để chỉ tốc độ các dữ liệu được tạo ra và xử lý nhằm đáp ứng nhu cầu tăng trưởng và phát triển; đảm bảo xử lý các thao tác như truy xuất, cập nhật, chỉnh sửa… với tốc độ nhanh.

Veracity (Tính xác thực)

Chất lượng của dữ liệu thu được ảnh hưởng trực tiếp đến sự phân tích chính xác. Dữ liệu phải được xử lý bằng các công cụ (phân tích và thuật toán) hiện đại để tạo ra thông tin có ý nghĩa.

Ví dụ, để quản lý nhà máy cần phải xem xét cả yếu tố hữu hình và vô hình. Các thuật toán tạo thông tin phải phát hiện và xử lý các vấn đề vô hình như sự xuống cấp của máy móc, sự hao mòn linh phụ kiện…

Các nguồn Big data chính

Hộp đen dữ liệu

Đây là dữ liệu được tạo ra bởi các loại máy bay như phản lực và trực thăng. Hộp đen dữ liệu thường bao gồm thông tin về chuyến bay, giọng nói của phi hành đoàn, các bản thu âm.

Dữ liệu từ các kênh truyền thông xã hội

Đây là dữ liệu được tạo ra và phát triển bởi các trang mạng xã hội như Facebook, Twitter, Instagram, Pinterest và Google+.

Dữ liệu khách hàng đến từ các mạng xã hội
Dữ liệu khách hàng đến từ các mạng xã hội

Dữ liệu giao dịch chứng khoán

Đây là số liệu từ thị trường chứng khoán liên quan đến quyết định mua và bán cổ phiếu của khách hàng.

Dữ liệu điện lực

Đây là dữ liệu được tạo ra bởi điện lực, bao gồm thông tin cụ thể từ các điểm giao nhau của các nút thông tin.

Dữ liệu giao thông

Đây là dữ liệu về sức chứa và các loại phương tiện giao thông, độ sẵn sàng và khoảng cách di chuyển của từng phương tiện.

Dữ liệu các công cụ tìm kiếm

Đây là nguồn dữ liệu lớn nhất của Big data, được tạo ra từ các công cụ tìm kiếm. Các công cụ tìm kiếm có cơ sở dữ liệu vô cùng rộng lớn, có thể tìm thấy mọi dữ liệu cần thiết.

Các ứng dụng thực tế của Big data

Lĩnh vực Y tế

Hiện nay, hồ sơ bệnh án đều được lưu trữ online và trở thành nguồn tư liệu tham khảo giá trị cho các bác sĩ, nhân viên y tế trong hệ thống.

Lĩnh vực Giáo dục

Các khóa học online đã mở ra con đường học tập, khám phá tri thức bình đẳng và tiết kiệm chi phí cho tất cả mọi người trên thế giới.

Lĩnh vực An ninh

Hệ thống Camera chống trộm đã góp phần rất lớn trong việc đảm bảo an ninh, trật tự xã hội.

An ninh mạng

Các cuộc tấn công mạng, DDos (tấn công từ chối dịch vụ) gây ra hậu quả nghiêm trọng. Nhưng sau mỗi cuộc tấn công thì các nhà an ninh mạng đều thu được nhiều dữ liệu quan trọng để đảm bảo an ninh tốt hơn.

Vấn đề bảo mật dữ liệu trong an ninh mạng
Vấn đề bảo mật dữ liệu trong an ninh mạng

Biến đổi khí hậu

Các nhà khoa học trên thế giới thường xuyên chia sẻ kết quả nghiên cứu về tình trạng biến đổi khí hậu với nhau.

Internet Marketing

Khi bạn lướt Facebook và tình cờ nhìn thấy một quảng cáo có sản phẩm rất phù hợp với mình. Bạn bấm vào mẫu quảng cáo đó và được gọi là quảng cáo thành công. Đây là kết quả của giai đoạn thu thập thông tin người dùng từ Facebook để nâng cao hiệu quả và tiết kiệm chi phí cho nhà quảng cáo.

Trên đây là tổng hợp thông tin liên quan đến khái niệm dữ liệu. Hy vọng những chia sẻ trong bài viết đã giúp bạn hiểu thêm về vai trò và ứng dụng của dữ liệu trong công việc, cuộc sống.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *