Có thể bạn đã nghe qua từ Dữ liệu trong cuộc sống hàng ngày. Vậy dữ liệu là gì? Có các loại dữ liệu nào? Và dữ liệu AI là gì?

Dữ liệu là gì?

Dữ liệu tiếng Anh là data, là các dữ kiện, số liệu thống kê hoặc các mục thông tin riêng lẻ, thường là số.

Theo nghĩa kỹ thuật hơn, dữ liệu là tập hợp các giá trị của các biến định tính hoặc định lượng về một hoặc nhiều người hoặc đối tượng.

Ví dụ như thông tin về họ tên, ngày tháng năm sinh của một người cụ thể nào đó. Trong trường hợp này, có thể xem đây là dữ liệu cá nhân bởi vì nó liên quan đến những thông tin cá nhân.

Có các loại dữ liệu nào?

Dữ liệu đến từ ba nguồn chính là: âm thanh (sound), hình ảnh (image), và dữ liệu dạng chữ (text data).

Có thể nói dữ liệu đến từ ba nguồn chính là: âm thanh, hình ảnh, và dữ liệu dạng chữ. (Ảnh: sử dụng các ảnh từ chụp màn hình và miền công cộng).

Dữ liệu Âm thanh

Dữ liệu âm thanh có thể là các đoạn ghi âm, các đoạn hội thoại, các file âm thanh, … tất cả những thông tin lưu dưới dạng âm thanh đều có thể được xem là dữ liệu âm thanh.

Dữ liệu Hình ảnh

Dữ liệu hình ảnh là những dữ liệu liên quan đến hình ảnh. Từ một hình ảnh cụ thể, chúng ta có thể biết được các thông tin. Ví dụ, từ hình ảnh chụp chứng minh nhân dân của một người, chúng ta có thể biết được tên, ngày tháng năm sinh, quê quán, …

Dữ liệu dạng chữ

Dữ liệu dạng chữ là tất cả dữ liệu liên quan đến văn bản. Ví dụ như các tin tức trên báo, các nghiên cứu khoa học, sách, các thông báo từ chính phủ, …

Có một số dữ liệu là tổng hợp từ nhiều nguồn; ví dụ như các video trên Youtube bao gồm cả dữ liệu âm thanh và dữ liệu hình ảnh.

Trong một số trường hợp, trong ảnh có chữ, như vậy dữ liệu hình ảnh có thể có chứa dữ liệu dạng chữ.

Dữ liệu có cấu trúc và dữ liệu không có cấu trúc 

Khi làm việc với máy tính, có một cách phân biệt các loại dữ liệu dựa vào cấu trúc của dữ liệu.

Có 3 loại như sau: dữ liệu có cấu trúc (structured data), dữ liệu không có cấu trúc (unstructured data), và dữ liệu bán cấu trúc (semi-structured data).

Ví dụ về dữ liệu có cấu trúc là các bảng dữ liệu SQL hay các Knowledge Base của Google (tạm dịch: cơ sở tri thức).

Ví dụ về dữ liệu không có cấu trúc: ví dụ như các file word, pdf, các văn bản, … Trong khi đó, dữ liệu bán cấu trúc có thể thấy ở các file XML hay HTML.

Quý độc giả muốn tìm hiểu kỹ hơn về những loại dữ liệu này có thể xem ở đây. Difference between Structured, Semi-structured and Unstructured data (tạm dịch: Sự khác biệt giữa dữ liệu có cấu trúc, bán cấu trúc và dữ liệu không có cấu trúc)

Dữ liệu AI là gì?

AI là từ viết tắt của Artificial Intelligence, có nghĩa là trí tuệ nhân tạo. Như vậy, dữ liệu AI là dữ liệu được sử dụng trong ngành trí tuệ nhân tạo.

Các mô hình trong trí tuệ nhân tạo có thể áp dụng với cả 3 loại dữ liệu: hình ảnh, âm thành và dữ liệu dạng chữ.

Tuỳ vào bài toán và vấn đề, mà dữ liệu được sử dụng có thể lưu trữ ở dạng có cấu trúc hay không có cấu trúc.

Một ví dụ nổi tiếng về dữ liệu cho AI là ImageNet. Dữ liệu này được dùng cho bài toán phân loại hình ảnh. Dữ liệu bao gồm 1,2 triệu hình ảnh được phân thành 1000 loại.

Một ví dụ khác là Amazon product data, bộ dữ liệu này chứa các bài đánh giá và siêu dữ liệu (metadata) về sản phẩm từ Amazon, bao gồm 142,8 triệu bài đánh giá từ 5/1996 đến 7/2014.

Các thuật ngữ tiếng Anh liên quan đến dữ liệu

Big data: dữ liệu lớn là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được.

Data analytics:

Tiếng Việt là phân tích dữ liệu; phân tích dữ liệu là việc chúng ta tìm cách để phân tích dữ liệu có sẵn. Chúng ta có thể sử dụng các công cụ phần mềm có sẵn hoặc viết các chương trình phần mềm để làm việc này.

Ví dụ như, trên Youtube, có rất nhiều bình luận của người xem. Việc đọc hết tất cả các bình luận có thể tốn khá nhiều thời gian. Chúng ta có thể viết các phần mềm để tự động phân tích xem người dùng có thích video đó hay không.

Raw data: dữ liệu thô (đôi khi được gọi là dữ liệu nguồn (source data), dữ liệu nguyên tử hoặc dữ liệu chính) là dữ liệu chưa được xử lý. Đôi khi có sự phân biệt giữa dữ liệu và thông tin; thông tin là sản phẩm cuối cùng của quá trình xử lý dữ liệu.

Metadata: siêu dữ liệu là dạng dữ liệu mô tả thông tin chi tiết về dữ liệu. Trong cơ sở dữ liệu, metadata là các sửa đổi dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu.

Data mining: tiếng Việt là khai thác dữ liệu; đây là quá trình người dùng tìm cách khai thác các thông tin từ dữ liệu có sẵn.

Data warehouse:

Tiếng Việt là kho dữ liệu; là kho lưu trữ dữ liệu của một tổ chức nào đó. Các kho dữ liệu được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo cáo.

Hình ảnh mô tả thiết kế của Data warehouse. (Ảnh: miền công cộng)

IT là gì? Ngành IT bao gồm những công việc nào?

Có thể bạn đã nghe qua về chữ IT, nhân viên IT, bạn làm IT, … . Vậy IT là gì? Ngành IT bao gồm những công việc nào?

IT là gì?

IT là từ viết tắt của từ tiếng Anh: Information Technology; tiếng Việt có nghĩa là công nghệ thông tin.

Công nghệ thông tin, viết tắt là CNTT, là một nhánh ngành kỹ thuật sử dụng máy tính và phần mềm máy tính để chuyển đổi, lưu trữ, bảo vệ, xử lý, truyền tải và thu thập thông tin.

Ngành IT bao gồm những công việc nào?

Hiện tại, với sự phát triển nhanh chóng của máy tính, nhu cầu nhân lực cho ngành IT khá cao. Sau đây là danh sách những công việc liên quan đến ngành IT:

  • Lập trình viên: lập trình viên trên thiết bị di động Mobile (có thể là Android hoặc iOS), lập trình viên Python, lập trình viên Java, lập trình Web, …
  • Lập trình nhúng: các công việc lập trình liên quan đến các thiết bị như vi mạch và chip
  • Chuyên viên quản trị mạng: chuyên kiểm tra, giám sát, lập trình để tối ưu các hệ thống mạng
  • Các công việc liên quan đến ngành Khoa học máy tính: chuyên viên phân tích dữ liệu (data scientist), lập trình viên AI (AI engineer), nhà nghiên cứu AI (AI researcher), kỹ sư xử lý ngôn ngữ tự nhiên (Natural Language Processing Engineer), …
  • Nhân viên kiểm thử phần mềm (Tester): thực hiện kiểm thử và phát hiện lỗi của các phần mềm trước khi được đưa vào sử dụng chính thức
  • Chuyên viên bảo mật: thực hiện phân tích và phòng chống mã độc hoặc phát triển các phần mềm an toàn cho các ngân hàng, …

Nhìn chung, các công việc trong ngành IT sẽ liên quan đến chuyên ngành cụ thể mà chúng ta theo học.

Các nhóm ngành nhỏ trong ngành Công nghệ thông tin

Theo sự phân chia của Trường Đại Học Công nghệ thông tin HCM, thì ngành Công nghệ thông tin gồm những chuyên ngành nhỏ như sau:

  • Ngành Hệ thống thông tin
  • Ngành Khoa học máy tính
  • Ngành Kỹ thuật phần mềm
  • Ngành Kỹ thuật máy tính
  • Ngành Mạng máy tính và truyền thông dữ liệu
  • Ngành An toàn thông tin
  • Ngành Thương mại điện tử
  • Ngành Khoa học dữ liệu
  • Ngành công nghệ thông tin