meeyland app
Meey Land
Cổng thông tin bất động sản xác thực 4.0
Tải ứng dụng

Data là gì? Các thuật ngữ trong data thường gặp

Thứ tư, 08/06/2022-00:06
Data có một vai trò đặc biệt quan trọng đối với sự vận hành và phát triển của các hệ thống. Hãy cùng chúng tôi tìm hiểu data là gì và cách thuật ngữ trong data qua bài viết sau đây nhé!

Data là gì?

Data hay còn được gọi là dữ liệu, là tập hợp thông tin gồm các số, từ hoặc là hình ảnh, được chia làm dữ liệu thô và dữ liệu đã được xử lý.


Data là gì?
Data là gì?

Trong đó, dữ liệu thô đó là các số, ký tự, hình ảnh, ký hiệu, đại lượng vật lý và thường được tiếp tục xử lý bởi con người hoặc được đưa vào máy tính.

Dữ liệu trong máy tính sẽ được lưu trữ và xử lý tại chỗ hoặc được chuyển (output) cho người hoặc máy tính khác để xử lý. Dữ liệu thô chỉ mang tính tương đối vì dữ liệu đã được xử lý ở bước này có thể được gọi là dữ liệu thô ở bước tiếp theo.

Cách dữ liệu được lưu trữ

Như đã đề cập ở trên, dữ liệu bao gồm rất nhiều yếu tố là video, hình ảnh, âm thanh và văn bản. Lúc này máy tính sẽ có trách nhiệm biểu diễn dữ liệu theo hệ cơ số nhị phân với đơn vị là Bit. Cụ thể 1 byte bằng 8 bits. Bộ nhớ được đo bằng megabyte và gigabyte.

Thông thường thì dữ liệu sẽ được lưu trữ ở định dạng tệp là ISAM và VSAM. Trong đó ISAM là công nghệ quản lý dữ liệu thuộc tập đoàn IBM và VSAM là một phiên bản nâng cấp của ISAM, có vai trò truy cập lưu trữ ảo.

Một số ví dụ về dữ liệu

Sở giao dịch chứng khoán New York (NYSE) sở hữu khoảng 1 terabyte dữ liệu giao dịch mới trong một ngày.

Thống kê về Social media cho biết, hằng ngày sẽ có khoảng hơn 500 terabyte dữ liệu mới sẽ được cung cấp trên các trang mạng xã hội Facebook. Dữ liệu gồm có tin nhắn, hình ảnh, video, bình luận,v.v…

Thông qua BigData, Amazon đã đạt doanh thu lên đến 74 tỷ USD và IBM đạt hơn 16 tỷ USD (năm 2013). Ngoài ra hiệu ứng tăng trưởng cũng đến với các doanh nghiệp như Software AG, Oracle, Microsoft, SAP,v.v…

Data có những dạng cơ bản nào?

Data (hay dữ liệu) được chia thành 2 dạng cơ bản đó là:

Structured data (Dữ liệu có cấu trúc)

Structured data (Dữ liệu có cấu trúc) là nhóm dữ liệu được hoạt động với vai trò lưu trữ và truyền đạt thông tin theo cấu trúc xác định. Điểm đặc trưng của dữ liệu có cấu trúc đó là:

+ Còn có tên gọi khác đó là dữ liệu định lượng.

+ Đưa ra các dữ liệu và số liệu một cách khách quan.

+ Được thể hiện ở dưới dạng số hoặc chữ.

+ Lưu trữ trong Excel, SQL và Google Sheet.

+ Dễ dàng thu thập, truy xuất và sắp xếp thông tin.

+ Dễ dàng trích xuất thông tin.

Ví dụ như: Mã giao dịch, họ tên khách hàng, ngày tháng giao dịch, địa chỉ giao dịch….

Unstructured data (Dữ liệu không có cấu trúc)

Unstructured data (Dữ liệu không có cấu trúc) là tập hợp những dữ liệu phức tạp, khó nhận biết, chưa được sắp xếp và được tổ chức theo đúng trình tự có sẵn. Điểm đặc trưng của dữ liệu phi cấu trúc đó là:

+ Còn có tên gọi khác đó là dữ liệu định tính.

+ Nó thường ở dưới dạng văn bản thể hiện ý kiến, quan điểm hoặc là đánh giá thương hiệu.

+ Lưu trữ trong Word, Elasticsearch hoặc là Solr.

+ Khó thu thập, khó truy xuất, lưu trữ và khó sắp xếp thông tin.

+ Không thể sử dụng những công cụ phân tích dữ liệu để tìm kiếm dữ liệu không có cấu trúc.

Ví dụ như: Bình luận, đánh giá của khách hàng trên Social Media hoặc email.

Data khách hàng là gì?

Data khách hàng hay dữ liệu khách hàng là toàn bộ các thông tin giữa khách hàng và tổ chức khi tương tác với nhau qua ứng dụng website, app di động, social, khảo sát trực tiếp,v.v… 

Data khách hàng đóng vai trò rất quan trọng đối với sự phát triển của doanh nghiệp. Nó được ví như một nền tảng chiến lược mà hầu hết các tổ chức cần phải quan tâm nếu muốn tăng trưởng bền vững và lâu dài.

Làm thế nào để phân tích data (dữ liệu)?


Làm thế nào để phân tích data (dữ liệu)?
Làm thế nào để phân tích data (dữ liệu)?

Có 2 cách để phân tích data (dữ liệu):

Cách 1: Sử dụng phương pháp nghiên cứu định tính

Phương pháp nghiên cứu dữ liệu định tính được dựa trên từ ngữ, sự mô tả, hình ảnh, đồ vật. Trong đó phân tích dữ liệu dựa trên từ ngữ được ưu tiên sử dụng nhiều nhất trong quá trình nghiên cứu và phân tích. Thông thường, phương pháp nghiên cứu định tính sẽ được tiến hành thủ công.

Cách 2: Sử dụng phương pháp nghiên cứu định lượng

Phương pháp nghiên cứu định lượng được tiến hành nhằm mục đích kiểm tra thông tin định danh (nominal information). Các dữ liệu cần phải chuẩn bị sẵn bao gồm:

+ Xác thực dữ liệu (Data Validation).

+ Chỉnh sửa dữ liệu (Data Editing).

+ Mã hóa dữ liệu (Data Coding).

Điểm đặc trưng của phương pháp này đó là chỉ thể hiện thống kê bằng các con số, chứ không nó đi sâu vào lý do có những con số này. Các chuyên gia dữ liệu dựa vào con số để nghiên cứu và đưa ra nhận định chủ quan. 

Chính vì thế, năng lực của chuyên gia đòi hỏi phải chuyên sâu để đảm bảo không đưa ra các sai lầm, thúc đẩy doanh nghiệp đạt được hiệu suất kinh doanh, phù hợp với nhu cầu thị trường.

Một số thuật ngữ trong data

Big data (Dữ liệu lớn): Tập hợp khối lượng lớn các dữ liệu có cấu trúc và phi cấu trúc dựa trên phương pháp và công nghệ phần mềm truyền thống.

Big data analytics (Phân tích dữ liệu lớn): Đây là quá trình tìm kiếm, sắp xếp và tổng hợp dữ liệu tùy vào từng mục đích.

Data center (Trung tâm dữ liệu): Là cơ sở hạ tầng được tổ chức sử dụng ở trong hệ thống và thành phần máy tính. Có chức năng lưu trữ toàn bộ mạng lưới thông tin doanh nghiệp.

Data integrity: Tính toàn vẹn của dữ liệu, bị tác động trực tiếp từ con người hoặc là lỗi truyền tải.

Data miner: Là tập hợp những công cụ khai thác dữ liệu, hỗ trợ giám sát, phân tích các hoạt động của thiết bị và người dùng. Qua đó cung cấp, thu thập thông tin.

Data mining: Là ứng dụng khai phá dữ liệu được dùng để dự báo hành vi ở trong tương lai.

Data quality: Đây là thước đo, theo đó người dùng có thể tin tưởng tính đầy đủ, tính nhất quán và độ tin cậy của dữ liệu, giúp cho quá trình ra quyết định trong công việc.

Data replication: Là quá trình sao chép dữ liệu từ vị trí này sang vị trí khác. Sở dĩ hoạt động sao chép quan trọng là vì nó tránh tình trạng bị mất hoặc hack dữ liệu.

Data warehouse: Gồm có kho chứa dữ liệu thu thập ở nhiều nguồn khác nhau. 

Database: Đây là tập hợp các điểm dữ liệu được sắp xếp có tổ chức trong hệ thống máy tính.

Data architecture: Đây là bảng kế hoạch cho vòng đời dữ liệu của một doanh nghiệp. Tính từ thời điểm bắt đầu thu thập đến khi thu hoạch được giá trị nhờ các dữ liệu được phân tích. 

Data catalog: Là danh mục các dữ liệu giúp để phân loại chúng theo từng mục đích sử dụng hay một chủ đề cụ thể.

Data democratization: Là việc cung cấp cho doanh nghiệp quyền truy cập và sử dụng dữ liệu bất cứ khi nào mà họ cần. Giúp cho mục đích đưa ra quyết định nhanh chóng, tiện lợi.

Data dictionary: Gồm có nhiều thông tin liên quan đến mô tả sự vật, sự việc. Bao hàm định nghĩa chi tiết, thông tin kỹ thuật, vị trí và nội dung…

Metadata: Là mô tả tóm tắt về tập dữ liệu.

Data visualization: Đây là bảng báo cáo các dữ liệu ở dạng sơ đồ, bảng biểu và hình ảnh một cách trực quan, giúp cho người đọc dễ dàng nắm bắt thông tin.

Raw data: Là tập hợp dữ liệu thô chưa trải qua quy trình định dạng hoặc phân tích.

Wipe Data: Là thao tác xóa bỏ vĩnh viễn dữ liệu lưu trên ổ cứng của những thiết bị điện tử, kể cả các dữ liệu ẩn trong mục Thùng rác. Bạn phải kiểm tra và cân nhắc kỹ lưỡng trước khi thực hiện tác vụ này vì bạn sẽ không thể nào khôi phục lại các dữ liệu đã xóa.

Master data hay còn gọi là dữ liệu có giá trị, đây là phần cốt yếu của các hệ thống dữ liệu. Các doanh nghiệp thường sử dụng data này vào quy trình vận hành và quản lý. Master data gồm các tài liệu rất quan trọng của doanh nghiệp như là: thông tin tài chính, danh sách đơn hàng, khách hàng, quy trình sản xuất và báo cáo về lợi nhuận…

Lời kết

Với những thông tin chi tiết trên đây, có lẽ bạn đã phần nào nắm rõ data là gì rồi. Hy vọng rằng bài viết này sẽ giúp bạn hiểu rõ và sâu hơn về các kiến thức cơ bản trong ngành dữ liệu.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Ứng dụng AI trong “số hoá” bất động sản, Meey Group gây ấn tượng tại Diễn đàn Chuyển đổi số Hải Phòng 2024

Chưa thể cấm ngay Temu, 1688 và Shein, Bộ Công Thương và Tổng cục Thuế nói gì?

Mạng 5G lúc nhanh, lúc chậm: Viettel lý giải nguyên nhân?

Tin mới cập nhật

Amazon gây sức ép cho các đối tác bán hàng trên Temu

2 giờ trước

Nga bắt đầu sử dụng bitcoin trong giao dịch quốc tế

2 giờ trước

“Độc lạ” TP.HCM: Căn hộ giá mềm bị khách hàng "ngó lơ"

2 giờ trước

PGS.TS. Nguyễn Quang Tuyến: "Nói bảng giá đất mới làm tăng giá bất động sản là hơi oan"

2 giờ trước

TS. Nguyễn Văn Đính: Thị trường bất động sản sắp bước vào chu kỳ “thật” hơn

2 giờ trước