meeyland app
Meey Land
Cổng thông tin bất động sản xác thực 4.0
Tải ứng dụng

Data dictionary là gì? Tại sao nên sử dụng data dictionary

Thứ tư, 04/01/2023-08:01
Theo HBR, 80% thời gian của một nhà khoa học dữ liệu được dành cho việc tìm kiếm, làm sạch và sắp xếp dữ liệu, chỉ để lại 20% để thực hiện công việc phân tích. Data dictionary chính là kho lưu trữ tất cả nội dung dữ liệu - mô tả cột, số liệu, đơn vị đo lường, v.v…mà các nhà khoa học dữ liệu có thể tìm thấy dữ liệu mà họ cần.

Data dictionary là gì?

Data dictionary nghĩa là từ điển dữ liệu. Đây là một tập hợp siêu dữ liệu như tên đối tượng, loại dữ liệu, kích thước, phân loại và mối quan hệ với các nội dung dữ liệu khác.

Data dictionary như một danh sách cùng với mô tả về bảng, trường và cột dữ liệu. Mục tiêu chính của từ điển dữ liệu là giúp các nhóm nhà khoa học dữ liệu có thể hiểu được nội dung dữ liệu.

Theo Từ điển thuật ngữ máy tính của IBM, từ điển dữ liệu là “kho lưu trữ tập trung thông tin về dữ liệu như ý nghĩa, mối quan hệ với các dữ liệu khác, nguồn gốc, cách sử dụng và định dạng dữ liệu. Nó hỗ trợ ban quản lý, quản trị viên cơ sở dữ liệu, nhà phân tích hệ thống và lập trình viên ứng dụng trong việc lập kế hoạch, kiểm soát và đánh giá việc thu thập, lưu trữ và sử dụng dữ liệu.”

Trong khi đó, DAMA UK (Hiệp hội quản lý dữ liệu của Vương quốc Anh) định nghĩa từ điển dữ liệu là “phần mềm trong đó siêu dữ liệu được lưu trữ, thao tác và xác định chính xác”.


Data dictionary hay từ điển dữ liệu được sử dụng để tra cứu các dữ liệu cần thiết
Data dictionary hay từ điển dữ liệu được sử dụng để tra cứu các dữ liệu cần thiết

Data dictionary được sử dụng như thế nào?

  • Tài liệu - cung cấp chi tiết cấu trúc dữ liệu cho người dùng, nhà phát triển và các bên liên quan khác.
  • Giao tiếp - trang bị cho người dùng vốn từ vựng và định nghĩa chung về dữ liệu được chia sẻ, tiêu chuẩn dữ liệu, luồng và trao đổi dữ liệu, đồng thời giúp nhà phát triển có thể đánh giá tác động của các thay đổi lược đồ.
  • Thiết kế ứng dụng - giúp nhà phát triển ứng dụng tạo biểu mẫu và báo cáo với các loại dữ liệu và điều khiển thích hợp, đồng thời đảm bảo rằng điều hướng nhất quán với các mối quan hệ dữ liệu.
  • Phân tích hệ thống - cho phép các nhà phân tích hiểu được thiết kế hệ thống tổng thể và luồng dữ liệu, đồng thời tìm ra nơi dữ liệu tương tác với các quy trình hoặc thành phần khác nhau
  • Tích hợp dữ liệu - định nghĩa rõ ràng về các thành phần dữ liệu cung cấp hiểu biết theo ngữ cảnh cần thiết khi quyết định cách ánh xạ hệ thống dữ liệu này sang hệ thống dữ liệu khác hoặc có nên tập hợp con, hợp nhất, xếp chồng hoặc chuyển đổi dữ liệu cho mục đích sử dụng cụ thể hay không
  • Ra quyết định - hỗ trợ lập kế hoạch thu thập dữ liệu, phát triển dự án và các nỗ lực hợp tác khác.

Tại sao từ điển dữ liệu quan trọng?

Lý do chính khiến các công ty sử dụng từ điển dữ liệu là để ghi lại và chia sẻ cấu trúc dữ liệu cũng như thông tin khác cho tất cả những người liên quan đến dự án hoặc cơ sở dữ liệu. Sử dụng từ điển dùng chung đảm bảo chất lượng, ý nghĩa và mức độ phù hợp cho tất cả các yếu tố dữ liệu cho tất cả các thành viên trong nhóm. Từ điển dữ liệu sẽ xác định các quy ước cho dự án và tính nhất quán trong toàn bộ tập dữ liệu. Nếu không có từ điển dữ liệu, nguy cơ mất thông tin quan trọng trong quá trình dịch thuật và chuyển đổi sẽ cao hơn. Sử dụng từ điển dữ liệu cũng giúp các nhóm phân tích dữ liệu hoạt động dễ dàng hơn sau này.


Data dictionary hỗ trợ cho việc đưa ra quyết định - hỗ trợ lập kế hoạch thu thập dữ liệu
Data dictionary hỗ trợ cho việc đưa ra quyết định - hỗ trợ lập kế hoạch thu thập dữ liệu

Cách tạo từ điển dữ liệu

Nhiều doanh nghiệp dựa vào các hệ thống quản lý cơ sở dữ liệu (DBMS) và các hệ thống này thường có từ điển dữ liệu hoạt động tích hợp sẵn. Tài liệu có thể được tạo bằng SQL, Server, Oracle hoặc mySQL. Để tạo một từ điển dữ liệu thụ động, các nhà phân tích sẽ cần xây dựng một từ điển riêng biệt với DBMS vì các từ điển thụ động không được quản lý bởi một hệ thống quản lý. SQL, Server và Oracle có thể được sử dụng để xây dựng từ điển và thậm chí còn có một mẫu trong Excel. Cách dễ nhất để tích hợp từ điển là sử dụng nó như một phần của DBMS.

Những thách thức với từ điển dữ liệu

Từ điển dữ liệu mang lại lợi ích cho các nhà phân tích bằng cách làm cho cơ sở dữ liệu nhất quán và đơn giản hóa quy trình phân tích dữ liệu. Nhưng từ điển dữ liệu tự nó chỉ mang tính thống nhất và chuẩn hóa cho đến nay. Nếu không chuẩn bị dữ liệu, từ điển dữ liệu có thể tốn thời gian để tạo hoặc chỉ chuẩn hóa một phần cơ sở dữ liệu hoặc dự án. Vì vậy, mặc dù các yếu tố dữ liệu phù hợp với từ điển, nhưng đó chỉ là một phần của việc chuẩn bị dữ liệu cho quy trình phân tích thực tế. Và việc chuẩn bị dữ liệu trên quy mô lớn - kể cả như một phần của từ điển dữ liệu - có thể tốn thời gian, khiến nhiều doanh nghiệp gặp khó khăn về dữ liệu.

Data dictionary là để chia sẻ

Đối với các nhóm người làm việc với dữ liệu tương tự, việc có một từ điển dữ liệu data dictionary dùng chung sẽ tạo điều kiện chuẩn hóa bằng cách ghi lại các cấu trúc dữ liệu chung và cung cấp từ vựng chính xác cần thiết để thảo luận về các yếu tố dữ liệu cụ thể. Từ điển dùng chung đảm bảo rằng ý nghĩa, mức độ liên quan và chất lượng của các thành phần dữ liệu là như nhau đối với tất cả người dùng. Từ điển dữ liệu cũng cung cấp thông tin cần thiết cho những người xây dựng hệ thống và ứng dụng hỗ trợ dữ liệu. Cuối cùng, nếu có một nguồn dữ liệu chung, đã được kiểm tra và ghi lại, thì không cần thiết phải tạo tài liệu riêng cho mỗi lần triển khai.

Từ điển dữ liệu luôn phải được cập nhật mới

Lên kế hoạch trước cho việc lưu trữ dữ liệu khi bắt đầu bất kỳ dự án nào bằng cách phát triển một lược đồ hoặc mô hình dữ liệu làm hướng dẫn cho các yêu cầu dữ liệu. Khi các phần tử dữ liệu bắt buộc và tùy chọn được xác định, hãy thêm chúng vào từ điển dữ liệu. Khi cấu trúc dữ liệu thay đổi, hãy cập nhật từ điển. Cố gắng sử dụng các quy ước đặt tên phù hợp với hệ thống hoặc lĩnh vực chủ đề. Cách dễ nhất là áp dụng và trích dẫn một tiêu chuẩn dữ liệu, do đó tránh được nhu cầu cung cấp và quản lý tài liệu của riêng bạn.

Kế hoạch quản lý dữ liệu nghiên cứu của Trung tâm khoa học Alaska [PDF] có các ví dụ tuyệt vời về Biểu mẫu mô tả dữ liệu và các biểu mẫu khác để thu thập siêu dữ liệu trước, trong và sau khi kết thúc dự án.


Data dictionary luôn phải được cập nhật mới
Data dictionary luôn phải được cập nhật mới

Từ điển dữ liệu có thể tiết lộ các quyết định thiết kế kém

Đối với cả người đánh giá dữ liệu và người dùng dữ liệu, từ điển dữ liệu có thể tiết lộ các vấn đề về độ tin cậy tiềm ẩn trong dữ liệu. Thiết lập bảng và đặt tên đối tượng kém có thể hạn chế về khả năng hiểu dữ liệu kém và tăng tính dễ sử dụng, định nghĩa dữ liệu không đầy đủ có thể khiến dữ liệu xuất sắc hầu như vô dụng và việc không cập nhật từ điển với cấu trúc dữ liệu thực tế cho thấy sự thiếu quản lý dữ liệu. Mặc dù ban đầu việc nhận được phản hồi quan trọng về dữ liệu của họ có thể gây rắc rối cho một số người tạo dữ liệu, nhưng việc phát triển thói quen mô tả và thiết kế dữ liệu tốt rất đáng để nỗ lực và cuối cùng mang lại lợi ích cho tất cả những người sẽ sử dụng dữ liệu.

Danh mục dữ liệu so với từ điển dữ liệu: Đâu là sự khác biệt?

Danh mục dữ liệu xử lý việc lập chỉ mục, kiểm kê và phân loại nội dung dữ liệu trên nhiều nguồn dữ liệu trong một tổ chức. Danh mục dữ liệu hiện đại cung cấp ngữ cảnh phong phú về dữ liệu bằng cách thu thập dữ liệu từ từ điển dữ liệu và bảng thuật ngữ kinh doanh cho siêu dữ liệu kỹ thuật, kinh doanh và hoạt động vận hành.

Thu thập thông tin tất cả các loại siêu dữ liệu cũng giúp danh mục dữ liệu trực quan hóa luồng dữ liệu và vòng đời của nó - nguồn gốc, quá trình biến đổi cũng như các phần phụ thuộc ngược dòng và xuôi dòng. Hãy nghĩ về nó như một nền tảng kể cho bạn câu chuyện về từng tập dữ liệu.

Ngoài ra, danh mục dữ liệu cũng đóng vai trò là không gian làm việc để cộng tác trên dữ liệu. Cả từ điển dữ liệu và bảng thuật ngữ kinh doanh đều được coi là những phần không thể thiếu của danh mục dữ liệu hiện đại.

Các thành phần của từ điển dữ liệu

Theo USGS (Khảo sát Địa chất Hoa Kỳ), một từ điển dữ liệu có thể bao gồm:

  • Một danh sách các đối tượng dữ liệu (tên và định nghĩa)
  • Các thuộc tính chi tiết của các thành phần dữ liệu (kiểu dữ liệu, kích thước, tính vô hiệu, tính tùy chọn, chỉ mục)
  • Mối quan hệ thực thể (ER) và các sơ đồ cấp hệ thống khác
  • Dữ liệu tham chiếu (miền phân loại và mô tả)
  • Thiếu dữ liệu và mã chỉ tiêu chất lượng
  • Quy tắc kinh doanh, chẳng hạn như để xác thực lược đồ hoặc chất lượng dữ liệu

Ngoài ra, từ điển dữ liệu cũng nên bao gồm thông tin về:

  • Nguồn dữ liệu (kho dữ liệu, hồ dữ liệu, cơ sở dữ liệu, ứng dụng)
  • Ngày và giờ khi thuộc tính được tạo hoặc thay đổi
  • Thống kê mô tả vượt ra ngoài các giá trị bị thiếu, chẳng hạn như giá trị tối thiểu và phân phối biểu đồ
  • Chủ sở hữu và người chỉnh sửa tập dữ liệu chứa các biến này
  • Các truy vấn SQL được đính kèm với nội dung dữ liệu
  • Siêu dữ liệu xã hội được liên kết với từng nội dung dữ liệu - được lưu trữ dưới dạng thẻ, ghi chú và bản ghi cuộc trò chuyện

4 lợi ích chính của từ điển dữ liệu

Từ điển dữ liệu ghi lại nội dung dữ liệu với ngữ cảnh phù hợp, giúp dễ dàng sử dụng, phân tích và thảo luận về dữ liệu giữa các nhóm. Những lợi ích lớn nhất của việc sử dụng từ điển dữ liệu bao gồm:

  • Phát hiện sự bất thường nhanh chóng và tránh mâu thuẫn dữ liệu
  • Nhận dữ liệu đáng tin cậy hơn, dễ phân tích
  • Thiết lập các quy trình nhất quán để thu thập, lập tài liệu và sử dụng dữ liệu
  • Xây dựng tính minh bạch và cho phép tự phục vụ trong các nhóm dữ liệu

Data dictionary đóng góp vai trò quan trọng trong việc thiết kế quy trình thu thập dữ liệu hiệu quả hơn, dễ dàng hơn. Đây là công cụ quan trọng được nhiều doanh nghiệp sử dụng ngày nay. 

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Tiết lộ bất ngờ cho thấy TikTok Live sẽ đạt doanh thu hàng năm lên tới 77 tỷ USD

EU cam kết cắt giảm thủ tục hành chính về công nghệ để theo đuổi các mục tiêu về AI

Đẩy nhanh tiến độ vận hành cơ sở dữ liệu đất đai quốc gia

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Tin mới cập nhật

Bán nhà Dương Văn Bé – Cập nhật giá mới, tiềm năng và kinh nghiệm giao dịch hiệu quả

3 ngày trước

Bán nhà mặt tiền quận 7 – Cập nhật giá mới nhất và kinh nghiệm giao dịch hiệu quả

3 ngày trước

Bán nhà Q Phú Nhuận – Cập nhật giá mới nhất & kinh nghiệm bán nhanh, được giá

4 ngày trước

Mua bán nhà đất Quận 7: Cập nhật giá mới nhất và kinh nghiệm giao dịch an toàn

4 ngày trước

Bán nhà tập thể thành công có còn dễ trong bối cảnh đô thị thay đổi?

4 ngày trước