Data dictionary là gì? Tại sao nên sử dụng data dictionary
BÀI LIÊN QUAN
Data broker (information broker) là gì và nó hoạt động như thế nào?Data backup software là gì? Công cụ này hoạt động như thế nàoData exploration là gì? Vì sao công cụ này đóng vai trò quan trọngData dictionary là gì?
Data dictionary nghĩa là từ điển dữ liệu. Đây là một tập hợp siêu dữ liệu như tên đối tượng, loại dữ liệu, kích thước, phân loại và mối quan hệ với các nội dung dữ liệu khác.
Data dictionary như một danh sách cùng với mô tả về bảng, trường và cột dữ liệu. Mục tiêu chính của từ điển dữ liệu là giúp các nhóm nhà khoa học dữ liệu có thể hiểu được nội dung dữ liệu.
Theo Từ điển thuật ngữ máy tính của IBM, từ điển dữ liệu là “kho lưu trữ tập trung thông tin về dữ liệu như ý nghĩa, mối quan hệ với các dữ liệu khác, nguồn gốc, cách sử dụng và định dạng dữ liệu. Nó hỗ trợ ban quản lý, quản trị viên cơ sở dữ liệu, nhà phân tích hệ thống và lập trình viên ứng dụng trong việc lập kế hoạch, kiểm soát và đánh giá việc thu thập, lưu trữ và sử dụng dữ liệu.”
Trong khi đó, DAMA UK (Hiệp hội quản lý dữ liệu của Vương quốc Anh) định nghĩa từ điển dữ liệu là “phần mềm trong đó siêu dữ liệu được lưu trữ, thao tác và xác định chính xác”.

Data dictionary được sử dụng như thế nào?
- Tài liệu - cung cấp chi tiết cấu trúc dữ liệu cho người dùng, nhà phát triển và các bên liên quan khác.
- Giao tiếp - trang bị cho người dùng vốn từ vựng và định nghĩa chung về dữ liệu được chia sẻ, tiêu chuẩn dữ liệu, luồng và trao đổi dữ liệu, đồng thời giúp nhà phát triển có thể đánh giá tác động của các thay đổi lược đồ.
- Thiết kế ứng dụng - giúp nhà phát triển ứng dụng tạo biểu mẫu và báo cáo với các loại dữ liệu và điều khiển thích hợp, đồng thời đảm bảo rằng điều hướng nhất quán với các mối quan hệ dữ liệu.
- Phân tích hệ thống - cho phép các nhà phân tích hiểu được thiết kế hệ thống tổng thể và luồng dữ liệu, đồng thời tìm ra nơi dữ liệu tương tác với các quy trình hoặc thành phần khác nhau
- Tích hợp dữ liệu - định nghĩa rõ ràng về các thành phần dữ liệu cung cấp hiểu biết theo ngữ cảnh cần thiết khi quyết định cách ánh xạ hệ thống dữ liệu này sang hệ thống dữ liệu khác hoặc có nên tập hợp con, hợp nhất, xếp chồng hoặc chuyển đổi dữ liệu cho mục đích sử dụng cụ thể hay không
- Ra quyết định - hỗ trợ lập kế hoạch thu thập dữ liệu, phát triển dự án và các nỗ lực hợp tác khác.
Tại sao từ điển dữ liệu quan trọng?
Lý do chính khiến các công ty sử dụng từ điển dữ liệu là để ghi lại và chia sẻ cấu trúc dữ liệu cũng như thông tin khác cho tất cả những người liên quan đến dự án hoặc cơ sở dữ liệu. Sử dụng từ điển dùng chung đảm bảo chất lượng, ý nghĩa và mức độ phù hợp cho tất cả các yếu tố dữ liệu cho tất cả các thành viên trong nhóm. Từ điển dữ liệu sẽ xác định các quy ước cho dự án và tính nhất quán trong toàn bộ tập dữ liệu. Nếu không có từ điển dữ liệu, nguy cơ mất thông tin quan trọng trong quá trình dịch thuật và chuyển đổi sẽ cao hơn. Sử dụng từ điển dữ liệu cũng giúp các nhóm phân tích dữ liệu hoạt động dễ dàng hơn sau này.

Cách tạo từ điển dữ liệu
Nhiều doanh nghiệp dựa vào các hệ thống quản lý cơ sở dữ liệu (DBMS) và các hệ thống này thường có từ điển dữ liệu hoạt động tích hợp sẵn. Tài liệu có thể được tạo bằng SQL, Server, Oracle hoặc mySQL. Để tạo một từ điển dữ liệu thụ động, các nhà phân tích sẽ cần xây dựng một từ điển riêng biệt với DBMS vì các từ điển thụ động không được quản lý bởi một hệ thống quản lý. SQL, Server và Oracle có thể được sử dụng để xây dựng từ điển và thậm chí còn có một mẫu trong Excel. Cách dễ nhất để tích hợp từ điển là sử dụng nó như một phần của DBMS.
Những thách thức với từ điển dữ liệu
Từ điển dữ liệu mang lại lợi ích cho các nhà phân tích bằng cách làm cho cơ sở dữ liệu nhất quán và đơn giản hóa quy trình phân tích dữ liệu. Nhưng từ điển dữ liệu tự nó chỉ mang tính thống nhất và chuẩn hóa cho đến nay. Nếu không chuẩn bị dữ liệu, từ điển dữ liệu có thể tốn thời gian để tạo hoặc chỉ chuẩn hóa một phần cơ sở dữ liệu hoặc dự án. Vì vậy, mặc dù các yếu tố dữ liệu phù hợp với từ điển, nhưng đó chỉ là một phần của việc chuẩn bị dữ liệu cho quy trình phân tích thực tế. Và việc chuẩn bị dữ liệu trên quy mô lớn - kể cả như một phần của từ điển dữ liệu - có thể tốn thời gian, khiến nhiều doanh nghiệp gặp khó khăn về dữ liệu.
Data dictionary là để chia sẻ
Đối với các nhóm người làm việc với dữ liệu tương tự, việc có một từ điển dữ liệu data dictionary dùng chung sẽ tạo điều kiện chuẩn hóa bằng cách ghi lại các cấu trúc dữ liệu chung và cung cấp từ vựng chính xác cần thiết để thảo luận về các yếu tố dữ liệu cụ thể. Từ điển dùng chung đảm bảo rằng ý nghĩa, mức độ liên quan và chất lượng của các thành phần dữ liệu là như nhau đối với tất cả người dùng. Từ điển dữ liệu cũng cung cấp thông tin cần thiết cho những người xây dựng hệ thống và ứng dụng hỗ trợ dữ liệu. Cuối cùng, nếu có một nguồn dữ liệu chung, đã được kiểm tra và ghi lại, thì không cần thiết phải tạo tài liệu riêng cho mỗi lần triển khai.
Từ điển dữ liệu luôn phải được cập nhật mới
Lên kế hoạch trước cho việc lưu trữ dữ liệu khi bắt đầu bất kỳ dự án nào bằng cách phát triển một lược đồ hoặc mô hình dữ liệu làm hướng dẫn cho các yêu cầu dữ liệu. Khi các phần tử dữ liệu bắt buộc và tùy chọn được xác định, hãy thêm chúng vào từ điển dữ liệu. Khi cấu trúc dữ liệu thay đổi, hãy cập nhật từ điển. Cố gắng sử dụng các quy ước đặt tên phù hợp với hệ thống hoặc lĩnh vực chủ đề. Cách dễ nhất là áp dụng và trích dẫn một tiêu chuẩn dữ liệu, do đó tránh được nhu cầu cung cấp và quản lý tài liệu của riêng bạn.
Kế hoạch quản lý dữ liệu nghiên cứu của Trung tâm khoa học Alaska [PDF] có các ví dụ tuyệt vời về Biểu mẫu mô tả dữ liệu và các biểu mẫu khác để thu thập siêu dữ liệu trước, trong và sau khi kết thúc dự án.

Từ điển dữ liệu có thể tiết lộ các quyết định thiết kế kém
Đối với cả người đánh giá dữ liệu và người dùng dữ liệu, từ điển dữ liệu có thể tiết lộ các vấn đề về độ tin cậy tiềm ẩn trong dữ liệu. Thiết lập bảng và đặt tên đối tượng kém có thể hạn chế về khả năng hiểu dữ liệu kém và tăng tính dễ sử dụng, định nghĩa dữ liệu không đầy đủ có thể khiến dữ liệu xuất sắc hầu như vô dụng và việc không cập nhật từ điển với cấu trúc dữ liệu thực tế cho thấy sự thiếu quản lý dữ liệu. Mặc dù ban đầu việc nhận được phản hồi quan trọng về dữ liệu của họ có thể gây rắc rối cho một số người tạo dữ liệu, nhưng việc phát triển thói quen mô tả và thiết kế dữ liệu tốt rất đáng để nỗ lực và cuối cùng mang lại lợi ích cho tất cả những người sẽ sử dụng dữ liệu.
Danh mục dữ liệu so với từ điển dữ liệu: Đâu là sự khác biệt?
Danh mục dữ liệu xử lý việc lập chỉ mục, kiểm kê và phân loại nội dung dữ liệu trên nhiều nguồn dữ liệu trong một tổ chức. Danh mục dữ liệu hiện đại cung cấp ngữ cảnh phong phú về dữ liệu bằng cách thu thập dữ liệu từ từ điển dữ liệu và bảng thuật ngữ kinh doanh cho siêu dữ liệu kỹ thuật, kinh doanh và hoạt động vận hành.
Thu thập thông tin tất cả các loại siêu dữ liệu cũng giúp danh mục dữ liệu trực quan hóa luồng dữ liệu và vòng đời của nó - nguồn gốc, quá trình biến đổi cũng như các phần phụ thuộc ngược dòng và xuôi dòng. Hãy nghĩ về nó như một nền tảng kể cho bạn câu chuyện về từng tập dữ liệu.
Ngoài ra, danh mục dữ liệu cũng đóng vai trò là không gian làm việc để cộng tác trên dữ liệu. Cả từ điển dữ liệu và bảng thuật ngữ kinh doanh đều được coi là những phần không thể thiếu của danh mục dữ liệu hiện đại.
Các thành phần của từ điển dữ liệu
Theo USGS (Khảo sát Địa chất Hoa Kỳ), một từ điển dữ liệu có thể bao gồm:
- Một danh sách các đối tượng dữ liệu (tên và định nghĩa)
- Các thuộc tính chi tiết của các thành phần dữ liệu (kiểu dữ liệu, kích thước, tính vô hiệu, tính tùy chọn, chỉ mục)
- Mối quan hệ thực thể (ER) và các sơ đồ cấp hệ thống khác
- Dữ liệu tham chiếu (miền phân loại và mô tả)
- Thiếu dữ liệu và mã chỉ tiêu chất lượng
- Quy tắc kinh doanh, chẳng hạn như để xác thực lược đồ hoặc chất lượng dữ liệu
Ngoài ra, từ điển dữ liệu cũng nên bao gồm thông tin về:
- Nguồn dữ liệu (kho dữ liệu, hồ dữ liệu, cơ sở dữ liệu, ứng dụng)
- Ngày và giờ khi thuộc tính được tạo hoặc thay đổi
- Thống kê mô tả vượt ra ngoài các giá trị bị thiếu, chẳng hạn như giá trị tối thiểu và phân phối biểu đồ
- Chủ sở hữu và người chỉnh sửa tập dữ liệu chứa các biến này
- Các truy vấn SQL được đính kèm với nội dung dữ liệu
- Siêu dữ liệu xã hội được liên kết với từng nội dung dữ liệu - được lưu trữ dưới dạng thẻ, ghi chú và bản ghi cuộc trò chuyện
4 lợi ích chính của từ điển dữ liệu
Từ điển dữ liệu ghi lại nội dung dữ liệu với ngữ cảnh phù hợp, giúp dễ dàng sử dụng, phân tích và thảo luận về dữ liệu giữa các nhóm. Những lợi ích lớn nhất của việc sử dụng từ điển dữ liệu bao gồm:
- Phát hiện sự bất thường nhanh chóng và tránh mâu thuẫn dữ liệu
- Nhận dữ liệu đáng tin cậy hơn, dễ phân tích
- Thiết lập các quy trình nhất quán để thu thập, lập tài liệu và sử dụng dữ liệu
- Xây dựng tính minh bạch và cho phép tự phục vụ trong các nhóm dữ liệu
Data dictionary đóng góp vai trò quan trọng trong việc thiết kế quy trình thu thập dữ liệu hiệu quả hơn, dễ dàng hơn. Đây là công cụ quan trọng được nhiều doanh nghiệp sử dụng ngày nay.