Thế nào là tích hợp dữ liệu? Quy trình và ứng dụng thực tiễn
BÀI LIÊN QUAN
Weka là gì? Phần mềm khai phá dữ liệu số 1 hiện nayRapidminer là gì? Công cụ khai phá dữ liệu phổ biến nhất hiện nayTìm hiểu về làm sạch dữ liệu (Data Cleaning)Tích hợp dữ liệu là gì?
Tích hợp dữ liệu là quá trình thực hiện lấy dữ liệu từ các hệ thống (nguồn) khác nhau thành thông tin có giá trị và có ý nghĩa. Tích hợp dữ liệu được thu thập theo cách có thể tạo ra các thông tin đáng tin cậy, toàn diện, chính xác cho báo cáo và phân tích kinh doanh. Các hệ thống sẽ thu thập dữ liệu từ một số thiết bị dưới các định dạng khác nhau. Một giải pháp tích hợp dữ liệu hoàn chỉnh sẽ cung cấp dữ liệu đáng tin cậy từ nhiều nguồn khác nhau. Có một số công cụ tích hợp dữ liệu có sẵn trên thị trường được cập nhật liên tục, tất cả đều chạy đua để có thể theo kịp sự gia tăng dữ liệu.
Tích hợp dữ liệu được sử dụng với tần suất ngày càng nhiều khi mà nhu cầu và khối lượng chia sẻ dữ liệu hiện nay là rất lớn. Vậy nên để đảm bảo việc trao đổi dữ liệu trong hệ thống đạt được hiệu quả hoặc xử lý các công việc theo các luồng định trước như: so sánh, phân tích, thống kê, báo cáo,…
Yếu tố khác biệt giữa tích hợp dữ liệu và ETL
Tích hợp dữ liệu là một quá trình kết hợp dữ liệu cư trú tại các nguồn khác nhau và cung cấp cho người sử dụng một cái nhìn thống nhất. Còn ETL là một chức năng gồm ba bước để trích xuất, chuyển đổi và tải, các bước này sẽ được thực hiện trước khi lưu trữ dữ liệu vào trong kho dữ liệu. Do vậy, đây chính là sự khác biệt chính giữa tích hợp dữ liệu và ETL.
Quy trình tích hợp dữ liệu
Để hiểu rõ hơn về tích hợp dữ liệu dưới đây chúng ta cùng tìm hiểu thêm về quy trình các bước tích hợp dữ liệu, bao gồm:
Xác định bài toán
Tại bước này, từ những yêu cầu (requirement) của bài toán, chúng ta cần xác định được hệ thống sẽ làm những gì và với những đối tượng nào. Ví dụ khi áp dụng trong hệ thống trường học, ta sẽ nhận thấy một số điều như sau:
- Những tác nhân chính của hệ thống gồm: Admin, giáo viên, học sinh
- Trong đó, chức năng chính của các tác nhân là:
-
Admin:
-
Thêm, sửa, xóa lớp học
-
Thêm giáo viên, học sinh vào lớp học
-
Giáo viên, học sinh:
-
Thêm, sửa, xóa các thông tin cá nhân
-
Xem thông tin các lớp mình dạy (học). Từ bước này chúng ta sẽ có cái nhìn tổng quan hơn về hệ thống dữ liệu, và chức năng của từng tác nhân cũng như định hướng bạn sẽ phát triển hệ thống từ đâu.
Xây dựng mô hình thực thể - liên kết
Đây là bước yêu cầu cao về độ chuẩn xác trước khi bạn muốn có một bảng cơ sở dữ liệu hợp lý, điều này có thể quyết định xem cơ sở dữ liệu của bạn có thực sự tốt hay không.
Ở bước này, bạn cần xác định rõ từ những requirement của bài toán và các chức năng bạn đã xác định, trong đó thực thể của hệ thống là gì, có những thuộc tính gì và quan hệ của của các dữ liệu là gì?
Xác định thực thể
Đầu tiên, bạn hãy xác định các thực thể của bài toán. Thực thể ở đây chính là một đối tượng ở thế giới thực. Ta có thể dễ dàng nhận thấy những đối tượng trong bài toán như: Admin, học sinh, giáo viên, lớp học, tài khoản. Với mỗi thực thể đó, hãy xác định các thuộc tính của từng thực thể, ví dụ như sau:
-
Giáo viên: Mã giáo viên (viết tắt là MGV), tên, ngày tháng năm sinh, số điện thoại, Email, quê quán, trình độ giảng dạy.
-
Học sinh: mã học sinh (MHS), họ tên, ngày tháng năm sinh, địa chỉ, quê quán, số điện thoại, email, hạnh kiểm, xếp loại
Xác định khóa chính
Đối với mỗi đối tượng khác nhau với những thuộc tính, bạn hãy xác định các khóa chính của đối tượng đó. Khóa chính ở đây có thể được hiểu đơn giản là những thuộc tính nhằm xác định một đối tượng duy nhất nào đó. Các khóa này sẽ ảnh hưởng đến quan hệ của các tập thực thể với nhau.
Ví dụ như đối với giáo viên, chúng ta có thể thấy rằng, mỗi giáo viên sẽ có một mã MGV khác nhau, không giống như các thuộc tính khác (như 2 giáo viên có thể trùng tên, trùng ngày sinh, ...). Một khóa chính có thể chứa nhiều các thuộc tính (nếu không có 1 thuộc tính đơn lẻ nào xác định được thực thể là duy nhất). Một điều đáng lưu ý khi bạn chọn khóa đó chính là khóa tối thiểu, tức là bạn cần chọn khóa sao cho số thuộc tính trong khóa chính ít nhất có thể.
Xác định quan hệ giữa các thực thể
Khi đã xác định rõ được các thực thể và thuộc tính của thực thể đó, công việc tiếp theo đó là xác định ra mối quan hệ giữa các thập thực thể. Chúng ta sẽ có các kiểu quan hệ như sau:
-
1-1 (một-một): Là quan hệ mà một đối tượng này chỉ có duy nhất một đối tượng kia, và ngược lại. Ví dụ như bài toán trên, mỗi người sử dụng chỉ có duy nhất một tài khoản, và ngược lại mỗi một tài khoản chỉ thuộc về một người duy nhất. Vì thế, quan hệ giữa giáo viên và tài khoản, học sinh và tài khoản, admin và tài khoản là 1-1.
-
1-n (một-nhiều): Là mối quan hệ mà mỗi đối tượng sẽ có nhiều đối tượng khác nhưng sẽ không có chiều ngược lại. Ví dụ ở trên, mỗi lớp sẽ có nhiều học sinh nhưng mỗi học sinh thì chỉ thuộc về một lớp. Bở vậy, quan hệ giữa lớp học và học sinh là 1-n.
-
n-n (nhiều nhiều): Là mối quan hệ mà mỗi đối tượng sẽ có nhiều đối tượng kia, và ngược lại. Ví dụ, mỗi giáo viên có thể dạy học cho nhiều lớp và mỗi lớp cũng sẽ có nhiều giáo viên giảng dạy nên quan hệ ở đây là n-n.
Vẽ mô hình thực thể - liên kết
Sau khi có được một tập các quan hệ như vậy, ta sẽ vẽ sơ đồ thực thể liên kết như sau:
Mỗi tập thực thể được thể hiện dưới dạng hình chữ nhật, những thuộc tính được vẽ hình bầu dục, còn các quan hệ giữa các thực thể sẽ là hình thoi. Trong đó các khóa chính được đánh dấu bằng gạch dưới. Các kiểu liên kết sẽ được viết trên các đường nối thể hiện mối quan hệ. Từ hình vẽ này, chúng ta có thể có cái nhìn tổng quát hơn về quan hệ của toàn bộ hệ thống.
Chuyển đổi mô hình thành quan hệ dạng bảng
Từ sơ đồ thực thể liên kết, ta sẽ tiến hành chuyển đổi thành quan hệ dưới dạng bảng. Đối với những thực thể, sẽ được lưu giữ dưới dạng một bảng với các trường là những thuộc tính tương ứng. Ngoài ra, cần phải xem xét kỹ quan hệ giữa các thực thể để thêm trường nhằm liên kết giữa các bảng với nhau, phục vụ cho việc truy vấn cơ sở dữ liệu sau này. Đối với mỗi kiểu liên kết, chúng ta có kiểu liên kết giữa các bảng là khác nhau:
-
1-1: tiến hành liên kết các bảng này bằng cách thêm các khóa chính của mỗi bảng vào bảng còn lại. Ví dụ: Quan hệ của Học sinh - Tài khoản là 1-1:
-
TaiKhoan = {ID, tenTaiKhoan, matKhau}
-
HocSinh = {MHS, ten, ngaySinh, queQuan, email, xepLoai, hanhKiem, idTaiKhoan}
-
-
Thông thường, bảng được thêm trường chính là bảng mang ý nghĩa thuộc về đối tượng của bảng còn lại cho dù ta có thể làm ngược lại, điều này không hề sai về mặt dữ liệu cũng như khi sử dụng. Hãy sử dụng cách ngược lại cho thuận tiện khi dùng bảng tài khoản cho nhiều người dùng khác nhau.
-
1-n: chúng ta sẽ thêm khóa chính vào trong bảng đại diện cho quan hệ nhiều. Ví dụ: Quan hệ của Lớp học và học sinh là 1-n:
-
LopHoc = {maLop, ten, diaDiem}
-
HocSinh = {MHS, ten, ngaySinh, queQuan, email, xepLoai, hanhKiem, maLop}
-
-
n-n: Tạo ra một bảng mới có chứa cả 2 khóa chính của 2 bảng trong quan hệ n-n. Ngoài ra cũng có thể thêm vào các thuộc tính của mối quan hệ này. Ví dụ như Giáo viên và lớp học là n-n:
-
LopHoc = {maLop, ten, diaDiem}
-
GiaoVien = {MGV, ten, ngaySinh, queQuan, email, sdt, trinhDo}
-
GiangDay = {maLop, MGV, mon}
-
Như vậy với các cách trên, bạn đã có các bảng với những mối quan hệ và trường tương ứng. Ngoài ra có thể đưa dữ liệu về dạng UML lớp để có thể hình dung chính xác về cơ sở dữ liệu.
Ứng dụng của tích hợp dữ liệu
Với dữ liệu tích hợp, bạn sẽ nhận được lợi ích của chế độ xem 360 độ mà không hề có điểm mù đối với tất cả dữ liệu của mình. Vì bạn đã tích hợp dữ liệu đó nên sẽ không mất nhiều thời gian để biên soạn một báo cáo mà bạn cần để thực hiện một công việc kinh doanh quan trọng. Ngoài ra, dữ liệu có sẵn trong nhóm tiếp thị của bạn có thể xem dữ liệu bán hàng và nhóm bán hàng cũng có thể xem các dữ liệu tiếp thị.
Quan trọng hơn, chính là nhóm điều hành có thể đưa ra các quyết định đúng đắn dựa trên những dữ liệu tổng hợp từ tất cả các bộ phận. Ngoài ra, vì dữ liệu đang được xử lý và làm sạch để có thể tích hợp nên chất lượng dữ liệu cao hơn và được xử lý theo cách đáp ứng các tiêu chuẩn cần có.
Hy vọng bài viết trên đã giúp bạn hiểu rõ hơn về tích hợp dữ liệu là gì? Cũng như các bước thực hiện tích hợp dữ liệu để bạn có thể ứng dụng hiệu quả nhất vào hoạt động kinh doanh và quản lý của doanh nghiệp.