Data masking là gì? Những kỹ thuật và cách thực hiện data masking thành công
BÀI LIÊN QUAN
DataOps (data operations) là gì? Những kiến thức cơ bản cần biết về DataOpsData Mining là gì? Đặc điểm và ứng dụng của Data MiningData loss prevention (DLP) - Giải pháp chống thất thoát dữ liệuData masking là gì?
Data Masking hay mặt nạ dữ liệu là một công cụ, kỹ thuật giúp che dấu những dữ liệu "nhạy cảm" để tránh việc thất thoát thông tin.
Chúng tạo ra một phiên bản dữ liệu có cấu trúc tương tự như bản gốc nhưng ẩn (che) thông tin nhạy cảm. Sau đó, phiên bản có thông tin bị ẩn có thể được sử dụng cho nhiều mục đích khác nhau, chẳng hạn như đào tạo người dùng hoặc kiểm tra phần mềm. Mục tiêu chính của việc che giấu dữ liệu là tránh tiết lộ dữ liệu thực.
Phần lớn các doanh nghiệp, tổ chức hiện nay đều có các biện pháp bảo mật nghiêm ngặt để bảo vệ dữ liệu khi dữ liệu còn nằm trong bộ lưu trữ và khi dữ liệu đó đã được sử dụng trong việc kinh doanh. Tuy nhiên, đôi khi thông tin dữ liệu được sử dụng cho những hoạt động kém an toàn hơn như thử nghiệm hoặc đào tạo người dùng hoặc được sử dụng bởi các bên thứ ba bên ngoài tổ chức. Điều này có thể khiến cho dữ liệu gặp rủi ro và có thể dẫn đến tình trạng vi phạm tuân thủ.
Mặt nạ dữ liệu cung cấp một giải pháp hữu ích thay thế có thể cho phép truy cập vào các thông tin cần thiết, nhưng đồng thời cũng vẫn có thể bảo vệ dữ liệu nhạy cảm. Những quy trình che giấu dữ liệu sử dụng cùng một định dạng dữ liệu để mô phỏng dữ liệu gốc, đồng thời cũng thay đổi giá trị của thông tin nhạy cảm.
Có rất nhiều cách có thể được sử dụng để thay đổi dữ liệu, bao gồm xáo trộn ký tự, thay thế các từ hoặc ký tự và mã hóa. Mỗi phương pháp đều có những ưu điểm riêng. Tuy nhiên, khi che dấu dữ liệu, các giá trị phải luôn được thay đổi theo một cách nào đó khiến kỹ thuật đảo ngược không thể can thiệp được.
Dưới đây là một số ví dụ về Data Masking:
- Thay thế những chi tiết và tên nhận dạng cá nhân bằng những ký hiệu và ký tự khác
- Thay đổi một chi tiết cụ thể hoặc ngẫu nhiên dữ liệu nhạy cảm như tên hoặc số tài khoản.
- Xáo trộn các thông tin dữ liệu, thay thế các chi tiết của nó bằng các chi tiết khác từ cùng một tập dữ liệu.
- Xóa hoặc "hủy bỏ" các giá trị nhạy cảm trong bản ghi dữ liệu.
- Mã hóa dữ liệu để cho những người xâm nhập trái phép hệ thống không thể truy cập dữ liệu mà không có khóa giải mã.
Dữ liệu nào cần sử dụng đến Data masking
Dưới đây là những loại dữ liệu phổ biến nhất yêu cầu sử dụng công cụ data masking mặt nạ dữ liệu:
- Thông tin nhận dạng cá nhân (PII) - dữ liệu có thể được sử dụng để nhận dạng một số cá nhân. Điều này bao gồm thông tin cá nhân như tên đầy đủ, số hộ chiếu, căn cước công dân, số giấy phép lái xe và số an sinh xã hội.
- Thông tin sức khỏe được bảo vệ (PHI)—dữ liệu do các nhà cung cấp dịch vụ chăm sóc sức khỏe thu thập nhằm mục đích xác định dịch vụ chăm sóc phù hợp cho những đối tượng cụ thể. Điều này bao gồm thông tin bảo hiểm, thông tin nhân khẩu học, kết quả xét nghiệm, tiền sử bệnh và tình trạng sức khỏe.
- Thông tin thẻ thanh toán - Tiêu chuẩn bảo mật dữ liệu ngành thẻ thanh toán (PCI DSS) yêu cầu người bán xử lý những giao dịch thẻ tín dụng và thẻ ghi nợ phải bảo mật dữ liệu chủ thẻ một cách thích hợp.
- Sở hữu trí tuệ (IP) - dữ liệu liên quan đến những sáng tạo trí tuệ, bao gồm phát minh, các kế hoạch kinh doanh, thiết kế tranh ảnh, âm nhạc và thông số kỹ thuật, những dữ liệu có giá trị cao đối với một tổ chức và phải được bảo vệ khỏi bị truy cập và đánh cắp trái phép.
Các loại mặt nạ dữ liệu
Dưới đây là ba loại mặt nạ dữ liệu phổ biến nhất hiện nay:
- Mặt nạ dữ liệu tĩnh - liên quan đến việc tạo ra một phiên bản trùng lặp của tập hợp dữ liệu, chứa những dữ liệu đã được che giấu hoàn toàn hoặc một phần. Cơ sở dữ liệu giả này sẽ được duy trì tách biệt với cơ sở dữ liệu sản xuất.
- Mặt nạ dữ liệu động - thay đổi các thông tin dữ liệu trong thời gian thực, khi người dùng truy cập vào thông tin đó. Kỹ thuật này được áp dụng trực tiếp cho bộ dữ liệu sản xuất. Nó đảm bảo rằng dữ liệu gốc chỉ được nhìn thấy bởi những người dùng được ủy quyền và bất kỳ người dùng không sở hữu đặc quyền truy cập nào sẽ chỉ nhìn thấy các dữ liệu bị che.
- Mặt nạ dữ liệu nhanh chóng - sửa đổi thông tin nhạy cảm khi nó được truyền ra môi trường bên ngoài, đảm bảo rằng các thông tin nhạy cảm được che giấu trước khi đến được với mục tiêu. Kỹ thuật này lý tưởng cho các tổ chức có nhu cầu di chuyển dữ liệu giữa các hệ thống khác nhau hoặc duy trì tích hợp hoặc đồng bộ hóa liên tục các tập dữ liệu khác nhau.
Những kỹ thuật để tạo data masking
Dưới đây là một số kỹ thuật che giấu dữ liệu phổ biến mà bạn có thể sử dụng để bảo vệ những dữ liệu nhạy cảm trong bộ dữ liệu của mình.
Giả danh dữ liệu
Cho phép người dùng có thể chuyển một tập dữ liệu gốc, chẳng hạn như tên hoặc e-mail, bằng bút danh hoặc bí danh. Quá trình này có thể đảo ngược - quá trình hủy nhận dạng thông tin dữ liệu nhưng vẫn cho phép sử dụng nhận dạng lại sau này nếu cần.
Ẩn danh dữ liệu
Một phương pháp cho phép người dùng có thể mã hóa các mã định danh kết nối các cá nhân với dữ liệu được che giấu. Mục tiêu là để bảo vệ hoạt động riêng tư của người dùng trong khi vẫn giữ được độ tin cậy của dữ liệu đang được che giấu.
Tra cứu thay thế
Người dùng có thể che (ẩn) cơ sở dữ liệu gốc bằng một bảng tra cứu dữ liệu bổ sung cung cấp các giá trị thay thế cho dữ liệu gốc, nhạy cảm. Điều này cho phép người dùng có thể sử dụng dữ liệu thực tế trong môi trường thử nghiệm mà không để lộ ra bản gốc.
Mã hóa
Các bảng dữ liệu dễ bị xâm phạm, do đó, người dùng nên mã hóa dữ liệu để chỉ có thể truy cập dữ liệu bằng mật khẩu. Dữ liệu không thể đọc được khi mã hóa nhưng có thể xem được khi giải mã, vì vậy người dùng nên kết hợp dữ liệu này với những kỹ thuật che giấu dữ liệu khác.
Biên tập lại
Nếu dữ liệu nhạy cảm không cần thiết cho mục đích QA hoặc nghiên cứu phát triển, thì có thể thay thế dữ liệu đó bằng các giá trị chung trong môi trường phát triển và thử nghiệm. Trong trường hợp này, không có dữ liệu thực tế nào có thuộc tính tương tự như dữ liệu gốc.
Tính trung bình
Nếu bạn muốn phản ánh dữ liệu nhạy cảm dưới dạng con số tính trung bình hoặc tổng hợp, chứ không phải trên cơ sở cá nhân, thì bạn có thể thay thế tất cả các giá trị trong bảng bằng giá trị trung bình. Ví dụ: nếu bảng liệt kê các mức lương của nhân viên, bạn có thể che dấu mức lương thực tế của từng cá nhân bằng cách thay thế tất cả chúng bằng mức lương trung bình, để cột tổng khớp với giá trị tổng thực của các mức lương khi được cộng vào nhau.
Xáo trộn dữ liệu
Nếu bạn cần giữ lại tính duy nhất khi che dấu các giá trị, bạn có thể bảo vệ dữ liệu bằng cách xáo trộn dữ liệu để các giá trị thực vẫn còn nhưng được gán cho các phần tử khác nhau. Với ví dụ về bảng lương, tất cả các mức lương thực tế sẽ được liệt kê, nhưng sẽ không tiết lộ mức lương nào thuộc về nhân viên nào. Phương pháp này phù hợp nhất với các tập dữ liệu lớn hơn.
Chuyển đổi ngày
Nếu dữ liệu được đề cập liên quan đến ngày mà bạn muốn giữ bí mật, bạn có thể áp dụng các chính sách cho từng trường dữ liệu để làm xáo trộn ngày thực. Ví dụ: bạn có thể đặt lùi ngày của tất cả các hợp đồng đang hoạt động sau 100 ngày. Hạn chế của phương pháp này là do cùng một chính sách áp dụng cho tất cả các giá trị trong một trường nên sự thỏa hiệp của một giá trị dẫn đến sự thỏa hiệp của tất cả các giá trị.
Những thách thức của Data masking
Dưới đây là một số thách thức chính liên quan đến che giấu dữ liệu:
- Bảo toàn định dạng - giải pháp che dấu dữ liệu phải hiểu dữ liệu (nghĩa là dữ liệu đại diện cho cái gì). Khi hệ thống che dấu thay thế dữ liệu gốc bằng dữ liệu không xác thực, nó sẽ giữ nguyên định dạng ban đầu. Điều này đặc biệt quan trọng đối với các luồng dữ liệu yêu cầu một thứ tự hoặc định dạng cụ thể, chẳng hạn như ngày tháng.
- Toàn vẹn tham chiếu - các bảng trong cơ sở dữ liệu quan hệ với nhau được kết nối thông qua các khóa chính. Khi giải pháp tạo mặt nạ làm xáo trộn hoặc thay thế các giá trị chính của bảng, các giá trị này phải được sửa đổi một cách nhất quán trên cơ sở dữ liệu.
- Bảo toàn giới tính - hệ thống che giấu phải có nhận thức về giới tính khi thay thế tên của một người trong cơ sở dữ liệu và có thể phát hiện xem tên đó là nam hay nữ. Phân phối giới tính trong một bảng sẽ bị thay đổi nếu hệ thống mặt nạ thay đổi tên ngẫu nhiên.
- Tính toàn vẹn ngữ nghĩa - cơ sở dữ liệu thường thực thi các quy tắc giới hạn phạm vi giá trị được phép (ví dụ: phạm vi tiền lương). Mọi dữ liệu bị che phải nằm trong phạm vi được chỉ định để bảo toàn ngữ nghĩa (ý nghĩa) của dữ liệu.
- Tính duy nhất của dữ liệu - khi che dấu dữ liệu duy nhất, hệ thống che dấu sẽ áp dụng các giá trị duy nhất cho mọi phần tử dữ liệu. Ví dụ: nếu bảng được đề cập lưu trữ thông tin cá nhân của nhân viên, thì mỗi nhân viên sẽ nhận được một thông tin duy nhất sau khi đã ẩn dữ liệu. Cần giữ lại sự phân phối tần suất của dữ liệu bị che khuất, đặc biệt nếu phân phối đó có ý nghĩa (nghĩa là phân phối theo địa lý). Trung bình, mỗi cột trên bảng phải có những giá trị dữ liệu được che dấu tương tự như giá trị ban đầu.
Trên đây là nội dung data masking là gì và tính quan trọng của phương pháp này trong việc bảo mật dữ liệu. Data masking sẽ giúp vấn đề bảo mật dữ liệu trở nên đơn giản dễ dàng hơn.