Data shadow là gì? Data shadow có tác dụng như thế nào
BÀI LIÊN QUAN
Data validation là gì? Các loại data validationData structures là gì? Cách phân loại cấu trúc dữ liệuData replication là gì? Sao chép dữ liệu có lợi ích như thế nào?Data shadow là gì?
Nói một cách dễ hiểu, data shadow hay bóng dữ liệu là những dữ liệu của công ty, doanh nghiệp được sao chép, sao lưu hoặc lưu trữ trong kho dữ liệu không bị chi phối, theo cùng một cấu trúc bảo mật, cũng như không được bảo mật hoặc không được CNTT cập nhật.
Bóng dữ liệu là cũng nói đến tất cả những dấu vết thông tin nhỏ mà một cá nhân để lại thông qua những hoạt động trên mạng hàng ngày. Đó là một phần dữ liệu được tạo khi một cá nhân thực hiện các công việc gửi email, cập nhật hồ sơ truyền thông xã hội, quẹt thẻ thanh toán tín dụng, sử dụng thẻ ATM, v.v. Khái niệm bóng dữ liệu đã dần dần trở thành một mối quan tâm rất đáng lo ngại nghiêm trọng, vì rất khó có thể giám sát, kiểm soát ai đã nhìn vào bóng dữ liệu của một cá nhân nào đó, họ đưa ra những kết luận gì và những hành động nào được thực hiện dựa vào những sự kết luận đó.
Một ví dụ rõ nhất là kho dữ liệu thông tin sản xuất chính của doanh nghiệp. Tất nhiên, đây là nơi quản trị viên có thể truy cập nội dung, ứng dụng và cung cấp dữ liệu cho tất cả những người yêu cầu, người dùng cũng có thể nhận thức được sâu sắc về các dữ liệu này, luôn cập nhật và có các giao thức bảo mật nghiêm ngặt. Ngược lại, khi xem xét đến các bản sao được tạo từ dữ liệu trong cơ sở dữ liệu sản xuất nhưng không được bảo mật: bản sao tồn tại trong môi trường thử nghiệm, trong một bản sao lưu không được quản lý và thay đổi hoặc các cơ sở dữ liệu sao lưu bị bỏ rơi.
Sự khác biệt giữa Shadow IT và Shadow Data là gì
Bạn có thể đã từng nghe đến thuật ngữ “Shadow IT”. Đây là công nghệ, phần cứng, phần mềm, ứng dụng hoặc các dự án công nghệ được thực hiện bên ngoài sự quản lý và giám sát của công nghệ thông tin trong doanh nghiệp, công ty của bạn.
Trong một giai đoạn, Shadow IT rất đáng sợ, là mối đe dọa lớn đối với bảo mật dữ liệu của các tổ chức. Tuy nhiên, khi thách thức được biết đến nhiều hơn và các công ty quan tâm và coi trọng nó, các nhóm đã tìm ra cách quản lý và ngăn chặn nó.
Kể từ thời điểm đó, những tiến bộ lớn trong lĩnh vực công nghệ - như sự di chuyển hàng loạt thông tin dữ liệu sang điện toán đám mây - đã mang lại cho chúng ta quá trình dân chủ hóa dữ liệu, bản thân nó đã mang đến lợi ích cho tất cả các tổ chức và người dùng. Dữ liệu của doanh nghiệp, tổ chức rất quan trọng và việc cho phép những người cần dùng chúng có thể truy cập nhiều hơn vào dữ liệu này sẽ tạo ra được nhiều cơ hội hơn, hiệu quả hơn.
Tuy nhiên, công nghệ điện toán đám mây cũng cho phép dữ liệu có thể được lan truyền đến rất nhiều những nơi khác nhau mà người dùng thậm chí có thể sẽ không theo dõi được. Đã qua rồi thời của những hệ thống công nghệ hoàn toàn khép kín, tại chỗ. Với khả năng truy cập nhiều hơn thì rủi ro sẽ càng lớn hơn. Và bây giờ một mối đe dọa mới đã đến. Đó là mối đe dọa lớn nhất đối với bảo mật dữ liệu của bạn: data shadow.
Đôi khi sẽ xảy ra tình trạng dữ liệu nhạy cảm của doanh nghiệp không biết nằm ở đâu? Và người dùng có công cụ và nguồn lực nào để quản lý nó không? Data shadow là một vấn đề nổi bật nhưng thường bị bỏ qua, không có các công cụ và tài nguyên để giải quyết nó và bảo vệ các dữ liệu nhạy cảm. Nếu dữ liệu không được bảo vệ một cách đúng cách chúng có thể rơi vào tay những kẻ xấu gây thiệt hại rất lớn.
Tại sao data shadow?
Khi ngày càng nhiều công ty chuyển dữ liệu sang điện toán đám mây, thì công nghệ đám mây ngày càng mở rộng và trở nên phức tạp hơn. Khi ngày càng nhiều nhà phát triển sử dụng tính linh hoạt của điện toán đám mây để tạo ra các tài sản lưu trữ dữ liệu mới chỉ bằng một nút bấm mà không cần hỏi ý kiến về bảo mật hoặc CNTT, thì việc tấn công dữ liệu cũng ngày càng tăng lên. Thêm vào đó là sự dân chủ hóa dữ liệu thì việc thiếu dữ liệu ngoại vi và bóng dữ liệu ngày càng trở nên phổ biến, cũng như nguy cơ vi phạm dữ liệu khi các chiến lược bảo mật dữ liệu truyền thống không thể theo kịp.
Có bốn yếu tố chính đã thay đổi việc bảo vệ dữ liệu đám mây và nhường chỗ cho bóng ma của data shadow:
- Sự gia tăng của công nghệ và độ phức tạp cao liên quan: Hàng chục công nghệ được sử dụng để lưu trữ, sử dụng và chia sẻ dữ liệu trên đám mây. Chúng có thể được quản lý trực tiếp bởi nhà cung cấp dịch vụ hoặc nhà phát triển và thường thì mỗi cái sẽ được định dạng cấu hình khác nhau. Điều này đã tạo ra nhiều kiến trúc thay đổi nhanh chóng và mang lại những rủi ro mới. Ngày nay, các nhà phát triển có thể quay hoặc sao chép toàn bộ kho dữ liệu chỉ trong vài giây.
- Các nhóm bảo vệ dữ liệu đã bị tụt lại phía sau: Ngày nay, các nhóm bảo vệ dữ liệu không thể ngăn các nhà phát triển thực hiện các thay đổi mà chỉ cố gắng thiết lập các rào chắn để cho phép ít sai sót hơn. Họ chuyển sang chế độ “bắt kịp”. Vì vậy, các nhóm bảo vệ dữ liệu đã dành nhiều thời gian hơn để đặt ra các câu hỏi và hy vọng rằng các chính sách sẽ được tuân thủ nghiêm ngặt.
- Dân chủ hóa dữ liệu: Khi thực hiện cung cấp dữ liệu dành cho tất cả những người cần dữ liệu, thì rủi ro càng tăng lên. Và những nỗ lực thủ công để phân loại và bảo mật tất cả các kho dữ liệu đều trở nên không hiệu quả.
- Không cố định tại một chỗ: Dữ liệu đám mây là mô hình dữ liệu được chia sẻ. Nó có nghĩa là có thể truy cập từ mọi nơi, được cung cấp thông tin xác thực phù hợp. Không còn một điểm bảo vệ và hàng rào giám sát nào ngăn cách.
Ví dụ về bóng dữ liệu là gì?
Một số ví dụ điển hình về bóng dữ liệu:
- Môi trường thử nghiệm: Hầu hết các tổ chức có một bản sao một phần cơ sở dữ liệu sản xuất hoặc RDS của họ trong môi trường phát triển hoặc thử nghiệm, nơi các nhà phát triển xây dựng các ứng dụng và chương trình thử nghiệm. Đôi khi các nhà phát triển di chuyển dữ liệu nhanh chóng và có thể chụp nhanh dữ liệu nhưng không thể xóa hoặc bảo mật dữ liệu đã sao chép đúng cách. Hoặc đơn giản là họ đã lãng quên nó đi.
- Bản sao lưu S3: Bạn cũng sẽ có ít nhất một kho lưu trữ dữ liệu dự phòng, như một phương tiện để chuẩn bị cho bất kỳ sự vi phạm hoặc thiệt hại nào đối với môi trường sản xuất của bạn. Đó là kế hoạch dự phòng của bạn và nó lưu trữ các bản sao chính xác của dữ liệu sản xuất của bạn. Nhưng những điều này thường là sự cân nhắc kỹ lưỡng và ít được giám sát hơn, do đó có thể tiết lộ một lượng lớn dữ liệu cho công chúng một cách nhầm lẫn.
- Dữ liệu còn sót lại từ việc di chuyển dữ liệu sang đám mây: Khi nhiều tổ chức chuyển dữ liệu sang đám mây, nó yêu cầu sự “nâng cấp và thay đổi” trong việc di chuyển dữ liệu , trong đó cơ sở dữ liệu ban đầu được chuyển vào kho dữ liệu đám mây hiện đại hơn. Nhưng những dữ liệu gốc không bao giờ bị xóa, do đó, phiên bản tồn tại đó vẫn không được quản lý, không bị nhầm lẫn và thường bị lãng quên.
- Nhật ký dữ liệu độc hại: Các nhà phát triển ghi lại nhật ký ghi dữ liệu nhạy cảm, tạo ra các tệp tin nhạy cảm nhưng không được phân loại là nhạy cảm, thiếu kiểm soát truy cập và mã hóa thích hợp và có thể dễ dàng bị lộ.
- Đường ống phân tích: Tất nhiên, dữ liệu của bạn chỉ hữu ích nếu bạn có thể tham khảo và phân tích nó một cách nhất quán, vì vậy nhiều công ty sẽ lưu trữ dữ liệu trong một số loại đường ống phân tích bằng cách sử dụng Snowflake hoặc những công cụ phân loại khác.
Ví dụ về vi phạm dữ liệu do Dữ liệu bóng tối gây ra
Data shadow có thể là lỗ hổng lớn nhất của các tổ chức cá nhân. Trong rất nhiều trường hợp, dữ liệu này không được sử dụng nữa hoặc đã quên hoặc thậm chí không hiển thị hoặc không thể truy cập được đối với các nhóm CNTT của công ty. Nhìn chung, những người trong tổ chức của bạn là những người nên biết về các kho dữ liệu này lại không biết về chúng, khiến nó trở thành con mồi cho tội phạm mạng.
Trên thực tế, hầu hết các vụ vi phạm dữ liệu thường xảy ra trong môi trường bóng dữ liệu.
Lấy ví dụ như vụ vi phạm dữ liệu SEGA Châu Âu gần đây, trong đó công ty trò chơi lớn đã vô tình để thông tin cá nhân của người dùng có thể truy cập công khai trên nhóm S3 của Amazon Web Services.
Sự cố nhầm lẫn đã để ngỏ cho tin tặc và tội phạm mạng thâm nhập vào nhiều dịch vụ đám mây của SEGA Châu Âu, cùng với các khóa API cho các phiên bản MailChimp và Steam của họ, cung cấp toàn quyền truy cập vào các dịch vụ này cho bất kỳ ai tìm thấy.
May mắn thay cho SEGA, nỗ lực chung của nhóm bảo mật nội bộ của SEGA, kết hợp với nhóm các nhà nghiên cứu bảo mật bên ngoài, lỗi sai đã được phát hiện và quyền truy cập vào dữ liệu nhạy cảm đã được ngăn chặn.
Làm sao chuyện này lại xảy ra? Đó là do bóng dữ liệu. Ai đó đã vô tình lưu trữ các tệp nhạy cảm, an toàn trong nhóm AWS S3 có thể truy cập công khai và không nhận ra mức độ lỗ hổng. Việc định cấu hình sai nhóm Amazon AWS là điều khá dễ dàng và sai sót nhỏ đó có thể khiến công ty thiệt hại không thể khắc phục được.
Twitter cũng gặp sự cố tương tự, trong đó, do một "trục trặc" khiến thông tin cá nhân và mật khẩu của người dùng được lưu trữ ở định dạng văn bản có thể đọc được trên hệ thống nội bộ của họ, thay vì được ngụy trang bằng quy trình được gọi là "hỏng kế hoạch".
Bóng dữ liệu là vấn đề hết sức nghiêm trọng nếu không được kiểm soát kỹ. Đây là vấn đề khiến nhiều người dùng hết sức lo lắng.