Data gravity: Ý nghĩa của chúng đối với dữ liệu của bạn
Data gravity là gì?
Trọng lực dữ liệu là đặc điểm quan sát được của các tập dữ liệu lớn mô tả xu hướng thu hút các tập dữ liệu nhỏ hơn, cũng như các dịch vụ và ứng dụng có liên quan. Nó cũng nói lên sự khó khăn khi di chuyển một tập dữ liệu lớn, có sức “nặng”.
Hãy nghĩ về một lượng lớn dữ liệu, chẳng hạn như hồ dữ liệu, là một hành tinh, còn các dịch vụ và ứng dụng là mặt trăng. Dữ liệu càng lớn thì lực hấp dẫn của nó càng lớn. Lực hấp dẫn càng lớn, càng nhiều vệ tinh (dịch vụ, ứng dụng và dữ liệu) sẽ kéo dữ liệu vào quỹ đạo của nó.
Bộ dữ liệu lớn rất hấp dẫn vì sự đa dạng của dữ liệu có sẵn. Chúng cũng hấp dẫn (tức là có trọng lực) vì các công nghệ được sử dụng để lưu trữ các tập dữ liệu lớn như vậy - chẳng hạn như dịch vụ đám mây - có sẵn với nhiều cấu hình khác nhau cho phép có nhiều lựa chọn hơn về cách xử lý và sử dụng dữ liệu.
Khái niệm về trọng lực dữ liệu cũng được sử dụng để chỉ ra kích thước của tập dữ liệu và thảo luận về tính lâu dài tương đối của nó. Các bộ dữ liệu lớn rất “nặng” và khó di chuyển. Điều này có ý nghĩa đối với cách dữ liệu có thể được sử dụng và loại tài nguyên nào sẽ được yêu cầu để hợp nhất hoặc di chuyển dữ liệu đó.
Khi dữ liệu kinh doanh tiếp tục trở thành một loại hàng hóa ngày càng tăng, điều cần thiết là trọng lượng dữ liệu phải được xem xét khi thiết kế các giải pháp sẽ sử dụng dữ liệu đó. Người ta phải xem xét không chỉ lực hấp dẫn của dữ liệu hiện tại, mà cả sự phát triển tiềm năng của nó. Trọng lực dữ liệu sẽ chỉ tăng theo thời gian và do đó sẽ thu hút nhiều ứng dụng và dịch vụ hơn.
Trọng lực dữ liệu ảnh hưởng đến doanh nghiệp như thế nào?
Dữ liệu phải được quản lý hiệu quả để đảm bảo rằng thông tin mà nó cung cấp là chính xác, luôn được cập nhật mới và có tính hữu ích. Data gravity phát huy tác dụng với bất kỳ phần dữ liệu nào và là một phần của quản lý và quản trị dữ liệu, doanh nghiệp phải tính đến ảnh hưởng của dữ liệu.
Nếu không có các chính sách, thủ tục và quy tắc tương tác phù hợp, lượng dữ liệu khổng lồ trong kho, hồ hoặc tập dữ liệu khác có thể trở nên quá tải. Tệ hơn nữa, nó có thể trở nên không được sử dụng đúng mức. Chủ sở hữu ứng dụng có thể quay lại chỉ sử dụng dữ liệu mà họ sở hữu để đưa ra quyết định, dẫn đến các quyết định không phù hợp được đưa ra đối với một ứng dụng duy nhất, nhiều sở hữu.
Tích hợp dữ liệu bị ảnh hưởng rất nhiều bởi ý tưởng về trọng lực dữ liệu - đặc biệt là nỗ lực hợp nhất các hệ thống và giảm lãng phí tài nguyên do lỗi hoặc nhu cầu làm lại các giải pháp. Đặt dữ liệu vào một đấu trường trung tâm có nghĩa là lực hấp dẫn của dữ liệu sẽ không thu thập chậm theo thời gian mà sẽ tăng lên đáng kể trong một thời gian ngắn.
Hiểu được mức độ ảnh hưởng của trọng lực dữ liệu mới đến doanh nghiệp sẽ đảm bảo rằng các trường hợp dự phòng được áp dụng để xử lý ảnh hưởng ngày càng tăng nhanh chóng của dữ liệu đối với hệ thống. Ví dụ, xem xét mức độ hấp dẫn của dữ liệu ảnh hưởng đến việc phân tích dữ liệu. Di chuyển các tập dữ liệu lớn vào các cụm phân tích là một quá trình không hiệu quả, chưa kể đến chi phí đắt đỏ, tốn kém. Doanh nghiệp sẽ cần phát triển tối ưu hóa lưu trữ tốt hơn cho phép khả năng cơ động của dữ liệu trở nên cao hơn.
Những vấn đề của trọng lực dữ liệu
Trọng lực dữ liệu đưa ra cho các nhà quản lý dữ liệu hai vấn đề: độ trễ và tính không thể chuyển đổi của dữ liệu.
Độ trễ nhất định
Về bản chất, một tập dữ liệu lớn yêu cầu các ứng dụng sử dụng nó phải ở gần, nằm trong quỹ đạo của nó hoặc chịu độ trễ nhất định. Điều này là do các ứng dụng càng gần dữ liệu thì hiệu suất khối lượng công việc càng tốt.
Tốc độ rất quan trọng đối với các hoạt động kinh doanh thành công và việc tăng độ trễ khi trọng lực dữ liệu tăng lên đơn giản không phải là một lựa chọn. Doanh nghiệp sẽ cần đảm bảo rằng sự cân bằng giữa thông lượng và khối lượng công việc tăng lên cùng với mức độ quan trọng của dữ liệu. Điều này có nghĩa là di chuyển các ứng dụng đến cùng một trường với dữ liệu để tránh độ trễ và tăng thông lượng. Một ví dụ điển hình về cách giải quyết vấn đề về độ trễ là Amazon QuickSight; nó được phát triển để dựa trực tiếp vào dữ liệu đám mây nhằm tối ưu hóa hiệu suất.
Không có tính di động
Trọng lực dữ liệu tăng theo kích thước của tập dữ liệu và tập dữ liệu càng lớn thì tập dữ liệu càng khó di chuyển. Quá trình di chuyển một lượng lớn dữ liệu diễn ra chậm và làm hạn chế các tài nguyên trong quá trình này.
Trọng lực dữ liệu phải được tính đến bất cứ lúc nào dữ liệu cần được di chuyển. Do sự tăng trưởng liên tục của tập dữ liệu, doanh nghiệp sẽ cần phát triển các kế hoạch di chuyển của họ dựa trên các yêu cầu chiếm kích thước của tập dữ liệu như hiện tại, thay vì kích thước hiện tại, thực tế của nó.
Trọng lực dữ liệu là khả năng có bao nhiêu dịch vụ, ứng dụng và/hoặc dữ liệu bổ sung sẽ được thu hút vào tập dữ liệu và cần được xem xét khi xác định kích thước trong tương lai. Việc di chuyển dữ liệu sẽ đòi hỏi một kế hoạch chuyên biệt, thường có tính sáng tạo cao để từ đó mang lại sự thành công.
Xử lý trọng lực dữ liệu
Data gravity - trọng lực dữ liệu là một thực tế của thời đại công nghệ phải được xử lý một cách khéo léo nhất có thể để giữ cho mọi thứ hoạt động trơn tru và hiệu quả. Vũ khí lớn nhất trong kho vũ khí của người quản lý dữ liệu sẽ là quản lý và quản trị dữ liệu, cũng như tích hợp dữ liệu thuần thục.
Quản lý dữ liệu
Quản lý dữ liệu là điều bắt buộc, bất kể dữ liệu được lưu trữ trên đám mây hay tại chỗ. Quản lý dữ liệu cho phép tận dụng trọng lực dữ liệu - dữ liệu sẽ được sử dụng như thế nào, bởi ai và cho mục đích gì là tất cả các yếu tố sẽ giúp xác định những ứng dụng và dịch vụ nào cần chạy trên đám mây với dữ liệu.
Với trọng lực dữ liệu mang lại nhiều ứng dụng và dịch vụ hơn theo thời gian, điều cần thiết là phải duy trì tính toàn vẹn của dữ liệu để cung cấp dữ liệu chính xác và đầy đủ.
Quản trị dữ liệu
Quản trị dữ liệu là một phần cốt lõi của quản lý dữ liệu. Quản trị dữ liệu được giải thích tốt nhất là một hệ thống vai trò xác định trách nhiệm giải trình và trách nhiệm liên quan đến dữ liệu.
Đây là điều tối quan trọng để giải quyết các vấn đề về trọng lực dữ liệu, vì nó tạo ra dữ liệu có chất lượng tốt hơn và cho phép ánh xạ dữ liệu. Quản trị dữ liệu tốt sẽ mang lại lợi ích riêng cũng như giúp cung cấp khả năng quản lý dữ liệu tổng thể tốt hơn.
Tích hợp dữ liệu
Tích hợp dữ liệu là cách các tổ chức tăng hiệu quả của hệ thống và ứng dụng đồng thời tăng khả năng tận dụng dữ liệu. Mặc dù có vẻ khó khăn khi sử dụng tích hợp dữ liệu như một phương tiện để xử lý data gravity, nhưng tóm lại sẽ là có một nguồn dữ liệu trên nhiều nguồn dữ liệu. Chắc chắn rằng một nguồn dữ liệu trung tâm sẽ rất lớn, nhưng điều đó cũng có nghĩa là người quản lý dữ liệu chỉ đang cạnh tranh với một nguồn trọng lực dữ liệu thay vì nhiều nguồn khác nhau.
Tương lai của công nghệ điện toán đám mây và trọng lực dữ liệu
Hạn chế lớn nhất đối với trọng lực dữ liệu là nhu cầu về khoảng cách giữa dữ liệu và các ứng dụng cần dữ liệu đó.
Ví dụ: ngày càng có nhiều doanh nghiệp đang tìm cách chia sẻ dữ liệu của họ nhằm nỗ lực tạo ra bộ dữ liệu mạnh mẽ, có giá trị hơn, có lợi cho cả hai bên. Để thực hiện điều này một cách hiệu quả, cả hai doanh nghiệp liên quan sẽ cần có dữ liệu gần nhau.
Nhập dữ liệu lên đám mây. Các doanh nghiệp trên toàn quốc hoặc thậm chí trên toàn cầu có thể đạt được sự gần gũi này bằng cách tận dụng công nghệ đám mây. Tuy nhiên, công nghệ đám mây có thể vừa là giải pháp vừa là vấn đề. Công nghệ đám mây đã cho phép mở rộng quy mô lớn các cơ quan dữ liệu, điều này giúp tăng cường độ hấp dẫn của dữ liệu thay vì khuếch tán nó.
Mặt khác, công nghệ đám mây đóng vai trò như một phương tiện thách thức trọng lực dữ liệu bằng cách cho phép các doanh nghiệp có khả năng mở rộng khả năng xử lý và tiến gần đến dữ liệu cần thiết. Điều này đẩy nhu cầu sử dụng công nghệ đám mây lên hàng đầu và không khuyến khích lưu trữ dữ liệu tại chỗ.
Cách bắt đầu quản lý trọng lực dữ liệu
Trọng lực dữ liệu không phải là một vấn đề không thể vượt qua. Trọng lực dữ liệu là một yếu tố môi trường ảnh hưởng đến thế giới dữ liệu, nhưng biết về những ảnh hưởng này cho phép người quản lý dữ liệu kiểm soát và đối phó với bụi phóng xạ tiềm ẩn. Mặc dù có ít câu trả lời chính xác, nhưng doanh nghiệp có thể thực hiện các bước để giảm thiểu tác động tiêu cực của lực hấp dẫn dữ liệu thông qua quản lý dữ liệu và quản trị dữ liệu phù hợp.
Quản lý và quản trị dữ liệu phải phát triển khi công nghệ và quy trình trở nên tiên tiến hơn. Đối phó với sự phức tạp, khó khăn gia tăng, nhưng việc có các công cụ phù hợp sẽ giúp giảm bớt căng thẳng đó. Talend Data Fabric là một bộ ứng dụng có thể giúp giải quyết thách thức trọng lực dữ liệu bằng cách cung cấp các công cụ đã được chứng minh trong lĩnh vực quản lý dữ liệu, quản trị và tích hợp dữ liệu.