meeyland app
Meey Land
Cổng thông tin bất động sản xác thực 4.0
Tải ứng dụng

Data lakehouse là gì? Những ưu điểm của data lakehouse

Thứ tư, 04/01/2023-08:01
Data lakehouse là một khái niệm giải pháp dữ liệu kết hợp các yếu tố của kho dữ liệu với các yếu tố của hồ dữ liệu. Data lakehouse triển khai cấu trúc dữ liệu của kho dữ liệu và các tính năng quản lý cho kho dữ liệu, thường tiết kiệm chi phí hơn cho việc lưu trữ dữ liệu. Data lakehouse rất hữu ích cho các nhà khoa học dữ liệu vì chúng cho phép học máy hiệu quả và kinh doanh thông minh.

Data lakehouse là gì?

Data lakehouse nghĩa là hồ dữ liệu có tính linh hoạt và tiết kiệm chi phí lưu trữ dữ liệu với khả năng truy vấn dữ liệu theo ngữ cảnh và tốc độ cao.

Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc và cung cấp nguồn thông tin xác thực cho các tổ chức. Tuy nhiên, các tổ chức phải cấu trúc và lưu trữ dữ liệu đầu vào ở một định dạng cụ thể để cho phép các quy trình trích xuất, chuyển đổi và tải cũng như truy vấn dữ liệu này một cách hiệu quả.

Trong khi đó, hồ dữ liệu là môi trường linh hoạt có thể lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở dạng nguyên bản, thô. Cách tiếp cận này cho phép các tổ chức sử dụng dữ liệu này để xây dựng các mô hình trí tuệ nhân tạo (AI) và máy học từ khối lượng lớn các tập dữ liệu khác nhau. Tuy nhiên, không giống như kho dữ liệu, dữ liệu không được chuyển đổi trước khi hạ cánh ở trong bộ lưu trữ. Vì vậy, việc sử dụng có thể trở nên quá tải nếu các tổ chức không quản lý cẩn thận.


Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc
Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc

Data Lakehouse hoạt động như thế nào?

Data lakehouses thường cung cấp hỗ trợ cho việc nhập dữ liệu thông qua nhiều phương pháp. Chúng bao gồm các giao diện lập trình ứng dụng, phát trực tuyến, v.v. Dữ liệu này xuất hiện ở dạng thô, nguyên bản mà không yêu cầu giải mã lược đồ. Kho dữ liệu cung cấp lớp lưu trữ tiết kiệm chi phí cho cả dữ liệu có cấu trúc và phi cấu trúc. Do đó, nó chứa tất cả dữ liệu của một tổ chức.

Nói chung, công nghệ lưu trữ phân loại dữ liệu thành các vùng hạ cánh, vùng thô và được quản lý tùy thuộc vào mức độ sẵn sàng sử dụng của nó. Kết quả là nhận lại là nguồn thông tin chính xác duy nhất và cho phép các công ty tận dụng tối đa khả năng phân tích dữ liệu nâng cao cùng một lúc.

Trong mô hình kho dữ liệu, trước tiên, các tổ chức di chuyển dữ liệu từ các nguồn vào trong kho dữ liệu. Sau đó, một tập hợp con của dữ liệu này sẽ lọc liền mạch để trở thành các tập dữ liệu được quản lý và trở nên đáng tin cậy hơn, trong đó các tổ chức đặt các quy tắc quản trị, sử dụng và truy cập dữ liệu bắt buộc.

Các tính năng của một data lakehouse là gì?

Mặc dù các chi tiết cụ thể của kho dữ liệu khác nhau dựa trên mục tiêu kinh doanh và trường hợp sử dụng, năm tính năng sau đây là cơ bản:

  • Nhập dữ liệu. Data lakehouses nhập khối lượng dữ liệu có cấu trúc và phi cấu trúc lớn với tốc độ rất cao ở dạng nguyên bản, thô của chúng. Các công nghệ mở giúp dễ dàng nhập khối lượng lớn dữ liệu kinh doanh, tăng cường khả năng bảo mật và khả năng quan sát.
  • Quản lý dữ liệu. Kho lưu trữ dữ liệu tận dụng các kho lưu trữ đối tượng chi phí thấp như AWS S3 hoặc Microsoft Azure Blob Storage để lưu trữ và quản lý dữ liệu một cách hiệu quả về chi phí.
  • Ngôn ngữ truy vấn. Data lakehouses cung cấp một cách để thẩm vấn dữ liệu và gửi hướng dẫn xử lý dưới dạng truy vấn. Hiệu suất của các truy vấn này cần phải ở mức mà chúng có thể hỗ trợ các trường hợp sử dụng phân tích đặc biệt.
  • Xử lý song song hàng loạt. Data lakehouses cung cấp phản hồi truy vấn với độ trễ tối thiểu. Điều này đơn giản là không thể với các kiến trúc thông thường. Xử lý song song ồ ạt cho phép thực hiện truy vấn phân tán bởi nhiều bộ xử lý để tăng tốc độ phản hồi.
  • Hỗ trợ khối lượng công việc phân tích đa dạng. Kho dữ liệu hỗ trợ nhiều trường hợp sử dụng xung quanh phân tích và học máy, chẳng hạn như phân tích khám phá để trả lời các câu hỏi đặc biệt.

Data lakehouse mang đến rất nhiều lợi ích trong việc lưu trữ dữ liệu
Data lakehouse mang đến rất nhiều lợi ích trong việc lưu trữ dữ liệu

Những lợi thế của một hồ dữ liệu là gì?

Những lợi thế phổ biến nhất của data lakehouses bao gồm:

  • Giảm dự phòng. Vì data lakehouse kết hợp các chức năng của hồ và kho dữ liệu nên chúng cung cấp một nền tảng lưu trữ đa năng có thể xử lý mọi loại dữ liệu. Do đó, các tổ chức có thể tránh xa các mô hình kho-hồ kết hợp xem dữ liệu được sao chép để đảm bảo khả năng truy cập.
  • Kiểm soát chi phí. Bằng cách sử dụng các giải pháp lưu trữ đối tượng được tiêu chuẩn hóa, kho dữ liệu mang lại hiệu quả chi phí và khả năng kiểm soát giống như kho dữ liệu. Thêm vào mô hình kho lưu trữ nguồn đơn của kho dữ liệu và doanh nghiệp có thể hợp nhất dữ liệu để kiểm soát chi phí.
  • Cải thiện quản trị. Các mô hình Lakehouse ưu tiên bảo mật dữ liệu và giúp dễ dàng áp dụng các cơ chế quản trị cho phép mọi người làm việc với dữ liệu họ cần, nhưng cũng tuân thủ các tiêu chuẩn tuân thủ quy định ở quy mô toàn cầu.

Nhược điểm của data lakehouse

  • Mặc dù các data lakehouse cho phép các tổ chức lưu trữ bất kỳ khối lượng hoặc loại dữ liệu nào mà không cần xem xét cấu trúc hoặc chi phí lưu trữ, nhưng chất lượng và quản trị của chúng vẫn là những vấn đề quan trọng. Nếu dữ liệu không được quản lý đúng cách, nó có thể dẫn đến việc hồ dữ liệu trở thành đầm lầy.
  • Cách tiếp cận này dẫn đến các bản sao dữ liệu bổ sung vì dữ liệu trước tiên được trích xuất và tải vào data lakehouse, sau đó cần được trích xuất và tải vào kho dữ liệu cho các ứng dụng xuôi dòng (chẳng hạn như BI). Điều này cũng có thể dẫn đến nhiều lỗi công việc hơn và cuối cùng ảnh hưởng đến các ứng dụng hạ lưu.
  • Vì dữ liệu được lưu trữ ở định dạng thô và được viết bởi nhiều công cụ và phương pháp khác nhau nên các tệp có thể không được tối ưu hóa cho các công cụ truy vấn và ứng dụng phân tích sẽ có độ trễ thấp.

Data warehouse so với data lake so với data lakehouse: Đâu là sự khác biệt?

Mặc dù data lakehouse kết hợp tính linh hoạt và hiệu quả chi phí của data lake với khả năng truy vấn của data warehouse, nhưng điều quan trọng là phải hiểu các môi trường lưu trữ này khác nhau như thế nào.

Data warehouse

Kho dữ liệu là tùy chọn lưu trữ dữ liệu lớn ban đầu. Được thiết kế để cung cấp một nguồn thông tin chính xác duy nhất cho dữ liệu có cấu trúc, chúng cung cấp một cách để các tổ chức đơn giản hóa việc quản lý dữ liệu bằng cách tập trung đầu vào. Mặc dù họ cực kỳ thành thạo chức năng này, nhưng họ lại thiếu tính linh hoạt của các hậu duệ hồ dữ liệu của mình.

Data lake

Data lake đã phát triển như một cách để quản lý đồng thời dữ liệu có cấu trúc và phi cấu trúc tốt hơn. Các hồ này rất linh hoạt và cho phép các công ty lưu trữ dữ liệu ở dạng gốc. Đổi lại, điều này trao quyền cho khoa học dữ liệu chuyên sâu hơn và giảm tổng chi phí quản lý dữ liệu.

Data lakehouse

Data lakehouse kết hợp các khía cạnh chính của hồ dữ liệu và kho dữ liệu. Điều này cho phép các doanh nghiệp sử dụng mô hình kho dữ liệu như một kho lưu trữ để lưu trữ hợp nhất dữ liệu mà không phải hy sinh tính linh hoạt phân tích của hồ dữ liệu, cho phép kho dữ liệu hoạt động vượt trội ở cả khối lượng công việc phân tích và máy học.


Data lakehouse có lợi ích là giảm tốn kém chi phí
Data lakehouse có lợi ích là giảm tốn kém chi phí

Các thành phần của Kiến trúc Data Lakehouse

Kiến trúc data lakehouse thường bao gồm năm thành phần sau.

Lưu trữ

Lưu trữ là thành phần đầu tiên của một hồ dữ liệu. Đây là nơi dữ liệu hạ cánh sau khi nhập từ các hệ thống hoạt động. Các kho có sẵn từ ba nhà cung cấp dịch vụ đám mây - Amazon S3, Azure Blob Storage và Google Cloud Storage - hỗ trợ lưu trữ bất kỳ loại dữ liệu nào và tạo điều kiện thuận lợi cho hiệu suất và bảo mật cần thiết. Các hệ thống này cũng rất có thể mở rộng và không tốn kém, giúp hợp lý hóa chi phí.

Định dạng tệp

Thành phần tiếp theo là nơi lưu trữ dữ liệu thực tế. Thông thường, chúng là các định dạng cột mang lại lợi thế đáng kể trong việc đọc dữ liệu hoặc chia sẻ dữ liệu giữa nhiều hệ thống. Các định dạng tệp phổ biến bao gồm Apache Parquet, ORC, Apache Arrow, v.v. Các tệp này được lưu trữ trong bộ lưu trữ đối tượng.

Định dạng bảng

Định dạng bảng data lake là thành phần quan trọng nhất của kiến trúc lakehouse. Phải có một số cách để sắp xếp và quản lý tất cả các tệp dữ liệu thô trong kho lưu trữ hồ dữ liệu. Các định dạng bảng giúp trừu tượng hóa độ phức tạp của cấu trúc dữ liệu vật lý và cho phép các công cụ khác nhau hoạt động đồng thời trên cùng một dữ liệu. Định dạng bảng trong kiến trúc lakehouse tạo điều kiện thuận lợi cho khả năng thực hiện các giao dịch cấp kho dữ liệu (DML) cùng với các đảm bảo ACID. Một số tính năng quan trọng khác của định dạng bảng là tiến hóa lược đồ, SQL biểu cảm, nén dữ liệu, v.v. Apache Iceberg, Hudi và Delta Lake là ba định dạng bảng phổ biến nhất và đang đạt được đà phát triển rộng rãi.


Kiến trúc data lakehouse bao gồm năm thành phần
Kiến trúc data lakehouse bao gồm năm thành phần

Công cụ truy vấn

Các định dạng bảng cung cấp các thông số kỹ thuật và API cần thiết để tương tác với dữ liệu bảng. Tuy nhiên, trách nhiệm xử lý dữ liệu và cung cấp hiệu suất đọc hiệu quả thuộc về công cụ truy vấn. Một số công cụ truy vấn cũng cho phép kết nối riêng với các công cụ BI như Tableau, giúp dễ dàng thực hiện báo cáo trực tiếp trên dữ liệu được lưu trữ trong bộ lưu trữ. Các công cụ truy vấn như Dremio Sonar và Apache Spark hoạt động trơn tru với các định dạng bảng như Apache Iceberg để kích hoạt kiến trúc Data lakehouse mạnh mẽ bằng cách sử dụng các ngôn ngữ thường được sử dụng như SQL.

Ứng dụng

Thành phần cuối cùng của data lakehouse là các ứng dụng hạ nguồn tương tác với dữ liệu. Chúng bao gồm các công cụ BI như Tableau và Power BI cũng như các khung máy học như TensorFlow, PyTorch, v.v., giúp các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư ML dễ dàng truy cập trực tiếp vào dữ liệu. Thông thường, việc này mất hàng tuần, nếu không muốn nói là hàng tháng, trong các kiến trúc dữ liệu khác.

Data lakehouse hay hồ dữ liệu là phương pháp quản lý dữ liệu hiệu quả của nhiều đơn vị hiện nay. Data lakehouse hiện được ứng dụng khá phổ biến.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Ứng dụng AI trong “số hoá” bất động sản, Meey Group gây ấn tượng tại Diễn đàn Chuyển đổi số Hải Phòng 2024

Chưa thể cấm ngay Temu, 1688 và Shein, Bộ Công Thương và Tổng cục Thuế nói gì?

Mạng 5G lúc nhanh, lúc chậm: Viettel lý giải nguyên nhân?

Tin mới cập nhật

Giá nhà tăng cao, người dân nên hạ tiêu chuẩn để dễ tiếp cận

37 phút trước

Thị trường chung cư TP.HCM: Giao dịch chậm vì nhiều nhà đầu tư “kẹt vốn”

37 phút trước

Hà Nội duyệt quy hoạch đô thị có trường đua ngựa 420 triệu USD

38 phút trước

Coi chừng đầu tư chứng khoán qua AI

39 phút trước

TS. Vũ Đình Ánh: Có kiểu cho vay mua bất động sản nhưng "ẩn mình" dưới gói vay tiêu dùng

39 phút trước