Data lakehouse là gì? Những ưu điểm của data lakehouse
BÀI LIÊN QUAN
Data science as a service là gì? Những điều bạn cần biết về DSaaSData stewardship là gì? Lợi ích của việc quản lý dữ liệuData splitting là gì? Tỷ lệ Train/Dev/Test phù hợp nhấtData lakehouse là gì?
Data lakehouse nghĩa là hồ dữ liệu có tính linh hoạt và tiết kiệm chi phí lưu trữ dữ liệu với khả năng truy vấn dữ liệu theo ngữ cảnh và tốc độ cao.
Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc và cung cấp nguồn thông tin xác thực cho các tổ chức. Tuy nhiên, các tổ chức phải cấu trúc và lưu trữ dữ liệu đầu vào ở một định dạng cụ thể để cho phép các quy trình trích xuất, chuyển đổi và tải cũng như truy vấn dữ liệu này một cách hiệu quả.
Trong khi đó, hồ dữ liệu là môi trường linh hoạt có thể lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở dạng nguyên bản, thô. Cách tiếp cận này cho phép các tổ chức sử dụng dữ liệu này để xây dựng các mô hình trí tuệ nhân tạo (AI) và máy học từ khối lượng lớn các tập dữ liệu khác nhau. Tuy nhiên, không giống như kho dữ liệu, dữ liệu không được chuyển đổi trước khi hạ cánh ở trong bộ lưu trữ. Vì vậy, việc sử dụng có thể trở nên quá tải nếu các tổ chức không quản lý cẩn thận.
Data Lakehouse hoạt động như thế nào?
Data lakehouses thường cung cấp hỗ trợ cho việc nhập dữ liệu thông qua nhiều phương pháp. Chúng bao gồm các giao diện lập trình ứng dụng, phát trực tuyến, v.v. Dữ liệu này xuất hiện ở dạng thô, nguyên bản mà không yêu cầu giải mã lược đồ. Kho dữ liệu cung cấp lớp lưu trữ tiết kiệm chi phí cho cả dữ liệu có cấu trúc và phi cấu trúc. Do đó, nó chứa tất cả dữ liệu của một tổ chức.
Nói chung, công nghệ lưu trữ phân loại dữ liệu thành các vùng hạ cánh, vùng thô và được quản lý tùy thuộc vào mức độ sẵn sàng sử dụng của nó. Kết quả là nhận lại là nguồn thông tin chính xác duy nhất và cho phép các công ty tận dụng tối đa khả năng phân tích dữ liệu nâng cao cùng một lúc.
Trong mô hình kho dữ liệu, trước tiên, các tổ chức di chuyển dữ liệu từ các nguồn vào trong kho dữ liệu. Sau đó, một tập hợp con của dữ liệu này sẽ lọc liền mạch để trở thành các tập dữ liệu được quản lý và trở nên đáng tin cậy hơn, trong đó các tổ chức đặt các quy tắc quản trị, sử dụng và truy cập dữ liệu bắt buộc.
Các tính năng của một data lakehouse là gì?
Mặc dù các chi tiết cụ thể của kho dữ liệu khác nhau dựa trên mục tiêu kinh doanh và trường hợp sử dụng, năm tính năng sau đây là cơ bản:
- Nhập dữ liệu. Data lakehouses nhập khối lượng dữ liệu có cấu trúc và phi cấu trúc lớn với tốc độ rất cao ở dạng nguyên bản, thô của chúng. Các công nghệ mở giúp dễ dàng nhập khối lượng lớn dữ liệu kinh doanh, tăng cường khả năng bảo mật và khả năng quan sát.
- Quản lý dữ liệu. Kho lưu trữ dữ liệu tận dụng các kho lưu trữ đối tượng chi phí thấp như AWS S3 hoặc Microsoft Azure Blob Storage để lưu trữ và quản lý dữ liệu một cách hiệu quả về chi phí.
- Ngôn ngữ truy vấn. Data lakehouses cung cấp một cách để thẩm vấn dữ liệu và gửi hướng dẫn xử lý dưới dạng truy vấn. Hiệu suất của các truy vấn này cần phải ở mức mà chúng có thể hỗ trợ các trường hợp sử dụng phân tích đặc biệt.
- Xử lý song song hàng loạt. Data lakehouses cung cấp phản hồi truy vấn với độ trễ tối thiểu. Điều này đơn giản là không thể với các kiến trúc thông thường. Xử lý song song ồ ạt cho phép thực hiện truy vấn phân tán bởi nhiều bộ xử lý để tăng tốc độ phản hồi.
- Hỗ trợ khối lượng công việc phân tích đa dạng. Kho dữ liệu hỗ trợ nhiều trường hợp sử dụng xung quanh phân tích và học máy, chẳng hạn như phân tích khám phá để trả lời các câu hỏi đặc biệt.
Những lợi thế của một hồ dữ liệu là gì?
Những lợi thế phổ biến nhất của data lakehouses bao gồm:
- Giảm dự phòng. Vì data lakehouse kết hợp các chức năng của hồ và kho dữ liệu nên chúng cung cấp một nền tảng lưu trữ đa năng có thể xử lý mọi loại dữ liệu. Do đó, các tổ chức có thể tránh xa các mô hình kho-hồ kết hợp xem dữ liệu được sao chép để đảm bảo khả năng truy cập.
- Kiểm soát chi phí. Bằng cách sử dụng các giải pháp lưu trữ đối tượng được tiêu chuẩn hóa, kho dữ liệu mang lại hiệu quả chi phí và khả năng kiểm soát giống như kho dữ liệu. Thêm vào mô hình kho lưu trữ nguồn đơn của kho dữ liệu và doanh nghiệp có thể hợp nhất dữ liệu để kiểm soát chi phí.
- Cải thiện quản trị. Các mô hình Lakehouse ưu tiên bảo mật dữ liệu và giúp dễ dàng áp dụng các cơ chế quản trị cho phép mọi người làm việc với dữ liệu họ cần, nhưng cũng tuân thủ các tiêu chuẩn tuân thủ quy định ở quy mô toàn cầu.
Nhược điểm của data lakehouse
- Mặc dù các data lakehouse cho phép các tổ chức lưu trữ bất kỳ khối lượng hoặc loại dữ liệu nào mà không cần xem xét cấu trúc hoặc chi phí lưu trữ, nhưng chất lượng và quản trị của chúng vẫn là những vấn đề quan trọng. Nếu dữ liệu không được quản lý đúng cách, nó có thể dẫn đến việc hồ dữ liệu trở thành đầm lầy.
- Cách tiếp cận này dẫn đến các bản sao dữ liệu bổ sung vì dữ liệu trước tiên được trích xuất và tải vào data lakehouse, sau đó cần được trích xuất và tải vào kho dữ liệu cho các ứng dụng xuôi dòng (chẳng hạn như BI). Điều này cũng có thể dẫn đến nhiều lỗi công việc hơn và cuối cùng ảnh hưởng đến các ứng dụng hạ lưu.
- Vì dữ liệu được lưu trữ ở định dạng thô và được viết bởi nhiều công cụ và phương pháp khác nhau nên các tệp có thể không được tối ưu hóa cho các công cụ truy vấn và ứng dụng phân tích sẽ có độ trễ thấp.
Data warehouse so với data lake so với data lakehouse: Đâu là sự khác biệt?
Mặc dù data lakehouse kết hợp tính linh hoạt và hiệu quả chi phí của data lake với khả năng truy vấn của data warehouse, nhưng điều quan trọng là phải hiểu các môi trường lưu trữ này khác nhau như thế nào.
Data warehouse
Kho dữ liệu là tùy chọn lưu trữ dữ liệu lớn ban đầu. Được thiết kế để cung cấp một nguồn thông tin chính xác duy nhất cho dữ liệu có cấu trúc, chúng cung cấp một cách để các tổ chức đơn giản hóa việc quản lý dữ liệu bằng cách tập trung đầu vào. Mặc dù họ cực kỳ thành thạo chức năng này, nhưng họ lại thiếu tính linh hoạt của các hậu duệ hồ dữ liệu của mình.
Data lake
Data lake đã phát triển như một cách để quản lý đồng thời dữ liệu có cấu trúc và phi cấu trúc tốt hơn. Các hồ này rất linh hoạt và cho phép các công ty lưu trữ dữ liệu ở dạng gốc. Đổi lại, điều này trao quyền cho khoa học dữ liệu chuyên sâu hơn và giảm tổng chi phí quản lý dữ liệu.
Data lakehouse
Data lakehouse kết hợp các khía cạnh chính của hồ dữ liệu và kho dữ liệu. Điều này cho phép các doanh nghiệp sử dụng mô hình kho dữ liệu như một kho lưu trữ để lưu trữ hợp nhất dữ liệu mà không phải hy sinh tính linh hoạt phân tích của hồ dữ liệu, cho phép kho dữ liệu hoạt động vượt trội ở cả khối lượng công việc phân tích và máy học.
Các thành phần của Kiến trúc Data Lakehouse
Kiến trúc data lakehouse thường bao gồm năm thành phần sau.
Lưu trữ
Lưu trữ là thành phần đầu tiên của một hồ dữ liệu. Đây là nơi dữ liệu hạ cánh sau khi nhập từ các hệ thống hoạt động. Các kho có sẵn từ ba nhà cung cấp dịch vụ đám mây - Amazon S3, Azure Blob Storage và Google Cloud Storage - hỗ trợ lưu trữ bất kỳ loại dữ liệu nào và tạo điều kiện thuận lợi cho hiệu suất và bảo mật cần thiết. Các hệ thống này cũng rất có thể mở rộng và không tốn kém, giúp hợp lý hóa chi phí.
Định dạng tệp
Thành phần tiếp theo là nơi lưu trữ dữ liệu thực tế. Thông thường, chúng là các định dạng cột mang lại lợi thế đáng kể trong việc đọc dữ liệu hoặc chia sẻ dữ liệu giữa nhiều hệ thống. Các định dạng tệp phổ biến bao gồm Apache Parquet, ORC, Apache Arrow, v.v. Các tệp này được lưu trữ trong bộ lưu trữ đối tượng.
Định dạng bảng
Định dạng bảng data lake là thành phần quan trọng nhất của kiến trúc lakehouse. Phải có một số cách để sắp xếp và quản lý tất cả các tệp dữ liệu thô trong kho lưu trữ hồ dữ liệu. Các định dạng bảng giúp trừu tượng hóa độ phức tạp của cấu trúc dữ liệu vật lý và cho phép các công cụ khác nhau hoạt động đồng thời trên cùng một dữ liệu. Định dạng bảng trong kiến trúc lakehouse tạo điều kiện thuận lợi cho khả năng thực hiện các giao dịch cấp kho dữ liệu (DML) cùng với các đảm bảo ACID. Một số tính năng quan trọng khác của định dạng bảng là tiến hóa lược đồ, SQL biểu cảm, nén dữ liệu, v.v. Apache Iceberg, Hudi và Delta Lake là ba định dạng bảng phổ biến nhất và đang đạt được đà phát triển rộng rãi.
Công cụ truy vấn
Các định dạng bảng cung cấp các thông số kỹ thuật và API cần thiết để tương tác với dữ liệu bảng. Tuy nhiên, trách nhiệm xử lý dữ liệu và cung cấp hiệu suất đọc hiệu quả thuộc về công cụ truy vấn. Một số công cụ truy vấn cũng cho phép kết nối riêng với các công cụ BI như Tableau, giúp dễ dàng thực hiện báo cáo trực tiếp trên dữ liệu được lưu trữ trong bộ lưu trữ. Các công cụ truy vấn như Dremio Sonar và Apache Spark hoạt động trơn tru với các định dạng bảng như Apache Iceberg để kích hoạt kiến trúc Data lakehouse mạnh mẽ bằng cách sử dụng các ngôn ngữ thường được sử dụng như SQL.
Ứng dụng
Thành phần cuối cùng của data lakehouse là các ứng dụng hạ nguồn tương tác với dữ liệu. Chúng bao gồm các công cụ BI như Tableau và Power BI cũng như các khung máy học như TensorFlow, PyTorch, v.v., giúp các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư ML dễ dàng truy cập trực tiếp vào dữ liệu. Thông thường, việc này mất hàng tuần, nếu không muốn nói là hàng tháng, trong các kiến trúc dữ liệu khác.
Data lakehouse hay hồ dữ liệu là phương pháp quản lý dữ liệu hiệu quả của nhiều đơn vị hiện nay. Data lakehouse hiện được ứng dụng khá phổ biến.