Yêu thích Lịch sử Thông báo

Trang chủ Chuyển đổi số

Meey Land

Cổng thông tin bất động sản xác thực 4.0

Tải ứng dụng

Data lakehouse là gì? Những ưu điểm của data lakehouse

Thứ tư, 04/01/2023-08:01

Data lakehouse là một khái niệm giải pháp dữ liệu kết hợp các yếu tố của kho dữ liệu với các yếu tố của hồ dữ liệu. Data lakehouse triển khai cấu trúc dữ liệu của kho dữ liệu và các tính năng quản lý cho kho dữ liệu, thường tiết kiệm chi phí hơn cho việc lưu trữ dữ liệu. Data lakehouse rất hữu ích cho các nhà khoa học dữ liệu vì chúng cho phép học máy hiệu quả và kinh doanh thông minh.

BÀI LIÊN QUAN

Data science as a service là gì? Những điều bạn cần biết về DSaaS

Data stewardship là gì? Lợi ích của việc quản lý dữ liệu

Data splitting là gì? Tỷ lệ Train/Dev/Test phù hợp nhất

Data lakehouse là gì?

Data lakehouse nghĩa là hồ dữ liệu có tính linh hoạt và tiết kiệm chi phí lưu trữ dữ liệu với khả năng truy vấn dữ liệu theo ngữ cảnh và tốc độ cao.

Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc và cung cấp nguồn thông tin xác thực cho các tổ chức. Tuy nhiên, các tổ chức phải cấu trúc và lưu trữ dữ liệu đầu vào ở một định dạng cụ thể để cho phép các quy trình trích xuất, chuyển đổi và tải cũng như truy vấn dữ liệu này một cách hiệu quả.

Trong khi đó, hồ dữ liệu là môi trường linh hoạt có thể lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc ở dạng nguyên bản, thô. Cách tiếp cận này cho phép các tổ chức sử dụng dữ liệu này để xây dựng các mô hình trí tuệ nhân tạo (AI) và máy học từ khối lượng lớn các tập dữ liệu khác nhau. Tuy nhiên, không giống như kho dữ liệu, dữ liệu không được chuyển đổi trước khi hạ cánh ở trong bộ lưu trữ. Vì vậy, việc sử dụng có thể trở nên quá tải nếu các tổ chức không quản lý cẩn thận.

Data exploration là gì? Vì sao công cụ này đóng vai trò quan trọng

Tất cả các doanh nghiệp ngày nay đều phải đối mặt với những tập dữ liệu thô khổng lồ đến từ nhiều nguồn. Thông thường, cần phải “làm sạch” chúng bằng cách áp dụng các mẫu quy tắc cụ thể về ngày tháng, dấu thời gian, v.v. cho từng loại dữ liệu. Data exploration là một quá trình sẽ giúp các chuyên gia của bạn tìm hiểu thêm về thông tin kinh doanh mà bạn luôn thu thập và sử dụng thông tin đó hiệu quả hơn.

Data lakehouse cung cấp một kho lưu trữ duy nhất cho dữ liệu có cấu trúc

Data Lakehouse hoạt động như thế nào?

Data lakehouses thường cung cấp hỗ trợ cho việc nhập dữ liệu thông qua nhiều phương pháp. Chúng bao gồm các giao diện lập trình ứng dụng, phát trực tuyến, v.v. Dữ liệu này xuất hiện ở dạng thô, nguyên bản mà không yêu cầu giải mã lược đồ. Kho dữ liệu cung cấp lớp lưu trữ tiết kiệm chi phí cho cả dữ liệu có cấu trúc và phi cấu trúc. Do đó, nó chứa tất cả dữ liệu của một tổ chức.

Nói chung, công nghệ lưu trữ phân loại dữ liệu thành các vùng hạ cánh, vùng thô và được quản lý tùy thuộc vào mức độ sẵn sàng sử dụng của nó. Kết quả là nhận lại là nguồn thông tin chính xác duy nhất và cho phép các công ty tận dụng tối đa khả năng phân tích dữ liệu nâng cao cùng một lúc.

Trong mô hình kho dữ liệu, trước tiên, các tổ chức di chuyển dữ liệu từ các nguồn vào trong kho dữ liệu. Sau đó, một tập hợp con của dữ liệu này sẽ lọc liền mạch để trở thành các tập dữ liệu được quản lý và trở nên đáng tin cậy hơn, trong đó các tổ chức đặt các quy tắc quản trị, sử dụng và truy cập dữ liệu bắt buộc.

Các tính năng của một data lakehouse là gì?

Mặc dù các chi tiết cụ thể của kho dữ liệu khác nhau dựa trên mục tiêu kinh doanh và trường hợp sử dụng, năm tính năng sau đây là cơ bản:

Nhập dữ liệu. Data lakehouses nhập khối lượng dữ liệu có cấu trúc và phi cấu trúc lớn với tốc độ rất cao ở dạng nguyên bản, thô của chúng. Các công nghệ mở giúp dễ dàng nhập khối lượng lớn dữ liệu kinh doanh, tăng cường khả năng bảo mật và khả năng quan sát.
Quản lý dữ liệu. Kho lưu trữ dữ liệu tận dụng các kho lưu trữ đối tượng chi phí thấp như AWS S3 hoặc Microsoft Azure Blob Storage để lưu trữ và quản lý dữ liệu một cách hiệu quả về chi phí.
Ngôn ngữ truy vấn. Data lakehouses cung cấp một cách để thẩm vấn dữ liệu và gửi hướng dẫn xử lý dưới dạng truy vấn. Hiệu suất của các truy vấn này cần phải ở mức mà chúng có thể hỗ trợ các trường hợp sử dụng phân tích đặc biệt.
Xử lý song song hàng loạt. Data lakehouses cung cấp phản hồi truy vấn với độ trễ tối thiểu. Điều này đơn giản là không thể với các kiến trúc thông thường. Xử lý song song ồ ạt cho phép thực hiện truy vấn phân tán bởi nhiều bộ xử lý để tăng tốc độ phản hồi.
Hỗ trợ khối lượng công việc phân tích đa dạng. Kho dữ liệu hỗ trợ nhiều trường hợp sử dụng xung quanh phân tích và học máy, chẳng hạn như phân tích khám phá để trả lời các câu hỏi đặc biệt.

Data lakehouse mang đến rất nhiều lợi ích trong việc lưu trữ dữ liệu

Những lợi thế của một hồ dữ liệu là gì?

Những lợi thế phổ biến nhất của data lakehouses bao gồm:

Giảm dự phòng. Vì data lakehouse kết hợp các chức năng của hồ và kho dữ liệu nên chúng cung cấp một nền tảng lưu trữ đa năng có thể xử lý mọi loại dữ liệu. Do đó, các tổ chức có thể tránh xa các mô hình kho-hồ kết hợp xem dữ liệu được sao chép để đảm bảo khả năng truy cập.
Kiểm soát chi phí. Bằng cách sử dụng các giải pháp lưu trữ đối tượng được tiêu chuẩn hóa, kho dữ liệu mang lại hiệu quả chi phí và khả năng kiểm soát giống như kho dữ liệu. Thêm vào mô hình kho lưu trữ nguồn đơn của kho dữ liệu và doanh nghiệp có thể hợp nhất dữ liệu để kiểm soát chi phí.
Cải thiện quản trị. Các mô hình Lakehouse ưu tiên bảo mật dữ liệu và giúp dễ dàng áp dụng các cơ chế quản trị cho phép mọi người làm việc với dữ liệu họ cần, nhưng cũng tuân thủ các tiêu chuẩn tuân thủ quy định ở quy mô toàn cầu.

Nhược điểm của data lakehouse

Mặc dù các data lakehouse cho phép các tổ chức lưu trữ bất kỳ khối lượng hoặc loại dữ liệu nào mà không cần xem xét cấu trúc hoặc chi phí lưu trữ, nhưng chất lượng và quản trị của chúng vẫn là những vấn đề quan trọng. Nếu dữ liệu không được quản lý đúng cách, nó có thể dẫn đến việc hồ dữ liệu trở thành đầm lầy.
Cách tiếp cận này dẫn đến các bản sao dữ liệu bổ sung vì dữ liệu trước tiên được trích xuất và tải vào data lakehouse, sau đó cần được trích xuất và tải vào kho dữ liệu cho các ứng dụng xuôi dòng (chẳng hạn như BI). Điều này cũng có thể dẫn đến nhiều lỗi công việc hơn và cuối cùng ảnh hưởng đến các ứng dụng hạ lưu.
Vì dữ liệu được lưu trữ ở định dạng thô và được viết bởi nhiều công cụ và phương pháp khác nhau nên các tệp có thể không được tối ưu hóa cho các công cụ truy vấn và ứng dụng phân tích sẽ có độ trễ thấp.

Data warehouse so với data lake so với data lakehouse: Đâu là sự khác biệt?

Mặc dù data lakehouse kết hợp tính linh hoạt và hiệu quả chi phí của data lake với khả năng truy vấn của data warehouse, nhưng điều quan trọng là phải hiểu các môi trường lưu trữ này khác nhau như thế nào.

Data warehouse

Kho dữ liệu là tùy chọn lưu trữ dữ liệu lớn ban đầu. Được thiết kế để cung cấp một nguồn thông tin chính xác duy nhất cho dữ liệu có cấu trúc, chúng cung cấp một cách để các tổ chức đơn giản hóa việc quản lý dữ liệu bằng cách tập trung đầu vào. Mặc dù họ cực kỳ thành thạo chức năng này, nhưng họ lại thiếu tính linh hoạt của các hậu duệ hồ dữ liệu của mình.

Data lake

Data lake đã phát triển như một cách để quản lý đồng thời dữ liệu có cấu trúc và phi cấu trúc tốt hơn. Các hồ này rất linh hoạt và cho phép các công ty lưu trữ dữ liệu ở dạng gốc. Đổi lại, điều này trao quyền cho khoa học dữ liệu chuyên sâu hơn và giảm tổng chi phí quản lý dữ liệu.

Data lakehouse

Data lakehouse kết hợp các khía cạnh chính của hồ dữ liệu và kho dữ liệu. Điều này cho phép các doanh nghiệp sử dụng mô hình kho dữ liệu như một kho lưu trữ để lưu trữ hợp nhất dữ liệu mà không phải hy sinh tính linh hoạt phân tích của hồ dữ liệu, cho phép kho dữ liệu hoạt động vượt trội ở cả khối lượng công việc phân tích và máy học.

Data lakehouse có lợi ích là giảm tốn kém chi phí

Các thành phần của Kiến trúc Data Lakehouse

Kiến trúc data lakehouse thường bao gồm năm thành phần sau.

Lưu trữ

Lưu trữ là thành phần đầu tiên của một hồ dữ liệu. Đây là nơi dữ liệu hạ cánh sau khi nhập từ các hệ thống hoạt động. Các kho có sẵn từ ba nhà cung cấp dịch vụ đám mây - Amazon S3, Azure Blob Storage và Google Cloud Storage - hỗ trợ lưu trữ bất kỳ loại dữ liệu nào và tạo điều kiện thuận lợi cho hiệu suất và bảo mật cần thiết. Các hệ thống này cũng rất có thể mở rộng và không tốn kém, giúp hợp lý hóa chi phí.

Định dạng tệp

Thành phần tiếp theo là nơi lưu trữ dữ liệu thực tế. Thông thường, chúng là các định dạng cột mang lại lợi thế đáng kể trong việc đọc dữ liệu hoặc chia sẻ dữ liệu giữa nhiều hệ thống. Các định dạng tệp phổ biến bao gồm Apache Parquet, ORC, Apache Arrow, v.v. Các tệp này được lưu trữ trong bộ lưu trữ đối tượng.

Định dạng bảng

Định dạng bảng data lake là thành phần quan trọng nhất của kiến trúc lakehouse. Phải có một số cách để sắp xếp và quản lý tất cả các tệp dữ liệu thô trong kho lưu trữ hồ dữ liệu. Các định dạng bảng giúp trừu tượng hóa độ phức tạp của cấu trúc dữ liệu vật lý và cho phép các công cụ khác nhau hoạt động đồng thời trên cùng một dữ liệu. Định dạng bảng trong kiến trúc lakehouse tạo điều kiện thuận lợi cho khả năng thực hiện các giao dịch cấp kho dữ liệu (DML) cùng với các đảm bảo ACID. Một số tính năng quan trọng khác của định dạng bảng là tiến hóa lược đồ, SQL biểu cảm, nén dữ liệu, v.v. Apache Iceberg, Hudi và Delta Lake là ba định dạng bảng phổ biến nhất và đang đạt được đà phát triển rộng rãi.

Kiến trúc data lakehouse bao gồm năm thành phần

Công cụ truy vấn

Các định dạng bảng cung cấp các thông số kỹ thuật và API cần thiết để tương tác với dữ liệu bảng. Tuy nhiên, trách nhiệm xử lý dữ liệu và cung cấp hiệu suất đọc hiệu quả thuộc về công cụ truy vấn. Một số công cụ truy vấn cũng cho phép kết nối riêng với các công cụ BI như Tableau, giúp dễ dàng thực hiện báo cáo trực tiếp trên dữ liệu được lưu trữ trong bộ lưu trữ. Các công cụ truy vấn như Dremio Sonar và Apache Spark hoạt động trơn tru với các định dạng bảng như Apache Iceberg để kích hoạt kiến trúc Data lakehouse mạnh mẽ bằng cách sử dụng các ngôn ngữ thường được sử dụng như SQL.

Ứng dụng

Thành phần cuối cùng của data lakehouse là các ứng dụng hạ nguồn tương tác với dữ liệu. Chúng bao gồm các công cụ BI như Tableau và Power BI cũng như các khung máy học như TensorFlow, PyTorch, v.v., giúp các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư ML dễ dàng truy cập trực tiếp vào dữ liệu. Thông thường, việc này mất hàng tuần, nếu không muốn nói là hàng tháng, trong các kiến trúc dữ liệu khác.

Data lakehouse hay hồ dữ liệu là phương pháp quản lý dữ liệu hiệu quả của nhiều đơn vị hiện nay. Data lakehouse hiện được ứng dụng khá phổ biến.

Theo: Reatimes.vn

Copy link

Tạo tin đăng

Xem thêm 300+ bất động sản có liên quan tại Meeyland.com

Chia sẻ:

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Tin mới cập nhật

Data lakehouse là gì? Những ưu điểm của data lakehouse

BÀI LIÊN QUAN

Data lakehouse là gì?

Data exploration là gì? Vì sao công cụ này đóng vai trò quan trọng

Data Lakehouse hoạt động như thế nào?

Các tính năng của một data lakehouse là gì?

Những lợi thế của một hồ dữ liệu là gì?

Nhược điểm của data lakehouse

Data warehouse so với data lake so với data lakehouse: Đâu là sự khác biệt?

Data warehouse

Data lake

Data lakehouse

Các thành phần của Kiến trúc Data Lakehouse

Lưu trữ

Định dạng tệp

Định dạng bảng

Công cụ truy vấn

Ứng dụng

Cùng chủ đề

Tiết lộ bất ngờ cho thấy TikTok Live sẽ đạt doanh thu hàng năm lên tới 77 tỷ USD

EU cam kết cắt giảm thủ tục hành chính về công nghệ để theo đuổi các mục tiêu về AI

Đẩy nhanh tiến độ vận hành cơ sở dữ liệu đất đai quốc gia

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Tin được tài trợ

Đăng tin bán bất động sản miễn phí như thế nào cho hiệu quả?

Tra cứu quy hoạch toàn quốc miễn phí chỉ cần click ngay

Công cụ đơn giản cho nhà môi giới dễ dàng chốt deal nhanh giao dịch

Siêu chat chuyên biệt cho giao dịch Bất động sản 4.0

Tin mới cập nhật

Bố trí phòng giặt phơi nhỏ gọn gàng tiện lợi cho gia đình

Đá nhân tạo ốp bếp không thấm bền đẹp sang trọng

Ý nghĩa số nhà tốt xấu và cách chọn số hợp phong thủy

Tủ bếp nhôm kính giả gỗ cao cấp sang trọng bền đẹp

Chứng minh thu nhập vay mua nhà nhanh chóng và hiệu quả