meeyland app
Meey Land
Cổng thông tin bất động sản xác thực 4.0
Tải ứng dụng

Data set là gì? Những điều cần biết về data set

Thứ năm, 24/11/2022-09:11
Chìa khóa để có thể gặt hái được thành công trong lĩnh vực học máy (machine learning) hoặc trở thành một nhà khoa học dữ liệu tài năng, thành công là thực hành với các loại bộ dữ liệu (dataset) đa dạng, khác nhau. Nhưng việc có thể thiết lập được một tập dữ liệu chuẩn, phù hợp nhất cho từng dự án học máy thực sự sẽ là một nhiệm vụ quan trọng và đặc biệt khó khăn.

Dataset là gì?

Dataset là một tập hợp các dữ liệu. Dataset tương ứng với những nội dung có ở trong một bảng cơ sở dữ liệu hoặc là một ma trận của các dữ liệu thống kê, trong đó mỗi cột của bảng tính sẽ là đại diện cho một biến cụ thể nhất định và mỗi hàng đều sẽ tương ứng với một thành viên cụ thể nhất định nào đó của một tập dữ liệu được đề cập đến.

Trong những dự án máy học, người dùng sẽ cần đến một tập thông tin dữ liệu đào tạo. Đây là tập dữ liệu thực tế đang được sử dụng để thực hiện việc huấn luyện mô hình thực hiện những hành động, hoạt động vận hành khác nhau. DataSet là một bước phát triển vô cùng mạnh mẽ trong việc nghiên cứu phát triển các phần mềm cơ sở dữ liệu đa hệ. 


Data set là một tập hợp của các dữ liệu
Data set là một tập hợp của các dữ liệu

Vì sao cần dataset trong học máy?

Học máy có sự phụ thuộc rất lớn vào các dữ liệu, nếu như không có những dữ liệu cụ thể thì trí tuệ nhân tạo AI không thể học được. Đây là khía cạnh quan trọng nhất giúp cho việc thực hiện đào tạo những thuật toán có thể thực hiện dễ dàng. Cho dù người dùng có một nhóm trí tuệ thông minh với tập hợp của nhiều nhân tài hay quy mô tập dữ liệu lớn đến đâu, nhưng nếu tập hợp dữ liệu không đủ chất lượng, thì toàn bộ dự án AI sẽ hoàn toàn thất bại.

Trong quá trình phát triển trí tuệ nhân tạo AI, người dùng luôn cần phải dựa vào thông tin dữ liệu. Từ việc nghiên cứu đào tạo, điều chỉnh, sửa đổi lựa chọn mô hình để kiểm tra, người dùng có thể sử dụng ba bộ dữ liệu khác nhau, bao gồm: bộ đào tạo (training set), bộ thử nghiệm (testing set) và bộ xác thực (validation set). Validation set sẽ được sử dụng để từ đó có thể lựa chọn và điều chỉnh, chỉnh sửa lại mô hình máy học (machine learning) cuối cùng.

Nhiều người cho rằng việc thu thập thông tin dữ liệu là đủ nhưng trên thực tế thì hoàn toàn ngược lại. Trong mọi dự án trí tuệ thông minh nhân tạo AI, việc tìm kiếm phân loại và gắn nhãn cho những tập tin dữ liệu đã chiếm phần lớn thời gian của người dùng, đặc biệt là những tập dữ liệu chất lượng đủ chính xác để từ đó có thể phản ánh được rõ ràng nhất tầm nhìn thực tế về thị trường và thế giới.


Có 3 loại data set khác nhau được sử dụng trong học máy
Có 3 loại data set khác nhau được sử dụng trong học máy

Các loại dataset sử dụng trong học máy

Có 3 loại datasets được sử dụng trong học máy:

Bộ dữ liệu huấn luyện – training set

Tập dữ liệu huấn luyện training set là một tập hợp sử dụng để huấn luyện các thuật toán có thể hiểu được cách áp dụng những khái niệm như học tập thông tin và tạo ra những kết quả phù hợp. Nó bao gồm tất cả những dữ liệu đầu vào và những dữ liệu đầu ra dự kiến.

Tập hợp đào tạo chiếm tỷ lệ phần lớn ở trong tổng số dữ liệu là khoảng 60%. Trong các cuộc thử nghiệm, những mô hình phù hợp với những thông số dữ liệu trong một quá trình sẽ được gọi là phương thức điều chỉnh trọng lượng (adjusting weights).

Bộ xác thực – Validation set

Để mô hình được đào tạo bài bản khoa học, nó cần phải được đánh giá thường xuyên định kỳ và đó cũng chính xác là mục đích cụ thể nhất của bộ xác thực (validation set). Thông qua việc tính toán những tổn thất (tức là tỷ lệ mắc lỗi) mà mô hình đem lại dựa trên bộ xác thực ở bất cứ điểm nào đã được cho, người dùng có thể biết được độ chính xác của dữ liệu.

Đây là bản chất thực tế của việc đào tạo. Sau đó, mô hình này sẽ thực hiện việc điều chỉnh những tham số của nó dựa vào những kết quả chính xác đã được đánh giá một cách thường xuyên dựa trên validation set. Bộ xác thực chiếm tỷ lệ khoảng 20 phần trăm các dữ liệu được sử dụng.

Bộ dữ liệu thử nghiệm – testing set

Tập dữ liệu thử nghiệm sẽ được sử dụng để làm nhiệm vụ đánh giá thuật toán của người dùng được đào tạo tốt, chất lượng như thế nào với các tập dữ liệu đào tạo.

Trong các dự án trí tuệ thông minh AI, người dùng không thể sử dụng các tập dữ liệu đào tạo ở trong bước giai đoạn thử nghiệm vì thuật toán có thể sẽ biết trước được những kết quả mong đợi không phải là mục tiêu chính của người dùng.

Bộ dữ liệu thử nghiệm sẽ chiếm tỷ lệ 20% dữ liệu. Bộ thử nghiệm được đảm bảo là những dữ liệu đầu vào sẽ được nhóm lại với nhau, cùng với đó những dữ liệu đầu ra có tính chính xác cao, đã được xác minh cụ thể.


Có nhiều nguồn dataset cho học máy giúp khai thác thông tin dữ liệu cần thiết
Có nhiều nguồn dataset cho học máy giúp khai thác thông tin dữ liệu cần thiết

Những nguồn dataset dành cho học máy

Dưới đây là top những nguồn dataset dành cho học máy như:

Kaggle

Kaggle được cập nhật dữ liệu bởi cộng đồng của những người hoạt động làm việc ở trong lĩnh vực ML, trí tuệ thông minh AI mỗi ngày, đây là một trong những thư viện tập dữ liệu trực tuyến lớn nhất trên thế giới hiện nay.

Kaggle là một nền tảng machine learning dựa vào cộng đồng. Website này có chứa rất nhiều những hướng dẫn khác nhau, bao gồm hàng trăm các vấn đề cụ thể về machine learning trong những lĩnh vực khác nhau trong cuộc sống thực.

Tuy nhiên người dùng không thể kỳ vọng rằng chất lượng của tất cả những dữ liệu được đưa ra là chất lượng tốt giống nhau. Tuy nhiên, tất cả những dữ liệu là hoàn toàn miễn phí. Bất cứ ai cũng có thể tải lên tập dữ liệu của riêng mình lên trang web đó.

Papers with Code

Papers With Code là một nguồn tài nguyên hữu ích, thú vị về những nghiên cứu trong các xu hướng mới về học máy machine learning cùng với các mã code để triển khai. Trang web này được tạo nên bởi Robert Stojnic, Giám đốc điều hành Atlas ML. Papers With Code cho phép người dùng có thể so sánh đối chiếu một bài báo máy học ở trên arXiv với các mã code của nó ở trên GitHub, điều này có thể giúp người dùng dễ dàng xem lại nội dung thông tin từ nhiều góc độ khác nhau.

UCI Machine Learning Repository

UCI Machine Learning Repository (Kho lưu trữ Học máy UCI) là một trong những nguồn tập tin dữ liệu tồn tại lâu đời nhất trên hệ thống web và đây cũng là điểm dừng đầu tiên vô cùng hữu ích, tuyệt vời khi tìm kiếm ra những tập dữ liệu cần thiết.

Tập dữ liệu này do nhiều người dùng cùng nhau đóng góp, tải lên vậy nên do đó mức độ sạch của chúng là khác nhau, nhưng đại đa số chúng đều có chất lượng tốt như nhau. Bạn có thể tải xuống các tập dữ liệu trực tiếp từ trong kho của trang web UCI Machine Learning mà không cần phải tiến hành đăng ký.

Registry of Open Data on AWS

Trong Sổ đăng ký dữ liệu mở trên AWS (Registry of Open Data on AWS) , bất cứ ai cũng có thể thực hiện việc chia sẻ các tập dữ liệu hoặc có thể tìm kiếm tập dữ liệu mà họ đang cần. Bạn có thể thực hiện công việc nghiên cứu dựa trên những dữ liệu thông tin mà bạn đã tìm thấy cùng với sự trợ giúp của công cụ hỗ trợ phân tích dữ liệu của Amazon.

Trong số những người có thể tạo cơ sở dữ liệu, bạn sẽ có thể tìm thấy những dữ liệu Facebook Tốt (Facebook Data for Good), Viện Khoa học quản lý Kính viễn vọng Không gian, Thỏa thuận đạo luật Không gian của cơ quan hàng không NASA (NASA Space Act Agreement) và nhiều nguồn thông tin dữ liệu hữu ích khác.

Google Dataset Search

Công cụ tìm kiếm các tập tin dữ liệu của trang Google (Google dataset search engine) là công cụ tìm kiếm thông tin được hãng Google cho ra mắt vào thời điểm ngày 5 tháng 9 năm 2018. Nguồn này sẽ giúp cho các nhà nghiên cứu có thể tìm được những tập tin dữ liệu online trực tuyến có sẵn miễn phí trên nền tảng chung để có thể sử dụng theo ý muốn.

Bạn cũng có thể tìm thấy được những bộ dữ liệu thông tin được tải lên bởi những đơn vị tổ chức quốc tế như Tổ chức Y tế Thế giới, Statistic và trường Đại học Harvard.

Microsoft Datasets

Microsoft đã cho ra mắt kho lưu trữ “Dữ liệu mở trong Nghiên cứu của Microsoft (Microsoft Research Open data) ” với việc thực hiện thu thập những bộ thông tin dữ liệu miễn phí trong những lĩnh vực đời sống khác nhau như xử lý về ngôn ngữ tự nhiên, công nghệ thị giác máy tính và khoa học theo từng lĩnh vực cụ thể.

Sử dụng nguồn tài nguyên này, người dùng có thể thực hiện tải xuống các bộ dữ liệu để từ đó sử dụng dễ dàng ở trên thiết bị hiện tại hoặc cũng có thể là sử dụng nghiên cứu trực tiếp ở trên hệ thống cơ sở hạ tầng đám mây.

Ngoài ra Microsoft còn có thêm Azure Public Datasets, nơi thường xuyên có thể cập nhật những cơ sở dữ liệu mới cho những nhà phát triển và những nhà nghiên cứu phần mềm ứng dụng. Azure Public Datasets chứa đựng những dữ liệu thông tin của cơ quan Chính phủ Mỹ, các dữ liệu thống kê và lĩnh vực khoa học khác cũng như dữ liệu thông tin dịch vụ trực tuyến mà công ty Microsoft thu thập về những người dùng của mình.

Reddit datasets

Trong subreddit datasets, bất cứ ai cũng có thể thực hiện việc xuất bản cơ sở dữ liệu mã nguồn mở của họ. Người dùng có thể truy cập vào đó, tìm ra một tập dữ liệu mà người dùng cần tìm

CMU Libraries

Đại học Carnegie Mellon có sở hữu một bộ sưu tập dữ liệu công khai mà người dùng có thể thoải mái sử dụng cho công việc nghiên cứu của riêng mình. Ở đó, người dùng sẽ dễ dàng tìm thấy những cơ sở thông tin dữ liệu sâu sắc, chi tiết về các lĩnh vực văn hóa, âm nhạc và lịch sử Hoa Kỳ mà ở các trang web khác không có thông tin.

YouTube Dataset

Tập dữ liệu YouTube là tập dữ liệu những video đa dạng, bao gồm hơn 7 triệu video với 4716 lớp được gắn nhãn bởi một loạt các hệ thống chú thích (annotation system). Tập dữ liệu này bao gồm có ba phần: tập huấn luyện, tập xác nhận và tập kiểm tra. Dựa trên thông tin hình ảnh, video của Youtube được chia ra thành 24 chủ đề, chẳng hạn như thể thao, nấu ăn, trò chơi, nghệ thuật và giải trí, v.v.

Các bộ dữ liệu data set là điều không thể thiếu ở trong những dự án về máy học. Có rất nhiều nguồn dữ liệu data set mà người dùng có thể tìm kiếm thông tin mình cần.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Ứng dụng AI trong “số hoá” bất động sản, Meey Group gây ấn tượng tại Diễn đàn Chuyển đổi số Hải Phòng 2024

Chưa thể cấm ngay Temu, 1688 và Shein, Bộ Công Thương và Tổng cục Thuế nói gì?

Mạng 5G lúc nhanh, lúc chậm: Viettel lý giải nguyên nhân?

Tin mới cập nhật

Hà Nội: Năm 2025 nguồn cung căn hộ bất ngờ giảm nhẹ

17 giờ trước

Thủ tục pháp lý “cản bước” M&A bất động sản

17 giờ trước

Cho vay mua nhà dự kiến sẽ tăng trưởng 15% trong năm 2025

17 giờ trước

Bất động sản nghỉ dưỡng vẫn "nằm im" trong cuộc đua phục hồi

17 giờ trước

Nhà sản xuất thiết bị bán dẫn Trung Quốc bất ngờ được loại khỏi “danh sách đen” của Mỹ

17 giờ trước