Yêu thích Lịch sử Thông báo

Trang chủ Chuyển đổi số

Meey Land

Cổng thông tin bất động sản xác thực 4.0

Tải ứng dụng

Data set là gì? Những điều cần biết về data set

Thứ năm, 24/11/2022-09:11

Chìa khóa để có thể gặt hái được thành công trong lĩnh vực học máy (machine learning) hoặc trở thành một nhà khoa học dữ liệu tài năng, thành công là thực hành với các loại bộ dữ liệu (dataset) đa dạng, khác nhau. Nhưng việc có thể thiết lập được một tập dữ liệu chuẩn, phù hợp nhất cho từng dự án học máy thực sự sẽ là một nhiệm vụ quan trọng và đặc biệt khó khăn.

BÀI LIÊN QUAN

Data transformation là gì? Những yếu tố để thực hiện data transformation thành công

Data Recovery là gì? Những phần mềm giúp khôi phục dữ liệu miễn phí hiệu quả nhất

Data Warehouse là gì? Những điều cần biết về kho dữ liệu

Dataset là gì?

Dataset là một tập hợp các dữ liệu. Dataset tương ứng với những nội dung có ở trong một bảng cơ sở dữ liệu hoặc là một ma trận của các dữ liệu thống kê, trong đó mỗi cột của bảng tính sẽ là đại diện cho một biến cụ thể nhất định và mỗi hàng đều sẽ tương ứng với một thành viên cụ thể nhất định nào đó của một tập dữ liệu được đề cập đến.

Trong những dự án máy học, người dùng sẽ cần đến một tập thông tin dữ liệu đào tạo. Đây là tập dữ liệu thực tế đang được sử dụng để thực hiện việc huấn luyện mô hình thực hiện những hành động, hoạt động vận hành khác nhau. DataSet là một bước phát triển vô cùng mạnh mẽ trong việc nghiên cứu phát triển các phần mềm cơ sở dữ liệu đa hệ.

Data modeling là gì? Cách lựa chọn công cụ Data modeling cho doanh nghiệp

Data modeling có mối quan hệ vô cùng chặt chẽ, mật thiết đến các hoạt động vận hành và kinh doanh thương mại của doanh nghiệp. Nói cách khác, chúng có liên quan trực tiếp đến những nguồn thông tin và dữ liệu của các doanh nghiệp.

Data set là một tập hợp của các dữ liệu

Vì sao cần dataset trong học máy?

Học máy có sự phụ thuộc rất lớn vào các dữ liệu, nếu như không có những dữ liệu cụ thể thì trí tuệ nhân tạo AI không thể học được. Đây là khía cạnh quan trọng nhất giúp cho việc thực hiện đào tạo những thuật toán có thể thực hiện dễ dàng. Cho dù người dùng có một nhóm trí tuệ thông minh với tập hợp của nhiều nhân tài hay quy mô tập dữ liệu lớn đến đâu, nhưng nếu tập hợp dữ liệu không đủ chất lượng, thì toàn bộ dự án AI sẽ hoàn toàn thất bại.

Trong quá trình phát triển trí tuệ nhân tạo AI, người dùng luôn cần phải dựa vào thông tin dữ liệu. Từ việc nghiên cứu đào tạo, điều chỉnh, sửa đổi lựa chọn mô hình để kiểm tra, người dùng có thể sử dụng ba bộ dữ liệu khác nhau, bao gồm: bộ đào tạo (training set), bộ thử nghiệm (testing set) và bộ xác thực (validation set). Validation set sẽ được sử dụng để từ đó có thể lựa chọn và điều chỉnh, chỉnh sửa lại mô hình máy học (machine learning) cuối cùng.

Nhiều người cho rằng việc thu thập thông tin dữ liệu là đủ nhưng trên thực tế thì hoàn toàn ngược lại. Trong mọi dự án trí tuệ thông minh nhân tạo AI, việc tìm kiếm phân loại và gắn nhãn cho những tập tin dữ liệu đã chiếm phần lớn thời gian của người dùng, đặc biệt là những tập dữ liệu chất lượng đủ chính xác để từ đó có thể phản ánh được rõ ràng nhất tầm nhìn thực tế về thị trường và thế giới.

Có 3 loại data set khác nhau được sử dụng trong học máy

Các loại dataset sử dụng trong học máy

Có 3 loại datasets được sử dụng trong học máy:

Bộ dữ liệu huấn luyện – training set

Tập dữ liệu huấn luyện training set là một tập hợp sử dụng để huấn luyện các thuật toán có thể hiểu được cách áp dụng những khái niệm như học tập thông tin và tạo ra những kết quả phù hợp. Nó bao gồm tất cả những dữ liệu đầu vào và những dữ liệu đầu ra dự kiến.

Tập hợp đào tạo chiếm tỷ lệ phần lớn ở trong tổng số dữ liệu là khoảng 60%. Trong các cuộc thử nghiệm, những mô hình phù hợp với những thông số dữ liệu trong một quá trình sẽ được gọi là phương thức điều chỉnh trọng lượng (adjusting weights).

Bộ xác thực – Validation set

Để mô hình được đào tạo bài bản khoa học, nó cần phải được đánh giá thường xuyên định kỳ và đó cũng chính xác là mục đích cụ thể nhất của bộ xác thực (validation set). Thông qua việc tính toán những tổn thất (tức là tỷ lệ mắc lỗi) mà mô hình đem lại dựa trên bộ xác thực ở bất cứ điểm nào đã được cho, người dùng có thể biết được độ chính xác của dữ liệu.

Đây là bản chất thực tế của việc đào tạo. Sau đó, mô hình này sẽ thực hiện việc điều chỉnh những tham số của nó dựa vào những kết quả chính xác đã được đánh giá một cách thường xuyên dựa trên validation set. Bộ xác thực chiếm tỷ lệ khoảng 20 phần trăm các dữ liệu được sử dụng.

Bộ dữ liệu thử nghiệm – testing set

Tập dữ liệu thử nghiệm sẽ được sử dụng để làm nhiệm vụ đánh giá thuật toán của người dùng được đào tạo tốt, chất lượng như thế nào với các tập dữ liệu đào tạo.

Trong các dự án trí tuệ thông minh AI, người dùng không thể sử dụng các tập dữ liệu đào tạo ở trong bước giai đoạn thử nghiệm vì thuật toán có thể sẽ biết trước được những kết quả mong đợi không phải là mục tiêu chính của người dùng.

Bộ dữ liệu thử nghiệm sẽ chiếm tỷ lệ 20% dữ liệu. Bộ thử nghiệm được đảm bảo là những dữ liệu đầu vào sẽ được nhóm lại với nhau, cùng với đó những dữ liệu đầu ra có tính chính xác cao, đã được xác minh cụ thể.

Có nhiều nguồn dataset cho học máy giúp khai thác thông tin dữ liệu cần thiết

Những nguồn dataset dành cho học máy

Dưới đây là top những nguồn dataset dành cho học máy như:

Kaggle

Kaggle được cập nhật dữ liệu bởi cộng đồng của những người hoạt động làm việc ở trong lĩnh vực ML, trí tuệ thông minh AI mỗi ngày, đây là một trong những thư viện tập dữ liệu trực tuyến lớn nhất trên thế giới hiện nay.

Kaggle là một nền tảng machine learning dựa vào cộng đồng. Website này có chứa rất nhiều những hướng dẫn khác nhau, bao gồm hàng trăm các vấn đề cụ thể về machine learning trong những lĩnh vực khác nhau trong cuộc sống thực.

Tuy nhiên người dùng không thể kỳ vọng rằng chất lượng của tất cả những dữ liệu được đưa ra là chất lượng tốt giống nhau. Tuy nhiên, tất cả những dữ liệu là hoàn toàn miễn phí. Bất cứ ai cũng có thể tải lên tập dữ liệu của riêng mình lên trang web đó.

Papers with Code

Papers With Code là một nguồn tài nguyên hữu ích, thú vị về những nghiên cứu trong các xu hướng mới về học máy machine learning cùng với các mã code để triển khai. Trang web này được tạo nên bởi Robert Stojnic, Giám đốc điều hành Atlas ML. Papers With Code cho phép người dùng có thể so sánh đối chiếu một bài báo máy học ở trên arXiv với các mã code của nó ở trên GitHub, điều này có thể giúp người dùng dễ dàng xem lại nội dung thông tin từ nhiều góc độ khác nhau.

UCI Machine Learning Repository

UCI Machine Learning Repository (Kho lưu trữ Học máy UCI) là một trong những nguồn tập tin dữ liệu tồn tại lâu đời nhất trên hệ thống web và đây cũng là điểm dừng đầu tiên vô cùng hữu ích, tuyệt vời khi tìm kiếm ra những tập dữ liệu cần thiết.

Tập dữ liệu này do nhiều người dùng cùng nhau đóng góp, tải lên vậy nên do đó mức độ sạch của chúng là khác nhau, nhưng đại đa số chúng đều có chất lượng tốt như nhau. Bạn có thể tải xuống các tập dữ liệu trực tiếp từ trong kho của trang web UCI Machine Learning mà không cần phải tiến hành đăng ký.

Registry of Open Data on AWS

Trong Sổ đăng ký dữ liệu mở trên AWS (Registry of Open Data on AWS) , bất cứ ai cũng có thể thực hiện việc chia sẻ các tập dữ liệu hoặc có thể tìm kiếm tập dữ liệu mà họ đang cần. Bạn có thể thực hiện công việc nghiên cứu dựa trên những dữ liệu thông tin mà bạn đã tìm thấy cùng với sự trợ giúp của công cụ hỗ trợ phân tích dữ liệu của Amazon.

Trong số những người có thể tạo cơ sở dữ liệu, bạn sẽ có thể tìm thấy những dữ liệu Facebook Tốt (Facebook Data for Good), Viện Khoa học quản lý Kính viễn vọng Không gian, Thỏa thuận đạo luật Không gian của cơ quan hàng không NASA (NASA Space Act Agreement) và nhiều nguồn thông tin dữ liệu hữu ích khác.

Google Dataset Search

Công cụ tìm kiếm các tập tin dữ liệu của trang Google (Google dataset search engine) là công cụ tìm kiếm thông tin được hãng Google cho ra mắt vào thời điểm ngày 5 tháng 9 năm 2018. Nguồn này sẽ giúp cho các nhà nghiên cứu có thể tìm được những tập tin dữ liệu online trực tuyến có sẵn miễn phí trên nền tảng chung để có thể sử dụng theo ý muốn.

Bạn cũng có thể tìm thấy được những bộ dữ liệu thông tin được tải lên bởi những đơn vị tổ chức quốc tế như Tổ chức Y tế Thế giới, Statistic và trường Đại học Harvard.

Microsoft Datasets

Microsoft đã cho ra mắt kho lưu trữ “Dữ liệu mở trong Nghiên cứu của Microsoft (Microsoft Research Open data) ” với việc thực hiện thu thập những bộ thông tin dữ liệu miễn phí trong những lĩnh vực đời sống khác nhau như xử lý về ngôn ngữ tự nhiên, công nghệ thị giác máy tính và khoa học theo từng lĩnh vực cụ thể.

Sử dụng nguồn tài nguyên này, người dùng có thể thực hiện tải xuống các bộ dữ liệu để từ đó sử dụng dễ dàng ở trên thiết bị hiện tại hoặc cũng có thể là sử dụng nghiên cứu trực tiếp ở trên hệ thống cơ sở hạ tầng đám mây.

Ngoài ra Microsoft còn có thêm Azure Public Datasets, nơi thường xuyên có thể cập nhật những cơ sở dữ liệu mới cho những nhà phát triển và những nhà nghiên cứu phần mềm ứng dụng. Azure Public Datasets chứa đựng những dữ liệu thông tin của cơ quan Chính phủ Mỹ, các dữ liệu thống kê và lĩnh vực khoa học khác cũng như dữ liệu thông tin dịch vụ trực tuyến mà công ty Microsoft thu thập về những người dùng của mình.

Reddit datasets

Trong subreddit datasets, bất cứ ai cũng có thể thực hiện việc xuất bản cơ sở dữ liệu mã nguồn mở của họ. Người dùng có thể truy cập vào đó, tìm ra một tập dữ liệu mà người dùng cần tìm

CMU Libraries

Đại học Carnegie Mellon có sở hữu một bộ sưu tập dữ liệu công khai mà người dùng có thể thoải mái sử dụng cho công việc nghiên cứu của riêng mình. Ở đó, người dùng sẽ dễ dàng tìm thấy những cơ sở thông tin dữ liệu sâu sắc, chi tiết về các lĩnh vực văn hóa, âm nhạc và lịch sử Hoa Kỳ mà ở các trang web khác không có thông tin.

YouTube Dataset

Tập dữ liệu YouTube là tập dữ liệu những video đa dạng, bao gồm hơn 7 triệu video với 4716 lớp được gắn nhãn bởi một loạt các hệ thống chú thích (annotation system). Tập dữ liệu này bao gồm có ba phần: tập huấn luyện, tập xác nhận và tập kiểm tra. Dựa trên thông tin hình ảnh, video của Youtube được chia ra thành 24 chủ đề, chẳng hạn như thể thao, nấu ăn, trò chơi, nghệ thuật và giải trí, v.v.

Các bộ dữ liệu data set là điều không thể thiếu ở trong những dự án về máy học. Có rất nhiều nguồn dữ liệu data set mà người dùng có thể tìm kiếm thông tin mình cần.

Tạo tin đăng

Xem thêm 300+ bất động sản có liên quan tại Meeyland.com

Chia sẻ:

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Tin mới cập nhật

Data set là gì? Những điều cần biết về data set

BÀI LIÊN QUAN

Dataset là gì?

Data modeling là gì? Cách lựa chọn công cụ Data modeling cho doanh nghiệp

Vì sao cần dataset trong học máy?

Các loại dataset sử dụng trong học máy

Bộ dữ liệu huấn luyện – training set

Bộ xác thực – Validation set

Bộ dữ liệu thử nghiệm – testing set

Những nguồn dataset dành cho học máy

Kaggle

Papers with Code

UCI Machine Learning Repository

Registry of Open Data on AWS

Google Dataset Search

Microsoft Datasets

Reddit datasets

CMU Libraries

YouTube Dataset

Cùng chủ đề

Tiết lộ bất ngờ cho thấy TikTok Live sẽ đạt doanh thu hàng năm lên tới 77 tỷ USD

EU cam kết cắt giảm thủ tục hành chính về công nghệ để theo đuổi các mục tiêu về AI

Đẩy nhanh tiến độ vận hành cơ sở dữ liệu đất đai quốc gia

Meey Group chia sẻ kinh nghiệm về proptech tại Hội nghị Thượng đỉnh Khoa học và Kinh tế toàn cầu

Chủ nhân giải VinFuture 2024 khuyên người trẻ chấp nhận rủi ro và luôn tò mò

Liên danh FPT Nha Trang muốn làm khu đô thị công nghệ rộng hơn 50ha tại "hòn ngọc biển Đông"

Từng chỉ sống với 72 nghìn mỗi ngày, làm việc 100 giờ/tuần với 3 công việc: Nhiều năm sau "lội ngược dòng" thành doanh nhân thành đạt, nắm giữ khối tài sản tỷ đô

Mã độc lây lan qua Facebook có nguồn gốc từ Việt Nam NodeStealer lại “tái xuất giang hồ”

Tin được tài trợ

Đăng tin bán bất động sản miễn phí như thế nào cho hiệu quả?

Tra cứu quy hoạch toàn quốc miễn phí chỉ cần click ngay

Công cụ đơn giản cho nhà môi giới dễ dàng chốt deal nhanh giao dịch

Siêu chat chuyên biệt cho giao dịch Bất động sản 4.0

Tin mới cập nhật

Bố trí phòng giặt phơi nhỏ gọn gàng tiện lợi cho gia đình

Đá nhân tạo ốp bếp không thấm bền đẹp sang trọng

Ý nghĩa số nhà tốt xấu và cách chọn số hợp phong thủy

Tủ bếp nhôm kính giả gỗ cao cấp sang trọng bền đẹp

Chứng minh thu nhập vay mua nhà nhanh chóng và hiệu quả