Unsupervised Learning là gì? Ví dụ và so sánh với Supervised Learning
BÀI LIÊN QUAN
Deep Learning: Cách học sâu thay đổi thế giớiSelf-Supervised Learning: Liệu máy móc có thể học như con người?Ứng dụng quan trọng của Supervised Learning trong kinh doanhUnsupervised Learning là gì? Học không giám sát là gì?
Unsupervised Learning, học không giám sát không sử dụng các bộ dữ liệu được gắn nhãn để đào tạo các thuật toán. Thay vào đó, các máy tự học bằng cách truy cập vào một lượng lớn dữ liệu chưa được phân loại và tìm ra các nguyên mẫu của dữ liệu. Các thuật toán phân tích và phân cụm các tập dữ liệu chưa được gán nhãn. Không cần sự can thiệp của con người trong khi phân tích và phân cụm do đó chúng có tên là "Unsupervised - không giám sát".
Lấy ví dụ về những đứa trẻ mới biết đi. Nhà đứa trẻ đó có một con mèo và qu đó đứa trẻ biết con mèo trông như thế nào nhưng hoàn toàn không biết có rất nhiều loại mèo khác nhau trên thế giới. Tuy nhiên, khi nhìn thấy một loại mèo khác loại nhà mình, đứa trẻ đó vẫn có thể nhận ra đó là con mèo, thông qua một loạt đặc điểm như hai tai, bốn chân, đuôi, bộ lông, ria, v.v.
Trong học máy (Machine Learning), dự đoán này được gọi là học không giám sát, Unsupervised Learning.
Cách Unsupervised Learning hoạt động
Nói một cách đơn giản, học không giám sát hoạt động bằng cách phân tích dữ liệu chưa được phân loại, chưa được gán nhãn và tìm ra các cấu trúc ẩn trong đó.
Trong quá trình học có giám sát (Supervised Learning), một nhà khoa học cung cấp cho hệ thống dữ liệu được gán nhãn, chẳng hạn như hình ảnh của những con mèo được gán nhãn là “mèo”, cho phép nó học theo ví dụ. Trong quá trình học không giám sát, nhà khoa học chỉ cung cấp các bức ảnh và hệ thống có trách nhiệm phân tích dữ liệu và kết luận liệu chúng có phải là hình ảnh của mèo hay không.
Học máy không giám sát (Unsupervised machine learning) yêu cầu khối lượng lớn dữ liệu. Trong hầu hết các trường hợp, điều này cũng đúng với học có giám sát vì mô hình sẽ trở nên chính xác hơn với nhiều ví dụ hơn.
Quá trình Unsupervised Learning bắt đầu với việc các nhà khoa học dữ liệu đào tạo các thuật toán bằng cách sử dụng các bộ dữ liệu đào tạo. Các điểm dữ liệu trong các tập dữ liệu này không được gán nhãn và không được phân loại.
Mục tiêu học của thuật toán là xác định các mẫu trong tập dữ liệu và phân loại các điểm dữ liệu dựa trên các mẫu đã xác định giống nhau. Trong ví dụ về hình ảnh mèo, thuật toán học không giám sát có thể học cách xác định các đặc điểm riêng biệt của mèo, chẳng hạn như râu, đuôi dài và móng vuốt.
Unsupervised Learning là cách chúng ta học cách xác định và phân loại mọi thứ. Giả sử bạn chưa từng nếm qua tương cà hoặc tương ớt. Nếu bạn được đưa cho hai chai tương cà và tương ớt "không dán nhãn" và được yêu cầu nếm thử chúng, bạn vẫn sẽ có thể phân biệt được hương vị của chúng.
Bạn cũng sẽ có thể xác định điểm đặc biệt của cả hai loại nước sốt ngay cả khi bạn không biết tên của chúng. Nếm thêm một vài lần nữa sẽ giúp bạn quen thuộc hơn với hương vị. Chẳng bao lâu, bạn sẽ có thể nhóm các món ăn dựa trên nước sốt được thêm vào chỉ bằng cách nếm chúng.
Bằng cách phân tích hương vị, bạn có thể tìm thấy các đặc điểm cụ thể để phân biệt hai loại nước sốt và món ăn nhóm. Bạn không cần phải biết tên của các loại nước sốt hoặc tên của các món ăn để phân loại chúng.
Điều này tương tự như cách máy móc xác định các mẫu và phân loại các điểm dữ liệu với sự trợ giúp của học không giám sát. Trong cùng một ví dụ, việc học có giám sát sẽ là ai đó nói cho bạn biết trước tên của cả hai loại nước sốt và hương vị của chúng.
Phân loại Unsupervised Learning
Dựa trên các tác vụ dựa trên học máy, chúng ta có thể chia các thuật toán học không giám sát thành các lớp sau:
Phân cụm
Phân cụm là một trong những phương pháp học máy không giám sát hữu ích nhất. Nó được sử dụng để tìm các mẫu mối quan hệ và sự tương đồng giữa các dữ liệu đầu vào. Sau khi tìm thấy các mẫu này, thuật toán không giám sát sẽ nhóm các mẫu dữ liệu có điểm giống nhau thành các nhóm như được minh họa trong sơ đồ bên dưới
Liên kết
Liên kết được sử dụng để tìm các mẫu liên quan đại diện cho các mối quan hệ giữa nhiều mục dữ liệu trong một tập dữ liệu lớn. Một trong những ví dụ điển hình về sự liên kết là phân tích các mô hình mua sắm của khách hàng.
Giảm kích thước
Giảm kích thước, như tên gọi, được sử dụng để cắt giảm số lượng các biến đặc trưng. Để làm điều này, nó chọn một tính năng chính cho mọi mẫu dữ liệu. Lý do chính đằng sau việc sử dụng phương pháp này là để loại bỏ vấn đề phức tạp của không gian đặc trưng. Phân tích thành phần chính (PCA) là một trong những phương pháp giảm kích thước phổ biến nhất.
Phát hiện bất thường
Phát hiện bất thường, như tên gọi, có thể tự động khám phá các điểm dữ liệu bất thường trong tập dữ liệu của bạn. Điều này rất hữu ích trong việc xác định chính xác các giao dịch gian lận, phát hiện ra các phần cứng bị lỗi hoặc xác định lỗi ngoại lệ do lỗi của con người trong quá trình nhập dữ liệu.
Ví dụ
Có nhiều ví dụ khác nhau về học không giám sát, như:
Tổ chức các cụm máy tính - Vị trí địa lý của các máy chủ được xác định trên cơ sở phân cụm các yêu cầu web nhận được từ một khu vực cụ thể trên thế giới. Máy chủ cục bộ sẽ chỉ bao gồm dữ liệu được tạo thường xuyên bởi những người ở khu vực đó.
Phân tích mạng xã hội - Phân tích mạng xã hội được tiến hành để tạo ra các cụm bạn bè phụ thuộc vào tần suất kết nối giữa họ. Phân tích như vậy cho thấy các liên kết giữa những người dùng của một số trang web mạng xã hội.
Phân khúc thị trường - Các tổ chức bán hàng có thể phân cụm hoặc nhóm người dùng của họ thành nhiều phân khúc dựa trên các mặt hàng trong hoá đơn mua bán cũ của họ. Ví dụ: một siêu thị lớn có thể gửi một tin nhắn về loại tạp hóa cụ thể cho nhóm khách hàng cụ thể của họ thay vì gửi tin nhắn cho tất cả khách hàng.
Phương pháp này không chỉ rẻ hơn mà còn cao cấp hơn. Mặt khác nó sẽ tránh gây phiền phức cho những khách hàng không có nhu cầu. Việc kết hợp người dùng thành nhiều phân khúc dựa trên lịch sử mua hàng của họ sẽ giúp cửa hàng tập trung đúng người dùng để tăng doanh số bán hàng và nâng cao lợi nhuận.
Phân tích dữ liệu thiên văn - Các nhà thiên văn cần kính thiên văn để nghiên cứu các thiên hà và các ngôi sao. Thiết kế theo ánh sáng hoặc sự kết hợp của các ánh sáng nhận được từ nhiều phần của bầu trời giúp nhận ra nhiều thiên hà, hành tinh và vệ tinh.
Sự khác biệt giữa Học có giám sát và học không giám sát
Sự khác biệt giữa Supervised Learning và Unsupervised Learning được thể hiện qua những khía cạnh:
Mục tiêu
- Supervised Learning: Để đào tạo thuật toán dự đoán. Kết quả chủ yếu xảy ra theo mong đợi của con người.
- Unsupervised Learning: Để đào tạo thuật toán tìm hiểu thông tin chi tiết từ khối lượng lớn dữ liệu chưa được phân loại.
Gán nhãn tập dữ liệu
- Supervised Learning: Các tập dữ liệu được sử dụng trong Học có giám sát được gán nhãn.
- Unsupervised Learning: Dữ liệu được sử dụng trong Học không giám sát không được gán nhãn, không được phân loại.
Kiến thức về lớp
- Supervised Learning: Các lớp dữ liệu đã biết.
- Unsupervised Learning: Số lượng các lớp là không xác định.
Vai trò của con người
- Supervised Learning: Trong học có giám sát, cần có sự can thiệp của con người để ghi nhãn dữ liệu một cách thích hợp.
- Unsupervised Learning: Việc học không được giám sát chỉ cần có sự can thiệp của con người để xác thực dữ liệu.
Liên kết với Trí tuệ nhân tạo AI
- Supervised Learning: Với sự can thiệp đáng kể của con người, Học có giám sát dường như khác xa với Trí tuệ nhân tạo thực.
- Unsupervised Learning: Với sự can thiệp của con người ít hơn, Học không giám sát rất gần với Trí tuệ nhân tạo.
Tính phức tạp
- Supervised Learning: đơn giản và không tốn kém.
- Unsupervised Learning: phức tạp, tốn nhiều thời gian và đòi hỏi nhiều tài nguyên hơn.
Quá trình học
- Supervised Learning: quá trình đào tạo thuật toán diễn ra ngoại tuyến.
- Unsupervised Learning: quá trình đào tạo các thuật toán diễn ra trong thời gian thực.
Độ chính xác của kết quả
- Supervised Learning: cung cấp kết quả chính xác cao. Độ chính xác chỉ có thể bị ảnh hưởng khi các chuyên gia gán nhãn các tập dữ liệu không phù hợp.
- Unsupervised Learning: kém chính xác hơn.
Nhìn chung, nếu bạn có thể đoán trước được mức độ mở rộng của dữ liệu và nếu có thể chia dữ liệu thành các danh mục, thì cách tiếp cận tốt nhất là giúp thuật toán trở nên thông minh hơn bằng Supervised Learning.
Nếu bạn dự đoán rằng lượng dữ liệu lớn và không thể được phân loại hoặc gán nhãn chúng, thì tốt hơn là nên sử dụng phương pháp Unsupervised Learning và để các thuật toán xử lý các dự đoán một cách thông minh.
Lợi ích của Unsupervised Learning
Sử dụng các thuật toán học máy không giám sát trên dữ liệu của bạn mang đến nhiều lợi ích. Dưới đây là một số lý do phổ biến nhất:
- Nó có thể xử lý một lượng lớn dữ liệu không được gắn nhãn và không có cấu trúc.
- Nó giúp việc phân tích dữ liệu phức tạp trở nên dễ dàng và nhanh chóng hơn.
- Nó có thể xác định các mẫu chưa được phát hiện trước đó.
- Nó tìm hiểu về dữ liệu của bạn để có thể dạy bạn những gì bạn chưa biết.
Kết luận
Unsupervised Learning giúp con người đưa ra quyết định tốt hơn, đó là lý do tại sao các doanh nghiệp chuyển sang sử dụng Không giám sát, để có được thông tin siêu cụ thể về bộ dữ liệu phức tạp nhất của họ. Nền tảng Không giám sát hoạt động như một giáo viên, đánh giá cách mọi người học và hiểu dữ liệu để cung cấp những thông tin chi tiết tốt hơn.