Data Labeling và các phương pháp gán nhãn dữ liệu là gì?

Thứ hai, 19/12/2022-10:12
Độ chính xác của mô hình AI có sự tác động trực tiếp từ chất lượng dữ liệu được sử dụng để huấn luyện nó. Chính vì lý do đó, Data Labeling là một phần không thể thiếu trong quy trình chuẩn bị dữ liệu và bắt đầu xây dựng các mô hình AI đáng tin cậy. Cùng tìm hiểu về gán nhãn dữ liệu trong bài viết dưới đây!

Data Labeling là gì?

Trong học máy (machine learning), Data labeling (tiếng Việt là Gán nhãn dữ liệu) là quá trình xác định dữ liệu thô (hình ảnh, tệp văn bản, video, v.v.) và thêm một hoặc nhiều nhãn có nghĩa cùng thông tin cung cấp ngữ cảnh để mô hình học máy có thể học hỏi từ dữ liệu đó. 

Ví dụ: các nhãn có thể cho biết liệu ảnh có chứa một con chim hay ô tô hay không, từ nào trong bản ghi âm hoặc liệu ảnh chụp X-quang có chứa khối u hay không. Gán nhãn dữ liệu là cần thiết cho nhiều trường hợp sử dụng bao gồm thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói.


Data Labeling một phần của giai đoạn tiền xử lý khi phát triển mô hình học máy.
Data Labeling một phần của giai đoạn tiền xử lý khi phát triển mô hình học máy.

Chú thích dữ liệu (data annotation) thường được dùng để nói về quá trình gán nhãn dữ liệu. Data annotation và Data labeling thường được sử dụng thay thế cho nhau, dù chúng có thể sử dụng khác nhau tùy theo ngành hoặc tình huống.

Cách data labeling hoạt động

Các quy trình gán nhãn dữ liệu hoạt động theo trình tự thời gian sau:

  • Thu thập dữ liệu: Dữ liệu thô được thu thập sẽ được sử dụng để huấn luyện mô hình. Dữ liệu này được làm sạch và xử lý để tạo thành một cơ sở dữ liệu có thể được cung cấp trực tiếp cho mô hình.
  • Gắn thẻ dữ liệu: Các phương pháp gán nhãn dữ liệu khác nhau được sử dụng để gắn thẻ dữ liệu và liên kết dữ liệu đó với ngữ cảnh có nghĩa.
  • Đảm bảo chất lượng: Chất lượng của chú thích dữ liệu thường được xác định bằng mức độ chính xác của các thẻ đối với một điểm dữ liệu cụ thể và mức độ chính xác của các điểm tọa độ đối với hộp giới hạn và chú thích điểm chính. Các thuật toán QA như thuật toán Đồng thuận và kiểm tra Cronbach's Alpha rất hữu ích để xác định độ chính xác trung bình của các chú thích này

Việc gán nhãn dữ liệu thường bắt đầu bằng yêu cầu con người đưa ra đánh giá về một phần dữ liệu chưa được gán nhãn nhất định. Việc gắn thẻ có thể đơn giản như trả lời có/không hoặc chi tiết như xác định các pixel cụ thể trong hình ảnh. Mô hình học máy sử dụng các nhãn do con người cung cấp để tìm hiểu các mẫu cơ bản trong một quy trình gọi là "đào tạo mô hình". Kết quả là một mô hình được đào tạo có thể được sử dụng để đưa ra dự đoán về dữ liệu mới.

Phương pháp gán nhãn dữ liệu

Dưới đây là các phương pháp data labeling phổ biến nhất:

In-house

Gán nhãn dữ liệu nội bộ đảm bảo chất lượng gán nhãn đạt mức cao nhất và thường được thực hiện bởi các nhà khoa học dữ liệu và kỹ sư dữ liệu của tổ chức.

Gán nhãn chất lượng cao đóng vai trò rất quan trọng đối với các ngành như bảo hiểm hoặc chăm sóc sức khỏe và nó thường yêu cầu ý kiến ​​của các chuyên gia trong các lĩnh vực tương ứng để gán nhãn dữ liệu phù hợp.

Tuy nhiên sự gia tăng về chất lượng của chú thích sẽ đi kèm với thời gian dành cho chú thích tăng lên đáng kể, dẫn đến toàn bộ quá trình gán nhãn và làm sạch dữ liệu diễn ra rất chậm.

Crowdsourcing

Crowdsourcing đề cập đến quá trình thu thập dữ liệu được chú thích với sự trợ giúp của một lượng lớn dịch giả tự do đã đăng ký tại một nền tảng cung cấp dịch vụ cộng đồng.

Các bộ dữ liệu được chú thích bao gồm các dữ liệu như hình ảnh về động vật, thực vật và môi trường tự nhiên…, những dữ liệu không yêu cầu chuyên môn bổ sung. Do đó, nhiệm vụ chú thích một tập dữ liệu đơn giản thường được giao cho các nền tảng có hàng chục nghìn người đăng ký.

Outsourcing

Thuê ngoài là nền tảng nằm giữa Crowdsourcing và gán nhãn dữ liệu In-house trong đó nhiệm vụ chú thích dữ liệu được thuê ngoài.

Cách tiếp cận xây dựng bộ dữ liệu chú thích này được xem là phương pháp hoàn hảo cho các dự án không có nhiều kinh phí, nhưng yêu cầu chất lượng chú thích dữ liệu.

Chú thích dựa trên máy

Một trong những hình thức chú thích mới lạ nhất là Machine-based annotation (chú thích dựa trên máy). Chú thích dựa trên máy đề cập đến việc sử dụng các công cụ chú thích và tự động hóa có thể tăng tốc độ chú thích dữ liệu mà không làm giảm chất lượng.


Gán nhãn dữ liệu là một bước quan trọng trong việc phát triển mô hình học máy hiệu suất cao
Gán nhãn dữ liệu là một bước quan trọng trong việc phát triển mô hình học máy hiệu suất cao

Một số loại Data Labeling phổ biến

Từ những gì đã thấy cho đến thời điểm hiện tại, có thể nói, Data Labeling chính là tất cả nhiệm vụ mà chúng ta muốn một thuật toán học máy thực hiện với dữ liệu.

Ví dụ: Nếu muốn có một thuật toán học máy cho nhiệm vụ kiểm tra lỗi, chúng ta sẽ cung cấp cho nó dữ liệu chẳng hạn như hình ảnh vết gỉ hoặc vết nứt. Chú thích tương ứng là các đa giác định vị các vết gỉ hoặc vết nứt và các thẻ để đặt tên cho chúng.

Dưới đây là một số miền AI phổ biến và các loại gán nhãn dữ liệu tương ứng của chúng.

Computer Vision

Computer Vision - Thị giác máy tính (hay nghiên cứu giúp máy tính “nhìn thấy” thế giới xung quanh) yêu cầu dữ liệu trực quan được gán nhãn dưới dạng hình ảnh. Gán nhãn dữ liệu trong thị giác máy tính có thể có nhiều loại khác nhau, tùy thuộc vào tác vụ trực quan mà chúng ta muốn mô hình thực hiện.

Các loại data labeling phổ biến dựa trên tác vụ bao gồm:

Phân loại hình ảnh

Gán nhãn dữ liệu để phân loại hình ảnh đòi hỏi phải thêm thẻ vào hình ảnh đang được xử lý. Số lượng thẻ duy nhất trong toàn bộ cơ sở dữ liệu là số lớp mà mô hình có thể phân loại. Các vấn đề phân loại có thể được chia thành:

  • Phân loại lớp nhị phân (Binary class classification): chỉ bao gồm hai thẻ
  • Phân loại nhiều lớp (Multiclass classification): chứa nhiều thẻ

Ngoài ra, cũng có thể bắt gặp phân loại nhiều nhãn (multi-label classification), nhất là trong trường hợp phát hiện bệnh và đề cập đến việc mỗi hình ảnh có nhiều hơn một thẻ.

Phân đoạn ảnh

Trong Image Segmentation, nhiệm vụ của thuật toán Thị giác máy tính là tách các đối tượng trong ảnh khỏi nền và các đối tượng khác trong cùng một ảnh. Có nghĩa là một bản đồ pixel có cùng kích thước với hình ảnh chứa 1 khi có đối tượng và 0 khi chưa tạo chú thích.

Phát hiện đối tượng 

Object Detection đề cập đến việc phát hiện các đối tượng và vị trí của chúng thông qua thị giác máy tính.

Ước tính tư thế 

Pose estimation đề cập đến việc sử dụng các công cụ Thị giác máy tính để đoán tư thế của một người trong ảnh. Ước tính tư thế chạy bằng cách phát hiện các điểm chính trong cơ thể và tương quan các điểm chính này để có được tư thế. Đây sẽ là dữ liệu tọa độ đơn giản được gắn nhãn với sự trợ giúp của các thẻ, trong đó mỗi tọa độ cung cấp vị trí của một điểm chính cụ thể, được thẻ xác định, trong hình ảnh tương ứng.


Data Labeling chính là tất cả nhiệm vụ mà chúng ta muốn một thuật toán học máy thực hiện với dữ liệu.
Data Labeling chính là tất cả nhiệm vụ mà chúng ta muốn một thuật toán học máy thực hiện với dữ liệu.

Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (Natural Language Processing hay viết tắt là NLP) đề cập đến việc phân tích ngôn ngữ của con người và các dạng trong quá trình tương tác với cả người và với máy móc. NLP ban đầu là một phần của ngôn ngữ học tính toán, sau hơn phát triển hơn với sự trợ giúp của Trí tuệ nhân tạo và Học sâu.

Dưới đây là một số phương pháp để gán nhãn dữ liệu NLP:

Chú thích và liên kết thực thể 

Chú thích thực thể đề cập đến chú thích của các thực thể hoặc các tính năng cụ thể trong kho dữ liệu chưa được gắn nhãn. Từ 'Thực thể' có thể có các dạng khác nhau tùy thuộc vào nhiệm vụ.

Theo sau, chú thích thực thể là liên kết thực thể, trong đó các thực thể đã được chú thích sẽ liên kết với các kho lưu trữ dữ liệu xung quanh để gán danh tính duy nhất cho từng thực thể này. Liên kết thực thể thường được sử dụng cho chú thích ngữ nghĩa.

Phân loại văn bản

Tương tự như phân loại hình ảnh khi chúng ta gán nhãn cho dữ liệu hình ảnh, trong phân loại văn bản, chúng ta gán một hoặc nhiều nhãn cho các khối văn bản.

Trong phân loại văn bản, văn bản được coi là một tổng thể và một tập hợp các thẻ được gán cho nó. Các kiểu phân loại văn bản gồm: phân loại trên cơ sở cảm xúc (đối với phân tích tình cảm - sentiment analysis) và phân loại trên cơ sở chủ đề mà văn bản muốn chuyển tải (đối với phân loại chủ đề).

Chú thích phiên âm

Chú thích phiên âm đề cập đến việc gán nhãn dấu phẩy và dấu chấm phẩy có trong văn bản. Chúng đặc biệt cần thiết trong các chatbot bưởi một dấu phẩy và dấu chấm nằm không đúng vị trí có thể làm thay đổi cấu trúc của câu.

Xử lý âm thanh

Audio Processing chuyển đổi tất cả các loại âm thanh như lời nói, tiếng động vật hay âm thanh xây dựng (kính vỡ, tiếng quét hoặc tiếng chuông báo động)... thành định dạng có cấu trúc để có thể sử dụng trong học máy. Quá trình xử lý âm thanh thường yêu cầu trước tiên bạn phải phiên âm thủ công thành văn bản viết. Từ đó, bạn có thể khám phá thông tin sâu hơn về âm thanh bằng cách thêm thẻ và phân loại âm thanh.  m thanh được phân loại này sẽ trở thành tập dữ liệu đào tạo của bạn.

Một số kỹ thuật cải thiện hiệu quả và độ chính xác data labeling

Giao diện tác vụ trực quan và được sắp xếp hợp lý: giúp giảm thiểu tải nhận thức và chuyển đổi ngữ cảnh cho người gán nhãn.
Sự đồng thuận: giúp chống lại lỗi/sự thiên vị của từng người chú thích. Sự đồng thuận giữa người gán nhãn là việc gửi từng tập dữ liệu tới nhiều người chú thích và sau đó hợp nhất các phản hồi của họ vào một nhãn duy nhất.
Kiểm tra nhãn: để xác minh tính chính xác của nhãn và cập nhật chúng khi cần thiết.
Học tích cực: việc gán nhãn dữ liệu có thể hiệu quả hơn bằng cách sử dụng học máy để xác định dữ liệu hữu ích nhất sẽ được con người gán nhãn.  

Trí tuệ nhân tạo đang tạo ra cuộc cách mạng cách chúng ta làm mọi việc. Khả năng vô tận của AI đang làm cho các ngành trở nên thông minh hơn: từ nông nghiệp đến y học, thể thao, v.v. Data Labeling là bước đầu tiên hướng tới sự đổi mới. Hy vọng bài viết đã giúp bạn biết gán nhãn dữ liệu là gì, cách thức hoạt động, các phương pháp hay nhất để gán nhãn dữ liệu.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Việc mất 10 tiếng để làm được AI hoàn thành trong 10 giây: Các sinh viên tài chính ngân hàng chuẩn bị mất việc?

Thách thức và xu hướng của ngành Fintech tại Đông Nam Á trong năm 2024

Đẩy mạnh vốn FDI vào lĩnh vực Fintech, công nghệ cao

AI có thể là một mối nguy đối với nhân loại?

Bitcoin trở thành tài sản có giá trị lớn thứ 8 toàn cầu

Mặt trái của AI: Tiêu thụ điện năng ở mức khổng lồ

Kỷ nguyên công nghệ gia tăng áp lực cạnh tranh giữa các doanh nghiệp bất động sản

Hé lộ 3 kênh podcast ‘giải ngố đầu tư’ dành cho người mới bắt đầu

Tin mới cập nhật

Giải quyết tranh chấp đất đai khi đã có giấy chứng nhận quyền sử dụng đất

1 giờ trước

Hỏi về điều kiện, thủ tục chuyển nhượng quyền sử dụng thửa đất có nhiều mục đích sử dụng?

1 giờ trước

Tại sao thị trường chứng khoán phản ứng tiêu cực trong 2 phiên đầu tuần?

1 giờ trước

Quý I/2024, Techcombank ghi nhận lãi kỷ lục, tăng 38,3% so với cùng kỳ

8 giờ trước

Tuổi Sửu hợp hướng nào? Bí quyết chọn hướng nhà “thu hút” tài vận cho người tuổi Sửu

10 giờ trước