Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu

Thứ tư, 04/01/2023-08:01

Trong phân tích dữ liệu, Data sampling giúp chúng ta khám phá những thông tin có nghĩa trong tập dữ liệu lớn. Ví dụ: nếu bạn muốn ước tính số cây trong một khu đất rộng 100 mẫu Anh có phân bố cây khá đồng đều, bạn có thể đếm số cây trong 1 mẫu và nhân với 100 hoặc đếm số cây trong một nửa mẫu và nhân với 200 để có đại diện chính xác cho toàn bộ 100 mẫu Anh.

BÀI LIÊN QUAN

Data Labeling và các phương pháp gán nhãn dữ liệu là gì?

Data Lake là gì? 5 khác biệt lớn giữa Data Lake và Data Warehouse

Data exploration là gì? Vì sao công cụ này đóng vai trò quan trọng

Data Sampling là gì?

Data sampling, lấy mẫu dữ liệu, là một kỹ thuật phân tích thống kê được sử dụng để chọn, xử lý và phân tích một tập hợp con đại diện của tổng thể (population). Nó cũng được sử dụng để nhận dạng mẫu và xu hướng ngoại suy trong tổng thể.

Với data sampling, các nhà nghiên cứu, nhà khoa học dữ liệu, nhà lập mô hình dự đoán và các nhà phân tích dữ liệu khác có thể sử dụng lượng dữ liệu nhỏ hơn, dễ quản lý hơn cho việc xây dựng và chạy các mô hình phân tích. Điều này cho phép họ nhanh chóng đưa ra những phát hiện chính xác từ một tổng thể thống kê.

Phương pháp Data Sampling

Có nhiều phương pháp data sampling, mỗi phương pháp đều có những đặc điểm phù hợp với loại bộ dữ liệu (dataset), nguyên tắc và mục tiêu nghiên cứu. Các phương pháp được chia thành hai loại là lấy mẫu xác suất (probability sampling) và lấy mẫu phi xác suất (non-probability sampling).

Data products là gì? 11 vấn đề kinh doanh data products có thể giải quyết

Không có gì ngạc nhiên khi nhận định dữ liệu là nguồn tài nguyên quý giá nhất là đối với phần mềm và doanh nghiệp. Các sản phẩm kỹ thuật số liên quan đến dữ liệu hiện diện trong mọi mặt cuộc sống hàng ngày của chúng ta. Trong bài viết ngày hôm nay, chúng ta sẽ cùng tìm hiểm về khái niệm của Data products.

Probability Sampling

Lấy mẫu xác suất sử dụng các số ngẫu nhiên - tương ứng với các điểm trong tập dữ liệu. Điều này đảm bảo các lựa chọn mẫu không có sự tương quan. Với probability sampling, các mẫu được chọn từ một tổng thể lớn hơn để phù hợp với các phương pháp thống kê khác nhau.

Lấy mẫu dữ liệu xác suất là cách tiếp cận tốt nhất khi mục tiêu là tạo ra một mẫu đại diện chính xác cho tổng thể. Các loại Probability sampling gồm:

Lấy mẫu ngẫu nhiên đơn giản

Mọi phần tử trong tập dữ liệu có xác suất được chọn như nhau. Quá trình lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling) thường được thực hiện bằng cách ẩn tổng thể. Chẳng hạn, tổng thể có thể được ẩn bằng cách gắn các phần tử trong đó một số và sau đó chọn chúng một cách ngẫu nhiên.

Lợi ích của Simple Random Sampling là dễ dàng và không tốn kém, đồng thời loại bỏ sai lệch trong quá trình lấy mẫu. Hạn chế của phương pháp này là các nhóm sẽ không mang tính đại diện, bởi các nhà nghiên cứu không nắm quyền kiểm soát việc chọn mẫu.

Lấy mẫu phân tổ

Lấy mẫu phân tổ (Stratified Sampling) được sử dụng khi các nhóm phải dựa trên một yếu tố chung. Với lấy mẫu phân tầng, tất cả các yếu tố của tổng thể được biểu diễn dưới dạng mẫu và được lấy từ các tầng khác nhau (ví dụ: trong nghiên cứu các mẫu đi làm, mẫu có thể được tách thành những người sử dụng phương tiện giao thông công cộng, đi bộ, đi xe đạp hoặc xe ô tô). Tuy nhiên, hạn chế của phương pháp này chính là sự thiên vị.

Lấy mẫu cả khối

Phương pháp Lấy mẫu cả khối (Cluster Sampling) chia bộ dữ liệu thành các tập hợp con hoặc cụm theo một yếu tố xác định; sau đó, các mẫu được chọn ngẫu nhiên. Với cluster sampling, mẫu được lấy ngẫu nhiên từ các nhóm (ví dụ: những người sống ở cùng một thành phố cụ thể, những người sinh cùng một năm) chứ không phải các phần tử riêng lẻ.

Lấy mẫu có hệ thống hoặc phân cụm có hệ thống

Systematic Sampling hoặc Systematic Clustering tạo mẫu bằng cách đặt thời gian để trích xuất dữ liệu theo quy tắc. Với lấy mẫu hoặc phân cụm có hệ thống, yếu tố ngẫu nhiên chỉ áp dụng cho mục được lựa chọn đầu tiên. Sau đó, sẽ áp dụng theo quy tắc.

Non-probability sampling

Với lấy mẫu phi xác suất, mẫu được xác định và trích xuất dựa trên đánh giá chủ quan của người nghiên cứu hoặc người phân tích. Hạn chế của phương pháp này là nó có thể bị sai lệch và có thể không đại diện chính xác cho tổng thể.

Lấy mẫu phi xác suất được sử dụng trong trường hợp cần phân tích nhanh hay đơn giản. Các loại Non-probability sampling bao gồm:

Lấy mẫu thuận tiện

Lấy mẫu thuận tiện (Convenience Sampling) là thu thập dữ liệu từ một nhóm có sẵn và dễ tiếp cận. Ví dụ convenience sampling sẽ yêu cầu những người ngoài cửa hàng thực hiện khảo sát. Các yếu tố được thu thập dựa trên khả năng tiếp cận và tính sẵn có.

Lấy mẫu thuận tiện thường được sử dụng như bước sơ bộ nên độ chệch có thể khá đáng kể.

Lấy mẫu liên tiếp

Lấy mẫu liên tiếp (Consecutive Sampling) thu thập dữ liệu từ các nguồn đáp ứng các tiêu chí cho đến khi đạt được kích thước mẫu mong muốn.

Lấy mẫu quả cầu tuyết

Snowball Sampling thu thập các phần tử cho tập dữ liệu bằng cách tập hợp những phần tử liên quan. Bản chất của phương pháp là dựa trên các phần tử đã có để tìm thêm các phần tử khác, phù hợp với tổng thể - ví dụ: tập hợp một nhóm nhỏ, sau đó yêu cầu họ mời bạn bè tham gia.

Snowball Sampling được sử dụng khi tổng thể không xác định và khó xây dựng bộ dữ liệu. Bởi nó dựa trên các lượt giới thiệu nên sự thiên vị sẽ tăng lên.

Lấy mẫu cóc mục đích hoặc Lấy mẫu phán đoán

Lấy mẫu cóc mục đích (Purposive Sampling) hay Lấy mẫu phán đoán (Judgmental Sampling) là phương pháp chọn mẫu dựa trên các tiêu chí xác định do người nghiên cứu thiết lập theo mục đích của cuộc nghiên cứu. Những người tham gia được lựa chọn dựa trên kiến thức của họ về câu hỏi trong nghiên cứu. Phương pháp này cho phép các nhà nghiên cứu thu thập các câu trả lời (có hiểu biết) một cách dễ dàng và nhanh chóng.

Tại sao Data Sampling cần thiết cho nghiên cứu?

Cung cấp đại diện cho tổng thể lớn để có thể phân tích và cung cấp thông tin chi tiết về toàn tổng thể
Cung cấp bộ dữ liệu dễ quản lý hơn
Cho phép các nhà nghiên cứu tiến hành phân tích và đánh giá kết quả nhanh hơn
Giảm chi phí nghiên cứu và thời gian cần để nghiên cứu tổng thể thông qua hạn chế khối lượng dữ liệu được thu thập và xử lý
Cho phép thống kê suy luận để suy ra những hiểu biết sâu sắc về toàn bộ tổng thể

Quy trình Data Sampling

Trong bất kể phương pháp lấy mẫu dữ liệu nào được sử dụng, các mẫu đều phải có kích thước chính xác và không sai lệch khi thu thập. Các yếu tố cần xem xét bao gồm:

Dữ liệu được lấy mẫu là dữ liệu liên tục (nghĩa là dữ liệu được tính bằng số) hay dữ liệu phân loại (tức là được đưa vào các danh mục, như xanh lá cây, xanh dương, nam hoặc nữ)
Độ chính xác cần thiết cho các suy luận thống kê
Ước tính độ lệch chuẩn cho tổng thể
Mức độ tin cậy mong muốn (Confidence Level)

Cách xác định kích thước mẫu

Các bước dưới đây là cách xác định kích thước mẫu cho dữ liệu liên tục (continuous data). Để bắt đầu, các biến kích thước mẫu nên được xem xét, gồm những vấn đề sau:

Quy mô tổng thể
Sai số và độ tín nhiệm (nghĩa là ước tính ± sai số)
Mức độ tin cậy (mức độ phổ biến nhất là 90% tin cậy, 95% tin cậy và 99% tin cậy.
Độ lệch chuẩn (nghĩa là ước tính mức độ khác nhau của các câu trả lời với nhau và so với số trung bình)

Một khi các biến kích thước mẫu đã được xác định, có thể tính toán được kích thước mẫu.

Các bước tính kích thước mẫu

Bước 1: Biến mức độ tin cậy thành điểm Z - một cách thống kê phổ biến để chuẩn hóa dữ liệu trên thang đo để có thể so sánh. Điểm Z cho các mức độ tin cậy phổ biến nhất là:

90% - Điểm Z = 1,645
95% - Điểm Z = 1,96
99% - Điểm Z = 2,576

Công thức tính điểm Z là:

Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu - ảnh 10

Bước 2: Sử dụng công thức kích thước mẫu để tính toán

Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu - ảnh 11

n: kích thước mẫu cần thiết
Z: Điểm số Z
p: độ lệch chuẩn
e: biên độ lỗi

Một số lỗi Data Sampling phổ biến

Một trong những lỗi lấy mẫu dữ liệu thường thấy là độ lệch giữa ước tính của mẫu lý tưởng so với tổng thể trên thực tế. Data Sampling nghĩa là tạo ra các mẫu là tập hợp con, đại diện cho tổng thể, với giá trị trung bình của mẫu bằng giá trị trung bình của tổng thể.

Lỗi lấy mẫu xảy ra khi không đạt được mục đích đó, đồng thời do tính không xác định vốn có của các hệ thống tự nhiên. Có hai loại không chắc chắn trong bất kỳ hệ thống nào là không xác định về nhận thức - epistemic uncertainty (lỗi dự kiến do thiếu dữ liệu) và không xác định về ngẫu nhiên - aleatoric uncertainty (lỗi không thể đoán trước).

Mặc dù theo định nghĩa, các nhà nghiên cứu không thể làm gì nhiều với aleatoric uncertainty, nhưng họ có thể thừa nhận sự hiện diện của nó trong các mô hình và cố gắng giảm thiểu epistemic uncertainty càng nhiều càng tốt.

Để có thể giảm thiểu sự không xác định về nhận thức, bước đầu tiên là hiểu các loại lỗi lấy mẫu phổ biến trong quá trình nghiên cứu.

Các loại lỗi Data Sampling

Lỗi tổng thể: Xảy ra khi người nghiên cứu không biết ai để khảo sát
Lỗi lựa chọn: Xảy ra chỉ khi những người tham gia hứng thú với khảo sát trả lời các câu hỏi
Lỗi khung mẫu: Xảy ra khi một mẫu được chọn từ dữ liệu tổng thể sai
Lỗi không phản hồi: Xảy ra khi không nhận được phản hồi hữu ích

Thiên kiến Data Sampling

Thiên kiến lấy mẫu dữ liệu liên quan đến sai lệch lấy mẫu do cách thức thu thập mẫu gây ra. Điều này dẫn đến một số phần tử trong tổng thể có thể có ít hoặc nhiều xác suất được lấy mẫu hơn các phần tử khác. Các loại thiên kiến lấy mẫu dữ liệu bao gồm:

Thiên kiến phản hồi: Xảy ra trong quá trình thu thập dữ liệu khi người tham gia đưa ra câu trả lời không đúng sự thật, dễ gây hiểu lầm
Thiên kiến trả lời tự nguyện: Xảy ra khi các cá nhân tự lựa chọn (self-selected) hoặc lựa chọn tham gia
Thiên kiến không trả lời: Xảy ra khi người tham gia không trả lời toàn bộ hoặc một phần
Thiên kiến thuận tiện: Xảy ra khi một mẫu được lấy từ các cá nhân có sẵn

Ba cách để loại bỏ lỗi Data Sampling

1. Tăng cỡ mẫu

2. Thực hiện lặp đi lặp lại các phép đo, sử dụng nhiều đối tượng hoặc nhiều nhóm

3. Sử dụng lấy mẫu dữ liệu ngẫu nhiên để thiết lập cách tiếp cận có hệ thống để chọn mẫu

Ưu điểm của Data Sampling

Mở rộng năng lực nghiên cứu
Thu thập dữ liệu chuyên sâu và đầy đủ
Cải thiện độ chính xác của dữ liệu
Tăng cường mối quan hệ giữa các nhà nghiên cứu và đối tượng
Chi phí thu thập thông tin về tổng thể thấp hơn
Thu nhỏ phạm vi nghiên cứu
Giảm tác động đến nguồn lực của tổ chức nghiên cứu (ví dụ: con người, hệ thống)
Tiết kiệm thời gian tiến hành nghiên cứu

Data Sampling đóng một vai trò quan trọng trong việc xác định tính hợp lệ của kết quả trong phân tích thống kê. Với nhiều kỹ thuật được tinh chỉnh cho phù hợp với trường hợp sử dụng cụ thể, lấy mẫu dữ liệu là một phương pháp nghiên cứu các quần thể lớn. Nếu được thực hiện đúng cách, data sampling là một công cụ mạnh mẽ cho phép các nhà nghiên cứu làm việc với các bộ dữ liệu thuộc mọi kích cỡ và loại để rút ra những hiểu biết có nghĩa.

Theo: Reatimes.vn

Copy link

Tạo tin đăng