Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu

Thứ tư, 04/01/2023-08:01
Trong phân tích dữ liệu, Data sampling giúp chúng ta khám phá những thông tin có nghĩa trong tập dữ liệu lớn. Ví dụ: nếu bạn muốn ước tính số cây trong một khu đất rộng 100 mẫu Anh có phân bố cây khá đồng đều, bạn có thể đếm số cây trong 1 mẫu và nhân với 100 hoặc đếm số cây trong một nửa mẫu và nhân với 200 để có đại diện chính xác cho toàn bộ 100 mẫu Anh.

Data Sampling là gì?

Data sampling, lấy mẫu dữ liệu, là một kỹ thuật phân tích thống kê được sử dụng để chọn, xử lý và phân tích một tập hợp con đại diện của tổng thể (population). Nó cũng được sử dụng để nhận dạng mẫu và xu hướng ngoại suy trong tổng thể.

Với data sampling, các nhà nghiên cứu, nhà khoa học dữ liệu, nhà lập mô hình dự đoán và các nhà phân tích dữ liệu khác có thể sử dụng lượng dữ liệu nhỏ hơn, dễ quản lý hơn cho việc xây dựng và chạy các mô hình phân tích. Điều này cho phép họ nhanh chóng đưa ra những phát hiện chính xác từ một tổng thể thống kê.

Phương pháp Data Sampling

Có nhiều phương pháp data sampling, mỗi phương pháp đều có những đặc điểm phù hợp với loại bộ dữ liệu (dataset), nguyên tắc và mục tiêu nghiên cứu. Các phương pháp được chia thành hai loại là lấy mẫu xác suất (probability sampling) và lấy mẫu phi xác suất (non-probability sampling).

Probability Sampling

Lấy mẫu xác suất sử dụng các số ngẫu nhiên - tương ứng với các điểm trong tập dữ liệu. Điều này đảm bảo các lựa chọn mẫu không có sự tương quan. Với probability sampling, các mẫu được chọn từ một tổng thể lớn hơn để phù hợp với các phương pháp thống kê khác nhau.

Lấy mẫu dữ liệu xác suất là cách tiếp cận tốt nhất khi mục tiêu là tạo ra một mẫu đại diện chính xác cho tổng thể. Các loại Probability sampling gồm:

Lấy mẫu ngẫu nhiên đơn giản

Mọi phần tử trong tập dữ liệu có xác suất được chọn như nhau. Quá trình lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling) thường được thực hiện bằng cách ẩn tổng thể. Chẳng hạn, tổng thể có thể được ẩn bằng cách gắn các phần tử trong đó một số và sau đó chọn chúng một cách ngẫu nhiên. 

Lợi ích của Simple Random Sampling là dễ dàng và không tốn kém, đồng thời loại bỏ sai lệch trong quá trình lấy mẫu. Hạn chế của phương pháp này là các nhóm sẽ không mang tính đại diện, bởi các nhà nghiên cứu không nắm quyền kiểm soát việc chọn mẫu.

Lấy mẫu phân tổ

Lấy mẫu phân tổ (Stratified Sampling) được sử dụng khi các nhóm phải dựa trên một yếu tố chung. Với lấy mẫu phân tầng, tất cả các yếu tố của tổng thể được biểu diễn dưới dạng mẫu và được lấy từ các tầng khác nhau (ví dụ: trong nghiên cứu các mẫu đi làm, mẫu có thể được tách thành những người sử dụng phương tiện giao thông công cộng, đi bộ, đi xe đạp hoặc xe ô tô). Tuy nhiên, hạn chế của phương pháp này chính là sự thiên vị.

Lấy mẫu cả khối

Phương pháp Lấy mẫu cả khối (Cluster Sampling) chia bộ dữ liệu thành các tập hợp con hoặc cụm theo một yếu tố xác định; sau đó, các mẫu được chọn ngẫu nhiên. Với cluster sampling, mẫu được lấy ngẫu nhiên từ các nhóm (ví dụ: những người sống ở cùng một thành phố cụ thể, những người sinh cùng một năm) chứ không phải các phần tử riêng lẻ.

Lấy mẫu có hệ thống hoặc phân cụm có hệ thống 

Systematic Sampling hoặc Systematic Clustering tạo mẫu bằng cách đặt thời gian để trích xuất dữ liệu theo quy tắc. Với lấy mẫu hoặc phân cụm có hệ thống, yếu tố ngẫu nhiên chỉ áp dụng cho mục được lựa chọn đầu tiên. Sau đó, sẽ áp dụng theo quy tắc. 

Non-probability sampling

Với lấy mẫu phi xác suất, mẫu được xác định và trích xuất dựa trên đánh giá chủ quan của người nghiên cứu hoặc người phân tích. Hạn chế của phương pháp này là nó có thể bị sai lệch và có thể không đại diện chính xác cho tổng thể. 

Lấy mẫu phi xác suất được sử dụng trong trường hợp cần phân tích nhanh hay đơn giản. Các loại Non-probability sampling bao gồm:

Lấy mẫu thuận tiện

Lấy mẫu thuận tiện (Convenience Sampling) là thu thập dữ liệu từ một nhóm có sẵn và dễ tiếp cận. Ví dụ convenience sampling sẽ yêu cầu những người ngoài cửa hàng thực hiện khảo sát. Các yếu tố được thu thập dựa trên khả năng tiếp cận và tính sẵn có. 

Lấy mẫu thuận tiện thường được sử dụng như bước sơ bộ nên độ chệch có thể khá đáng kể.

Lấy mẫu liên tiếp

Lấy mẫu liên tiếp (Consecutive Sampling) thu thập dữ liệu từ các nguồn đáp ứng các tiêu chí cho đến khi đạt được kích thước mẫu mong muốn.

Lấy mẫu quả cầu tuyết 

Snowball Sampling thu thập các phần tử cho tập dữ liệu bằng cách tập hợp những phần tử liên quan. Bản chất của phương pháp là dựa trên các phần tử đã có để tìm thêm các phần tử khác, phù hợp với tổng thể - ví dụ: tập hợp một nhóm nhỏ, sau đó yêu cầu họ mời bạn bè tham gia. 

Snowball Sampling được sử dụng khi tổng thể không xác định và khó xây dựng bộ dữ liệu. Bởi nó dựa trên các lượt giới thiệu nên sự thiên vị sẽ tăng lên.

Lấy mẫu cóc mục đích hoặc Lấy mẫu phán đoán

Lấy mẫu cóc mục đích (Purposive Sampling) hay Lấy mẫu phán đoán (Judgmental Sampling) là phương pháp chọn mẫu dựa trên các tiêu chí xác định do người nghiên cứu thiết lập theo mục đích của cuộc nghiên cứu. Những người tham gia được lựa chọn dựa trên kiến thức của họ về câu hỏi trong nghiên cứu. Phương pháp này cho phép các nhà nghiên cứu thu thập các câu trả lời (có hiểu biết) một cách dễ dàng và nhanh chóng.

Tại sao Data Sampling cần thiết cho nghiên cứu?

  • Cung cấp đại diện cho tổng thể lớn để có thể phân tích và cung cấp thông tin chi tiết về toàn tổng thể
  • Cung cấp bộ dữ liệu dễ quản lý hơn
  • Cho phép các nhà nghiên cứu tiến hành phân tích và đánh giá kết quả nhanh hơn  
  • Giảm chi phí nghiên cứu và thời gian cần để nghiên cứu tổng thể thông qua hạn chế khối lượng dữ liệu được thu thập và xử lý
  • Cho phép thống kê suy luận để suy ra những hiểu biết sâu sắc về toàn bộ tổng thể 

Quy trình Data Sampling

Trong bất kể phương pháp lấy mẫu dữ liệu nào được sử dụng, các mẫu đều phải có kích thước chính xác và không sai lệch khi thu thập. Các yếu tố cần xem xét bao gồm:

  • Dữ liệu được lấy mẫu là dữ liệu liên tục (nghĩa là dữ liệu được tính bằng số) hay dữ liệu phân loại (tức là được đưa vào các danh mục, như xanh lá cây, xanh dương, nam hoặc nữ)
  • Độ chính xác cần thiết cho các suy luận thống kê   
  • Ước tính độ lệch chuẩn cho tổng thể 
  • Mức độ tin cậy mong muốn (Confidence Level)

Cách xác định kích thước mẫu

Các bước dưới đây là cách xác định kích thước mẫu cho dữ liệu liên tục (continuous data). Để bắt đầu, các biến kích thước mẫu nên được xem xét, gồm những vấn đề sau: 

  • Quy mô tổng thể
  • Sai số và độ tín nhiệm (nghĩa là ước tính ± sai số)
  • Mức độ tin cậy (mức độ phổ biến nhất là 90% tin cậy, 95% tin cậy và 99% tin cậy.
  • Độ lệch chuẩn (nghĩa là ước tính mức độ khác nhau của các câu trả lời với nhau và so với số trung bình)

Một khi các biến kích thước mẫu đã được xác định, có thể tính toán được kích thước mẫu. 

Các bước tính kích thước mẫu

Bước 1: Biến mức độ tin cậy thành điểm Z - một cách thống kê phổ biến để chuẩn hóa dữ liệu trên thang đo để có thể so sánh. Điểm Z cho các mức độ tin cậy phổ biến nhất là:

  • 90% - Điểm Z = 1,645
  • 95% - Điểm Z = 1,96
  • 99% - Điểm Z = 2,576

Công thức tính điểm Z là:

Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu - ảnh 10

Bước 2: Sử dụng công thức kích thước mẫu để tính toán

Data Sampling là gì? Các phương pháp lấy mẫu dữ liệu - ảnh 11

n: kích thước mẫu cần thiết
Z: Điểm số Z
p: độ lệch chuẩn
e: biên độ lỗi

Một số lỗi Data Sampling phổ biến

Một trong những lỗi lấy mẫu dữ liệu thường thấy là độ lệch giữa ước tính của mẫu lý tưởng so với tổng thể trên thực tế. Data Sampling nghĩa là tạo ra các mẫu là tập hợp con, đại diện cho tổng thể, với giá trị trung bình của mẫu bằng giá trị trung bình của tổng thể.

Lỗi lấy mẫu xảy ra khi không đạt được mục đích đó, đồng thời do tính không xác định vốn có của các hệ thống tự nhiên. Có hai loại không chắc chắn trong bất kỳ hệ thống nào là không xác định về nhận thức - epistemic uncertainty (lỗi dự kiến ​​do thiếu dữ liệu) và không xác định về ngẫu nhiên - aleatoric uncertainty (lỗi không thể đoán trước).

Mặc dù theo định nghĩa, các nhà nghiên cứu không thể làm gì nhiều với aleatoric uncertainty, nhưng họ có thể thừa nhận sự hiện diện của nó trong các mô hình và cố gắng giảm thiểu epistemic uncertainty càng nhiều càng tốt. 

Để có thể giảm thiểu sự không xác định về nhận thức, bước đầu tiên là hiểu các loại lỗi lấy mẫu phổ biến trong quá trình nghiên cứu.

Các loại lỗi Data Sampling

  • Lỗi tổng thể: Xảy ra khi người nghiên cứu không biết ai để khảo sát 
  • Lỗi lựa chọn: Xảy ra chỉ khi những người tham gia hứng thú với khảo sát trả lời các câu hỏi
  • Lỗi khung mẫu: Xảy ra khi một mẫu được chọn từ dữ liệu tổng thể sai 
  • Lỗi không phản hồi: Xảy ra khi không nhận được phản hồi hữu ích

Thiên kiến Data Sampling

Thiên kiến lấy mẫu dữ liệu liên quan đến sai lệch lấy mẫu do cách thức thu thập mẫu gây ra. Điều này dẫn đến một số phần tử trong tổng thể có thể có ít hoặc nhiều xác suất được lấy mẫu hơn các phần tử khác. Các loại thiên kiến lấy mẫu dữ liệu bao gồm:

  • Thiên kiến phản hồi: Xảy ra trong quá trình thu thập dữ liệu khi người tham gia đưa ra câu trả lời không đúng sự thật, dễ gây hiểu lầm
  • Thiên kiến trả lời tự nguyện: Xảy ra khi các cá nhân tự lựa chọn (self-selected) hoặc lựa chọn tham gia
  • Thiên kiến không trả lời: Xảy ra khi người tham gia không trả lời toàn bộ hoặc một phần 
  • Thiên kiến thuận tiện: Xảy ra khi một mẫu được lấy từ các cá nhân có sẵn

Ba cách để loại bỏ lỗi Data Sampling

1. Tăng cỡ mẫu

2. Thực hiện lặp đi lặp lại các phép đo, sử dụng nhiều đối tượng hoặc nhiều nhóm 

3. Sử dụng lấy mẫu dữ liệu ngẫu nhiên để thiết lập cách tiếp cận có hệ thống để chọn mẫu

Ưu điểm của Data Sampling

  • Mở rộng năng lực nghiên cứu
  • Thu thập dữ liệu chuyên sâu và đầy đủ
  • Cải thiện độ chính xác của dữ liệu 
  • Tăng cường mối quan hệ giữa các nhà nghiên cứu và đối tượng
  • Chi phí thu thập thông tin về tổng thể thấp hơn
  • Thu nhỏ phạm vi nghiên cứu 
  • Giảm tác động đến nguồn lực của tổ chức nghiên cứu (ví dụ: con người, hệ thống)  
  • Tiết kiệm thời gian tiến hành nghiên cứu   

Data Sampling đóng một vai trò quan trọng trong việc xác định tính hợp lệ của kết quả trong phân tích thống kê. Với nhiều kỹ thuật được tinh chỉnh cho phù hợp với trường hợp sử dụng cụ thể, lấy mẫu dữ liệu là một phương pháp nghiên cứu các quần thể lớn. Nếu được thực hiện đúng cách, data sampling là một công cụ mạnh mẽ cho phép các nhà nghiên cứu làm việc với các bộ dữ liệu thuộc mọi kích cỡ và loại để rút ra những hiểu biết có nghĩa.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Việc mất 10 tiếng để làm được AI hoàn thành trong 10 giây: Các sinh viên tài chính ngân hàng chuẩn bị mất việc?

Thách thức và xu hướng của ngành Fintech tại Đông Nam Á trong năm 2024

Đẩy mạnh vốn FDI vào lĩnh vực Fintech, công nghệ cao

AI có thể là một mối nguy đối với nhân loại?

Bitcoin trở thành tài sản có giá trị lớn thứ 8 toàn cầu

Mặt trái của AI: Tiêu thụ điện năng ở mức khổng lồ

Kỷ nguyên công nghệ gia tăng áp lực cạnh tranh giữa các doanh nghiệp bất động sản

Hé lộ 3 kênh podcast ‘giải ngố đầu tư’ dành cho người mới bắt đầu

Tin mới cập nhật

Giải quyết tranh chấp đất đai khi đã có giấy chứng nhận quyền sử dụng đất

3 giờ trước

Hỏi về điều kiện, thủ tục chuyển nhượng quyền sử dụng thửa đất có nhiều mục đích sử dụng?

3 giờ trước

Tại sao thị trường chứng khoán phản ứng tiêu cực trong 2 phiên đầu tuần?

3 giờ trước

Quý I/2024, Techcombank ghi nhận lãi kỷ lục, tăng 38,3% so với cùng kỳ

11 giờ trước

Tuổi Sửu hợp hướng nào? Bí quyết chọn hướng nhà “thu hút” tài vận cho người tuổi Sửu

12 giờ trước