Hồi quy tuyến tính là gì? Phân loại, Phương trình, Ví dụ và Các giả định

Thứ năm, 02/02/2023-11:02
Hồi quy tuyến tính là một trong những kỹ thuật lập mô hình phổ biến nhất hiện nay. Bởi ngoài việc giải thích mối quan hệ giữa các biến, nó còn đưa ra một phương trình có thể được dùng để dự đoán giá trị của biến phụ thuộc dựa trên giá trị của biến độc lập. Cùng tìm hiểu chi tiết Hồi quy tuyến tính là gì trong bài viết dưới đây.

Hồi quy tuyến tính là gì?

Hồi quy tuyến tính (Linear regression) là một kỹ thuật phân tích dữ liệu được sử dụng để dự đoán giá trị của một biến dựa trên giá trị của một biến khác. Biến muốn dự đoán được gọi là biến phụ thuộc (dependent variable). Biến sử dụng để dự đoán giá trị của biến khác được gọi là biến độc lập (independent variable).

Ví dụ: Bạn có dữ liệu về chi tiêu và thu nhập của mình trong năm ngoái. Giả sử, hồi quy tuyến tính phân tích dữ liệu này và xác định chi tiêu của bạn năm ngoái bằng một nửa thu nhập. Dựa vào đó, kỹ thuật sẽ dự đoán chi tiêu trong tương lai của bạn bằng cách giảm một nửa thu nhập trong tương lai.

Phương trình hồi quy tuyến tính

Mục tiêu của phương trình tuyến tính là kết thúc tại đường phù hợp với dữ liệu nhất. Tức là tổng sai số dự đoán càng nhỏ càng tốt. Trên biểu đồ, điều này được biểu thị thông qua khoảng cách ngắn nhất giữa mỗi điểm dữ liệu đến đường hồi quy.

Phương trình hồi quy tuyến tính giống như công thức hệ số góc mà bạn có thể đã từng trong môn hình học không gian.

Để bắt đầu, hãy xác định mối quan hệ giữa hai biến. Xét dữ liệu ở định dạng x y (tương ứng với hai cột dữ liệu: biến độc lập và biến phụ thuộc). Tạo một biểu đồ phân tán với dữ liệu. Sau đó, đánh giá xem dữ liệu có khớp với đường thẳng hay không trước khi thử phương trình hồi quy tuyến tính. Phương trình sẽ giúp bạn tìm ra đường phù hợp nhất thông qua các điểm dữ liệu trên biểu đồ phân tán.

Trong hồi quy tuyến tính đơn giản, các dự đoán của Y khi được vẽ dưới dạng hàm của X tạo thành một đường thẳng. Nếu dữ liệu không phải là tuyến tính, đường sẽ cong qua các điểm được vẽ.

Công thức cơ bản cho đường hồi quy là Y = mX + b, trong đó Y là biến phụ thuộc, X là biến độc lập, m là độ dốc ước tính và b là hệ số chặn ước tính.


Phương trình hồi quy tuyến tính là y = m*x + b
Phương trình hồi quy tuyến tính là y = m*x + b

Hồi quy tuyến tính hoạt động như thế nào?

Về bản chất, kỹ thuật hồi quy tuyến tính cố gắng vẽ một đồ thị giữa hai biến dữ liệu là x và y. Trong đó, x là biến độc lập, được vẽ theo trục hoành; y là biến phụ thuộc, được vẽ trên trục tung. 

Để dễ hình dung, cùng xem xét dạng đơn giản nhất của phương trình đồ thị giữa y và x là y=m*x+b, b và m là hai hằng số, tượng trung cho tất cả giá trị có thể có của x và y. Giả sử tập dữ liệu đầu của (x,y) là (1,5), (2,8), và (3,11). Hồi quy tuyến tính hoạt động theo trùng tự các bước như sau:

  • Vẽ một đường thẳng và đo mối tương quan giữa 1 và 5.
  • Tiếp tục đổi hướng của đường thẳng để đo các giá trị (2,8) và (3,11) cho đến phù hợp với tất cả giá trị.
  • Trong ví dụ này, chúng ta xác định được phương trình hồi quy tuyến tính là y=3*x+2.
  • Đưa ra dự đoán y = 14 khi x là 4.

Các loại hồi quy tuyến tính và Ví dụ

Hồi quy tuyến tính là động lực quan trọng đằng sau nhiều ứng dụng khoa học dữ liệu và AI. Kỹ thuật thống kê này hữu ích cho các doanh nghiệp vì nó đơn giản, dễ hiểu và đánh giá xu hướng, cũng như đưa ra các dự báo hiệu quả. Các loại mô hình hồi quy tuyến tính gồm:

Hồi quy tuyến tính đơn giản

Hồi quy tuyến tính đơn giản (Simple linear regression) cho thấy mối quan hệ giữa một biến phụ thuộc và một biến độc lập. Mô hình hồi quy này chủ yếu dành cho hai trường hợp:

Độ mạnh của mối quan hệ giữa các biến đã cho. Ví dụ: Mối quan hệ giữa mức độ ô nhiễm và nhiệt độ tăng.

Giá trị của biến phụ thuộc dựa trên giá trị của biến độc lập. Ví dụ: Giá trị của mức độ ô nhiễm ở một nhiệt độ cụ thể.

Hồi quy tuyến tính bội

Hồi quy tuyến tính bội (Multiple linear regression) cho thấy mối quan hệ giữa các biến độc lập (từ hai biến trở lên) và một biến phụ thuộc tương ứng. Trong đó, các biến độc lập có thể là biến liên tục hoặc biến phân loại. Mô hình hồi quy này được sử dụng để dự đoán các xu hướng, xác định các giá trị trong tương lai và dự đoán tác động của các thay đổi.

Ví dụ: Nếu biến phụ thuộc là huyết áp, thì chiều cao, cân nặng và lượng vận động sẽ là các biến độc lập. Ở đây, chúng ta có thể sử dụng hồi quy tuyến tính bội để phân tích mối quan hệ giữa ba biến độc lập và một biến phụ thuộc này.


Hồi quy tuyến tính là động lực quan trọng đằng sau nhiều ứng dụng khoa học dữ liệu và AI
Hồi quy tuyến tính là động lực quan trọng đằng sau nhiều ứng dụng khoa học dữ liệu và AI

Vai trò của hồi quy tuyến tính là gì?

Các mô hình hồi quy tuyến tính tương đối đơn giản và có công thức toán học dễ hiểu. Hồi quy tuyến tính có thể áp dụng cho nhiều lĩnh vực khác nhau trong kinh doanh và nghiên cứu học thuật.

Bạn sẽ thấy rằng hồi quy tuyến tính được sử dụng trong mọi mặt cuộc sống, từ khoa học sinh học, hành vi, môi trường, xã hội cho đến kinh doanh. Nhiều phương pháp khoa học dữ liệu, như học máy (machine learning) và trí tuệ nhân tạo (AI), cũng sử dụng hồi quy tuyến tính để giải quyết những bài toán phức tạp.

Các mô hình hồi quy tuyến tính đã được chứng minh là có thể dự đoán tương lai một cách khoa học và đáng tin cậy. Vì hồi quy tuyến tính là quy trình thống kê đã được thiết lập từ lâu nên các thuộc tính của nó đã được hiểu rõ và có thể được đào tạo rất nhanh.

Các giả định hồi quy tuyến tính

Hiểu các giả định cơ bản của hồi quy tuyến tính là điều quan trọng đối với các nhà khoa học dữ liệu. Nếu không, họ có thể đưa ra kết luận sai và tạo ra các dự đoán không đúng với hiệu suất trong thế giới thực.

Bốn giả định chính về dữ liệu của các mô hình hồi quy tuyến tính là:

  • Mối quan hệ tuyến tính: Giữa các biến độc lập và biến phụ thuộc phải tồn tại mối quan hệ tuyến tính. Để xác định, các nhà khoa học dữ liệu đã tạo ra một biểu đồ phân tán, tập hợp các giá trị ngẫu nhiên của x và y, để xem chúng có nằm trên một đường thẳng không. Nếu không, có thể áp dụng các hàm phi tuyến tính (như căn bậc hai, log) để tạo mối quan hệ tuyến tính giữa hai biến.
  • Phần dư độc lập: Phần dư là chênh lệch giữa giá trị quan sát được và giá trị dự đoán, thường được sử dụng để đo độ chính xác của dự đoán. Nếu không muốn phần dư tăng lên theo thời gian, thì bạn có thể sử dụng các bài kiểm tra toán học, như Durbin-Watson, để xác định phần dư độc lập.
  • Tính chuẩn: tức là các kỹ thuật vẽ đồ thị xác định các phần dư có được phân bố bình thường hay không. Các phần dư sẽ nằm dọc theo đường chéo nằm ở trung tâm đồ thị. Nếu phần dư không được chuẩn hóa, bạn có thể kiểm tra bằng dữ liệu ngoại lai ngẫu nhiên hoặc những giá trị không điển hình. 
  • Phương sai không đổi: tức là phần dư có phương sai cố định hoặc có độ lệch chuẩn trung bình so với mọi giá trị x. Nếu không thì kết quả phân tích có thể không chính xác. Để đáp ứng giả định, hãy thay đổi biến phụ thuộc.

Nếu không hiểu giả định hồi quy tuyến tính, các nhà khoa học dữ liệu có thể đưa ra kết luận sai
Nếu không hiểu giả định hồi quy tuyến tính, các nhà khoa học dữ liệu có thể đưa ra kết luận sai

Ưu điểm của hồi quy tuyến tính

Đơn giản

Hồi quy tuyến tính là một thuật toán rất đơn giản, có thể được thực hiện rất dễ dàng mà vẫn cho ra kết quả khả quan. Hơn nữa, các mô hình này có thể được đào tạo để hoạt động hiệu quả ngay cả trên các hệ thống có sức mạnh tính toán tương đối thấp. Hồi quy tuyến tính có độ phức tạp thấp hơn đáng kể khi so sánh với một số thuật toán học máy khác. Các phương trình toán học của Hồi quy tuyến tính cũng khá dễ hiểu. Do đó, Hồi quy tuyến tính rất dễ để nắm vững.

Hiệu suất trên các bộ dữ liệu có khả năng tách tuyến tính

Hồi quy tuyến tính gần như hoàn toàn phù hợp với các bộ dữ liệu có khả năng tách tuyến tính (Linearly separable datasets) và thường được dùng để tìm ra bản chất mối quan hệ giữa các biến.

Giảm Overfitting

Overfitting xảy ra khi một mô hình học máy quá khớp với tập dữ liệu và do đó mô hình thu cả dữ liệu nhiễu. Điều này tác động tiêu cực đến hiệu suất của mô hình và làm giảm độ chính xác của mô hình trên tập kiểm tra. Regularization trong hồi quy tuyến tính là kỹ thuật có thể dễ dàng thực hiện và có khả năng giảm độ phức tạp của chức năng một cách hiệu quả để giảm nguy cơ overfitting.

Nhược điểm của hồi quy tuyến tính

Dễ Underfitting 

Underfitting xảy ra khi một mô hình học máy không thể thu thập dữ liệu đúng cách. Điều này thường xảy ra khi chức năng giả thuyết (hypothesis) không phù hợp với dữ liệu.

Do hồi quy tuyến tính giả định mối quan hệ tuyến tính giữa các biến đầu vào và đầu ra, nên nó không phù hợp với các tập dữ liệu phức tạp. Trong hầu hết các tình huống thực tế, mối quan hệ giữa các biến của tập dữ liệu không phải là tuyến tính và do đó, một đường thẳng sẽ không phù hợp với dữ liệu. Trong những tình huống như vậy, cần đến hàm phức tạp hơn để thu thập dữ liệu hiệu quả hơn. Cũng bởi vậy, hầu hết các mô hình hồi quy tuyến tính đều có độ chính xác thấp.

Nhạy cảm với dữ liệu ngoại lai

Dữ liệu ngoại lai (outliers) là điểm bất thường hoặc giá trị khác xa so với phần còn lại. Nó có thể làm hỏng hiệu suất của mô hình học máy và thường dẫn đến độ chính xác thấp.

Do ảnh hưởng rất lớn đến hiệu suất của hồi quy tuyến tính nên dữ liệu ngoại lai phải được xử lý thích hợp trước khi áp dụng mô hình hồi quy tuyến tính lên tập dữ liệu.

Trong học máy, dữ liệu được sử dụng để đưa ra dự đoán về các sự kiện và kết quả trong tương lai. Từ đề xuất nên xem bộ phim nào đến xác định tuyến đường hiệu quả nhất cho xe tải, các mô hình hồi quy tuyến tính đều đóng vai trò định hình công nghệ quan trọng. Hy vọng bạn đã nắm được kiến thức tổng quan về Hồi quy tuyến tính là gì thông qua bài viết của chúng tôi! 

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Việc mất 10 tiếng để làm được AI hoàn thành trong 10 giây: Các sinh viên tài chính ngân hàng chuẩn bị mất việc?

Thách thức và xu hướng của ngành Fintech tại Đông Nam Á trong năm 2024

Đẩy mạnh vốn FDI vào lĩnh vực Fintech, công nghệ cao

AI có thể là một mối nguy đối với nhân loại?

Bitcoin trở thành tài sản có giá trị lớn thứ 8 toàn cầu

Mặt trái của AI: Tiêu thụ điện năng ở mức khổng lồ

Kỷ nguyên công nghệ gia tăng áp lực cạnh tranh giữa các doanh nghiệp bất động sản

Hé lộ 3 kênh podcast ‘giải ngố đầu tư’ dành cho người mới bắt đầu

Tin mới cập nhật

Sau những nhịp giảm sốc, chứng khoán bao giờ ngừng rơi?

1 giờ trước

Kỳ vọng có khung pháp lý phù hợp để quản lý tài sản ảo

2 giờ trước

ĐHĐCĐ Viettel Construction: Mục tiêu tổng doanh thu năm 2024 tăng 11%, đạt 11.653 tỷ đồng

3 giờ trước

ĐHĐCĐ Chứng khoán Tiên Phong (TPS): Kế hoạch lợi nhuận tăng trưởng 26%, phát hành cổ phiếu để tăng vốn điều lệ

4 giờ trước

Doanh nghiệp đẩy mạnh phát triển kinh tế tuần hoàn, sử dụng công nghệ mới

6 giờ trước