Reinforcement Learning: Bước tiến quan trọng của Trí tuệ nhân tạo?

Thứ tư, 02/11/2022-08:11
Trong ngành khoa học máy tính, Reinforcement Learning là một lĩnh vực con của Machine Learning, nghiên cứu cách thức một máy (agent) trong một môi trường nên chọn thực hiện các hành động nào để tối đa hóa một khoản thưởng nào đó về lâu dài.

Reinforcement Learning là gì? 

Reinforcement Learning (RL), Học tăng cường đề cập đến một lĩnh vực phụ của học máy (Machine Learning) cho phép các hệ thống dựa trên AI thực hiện hành động thử và sai để đưa ra giải pháp vấn đề. Để khiến máy làm điều lập trình viên muốn, các máy sẽ nhận được phần thưởng hoặc hình phạt cho những hành động mà nó thực hiện. Mục tiêu của nó là tối đa tổng phần thưởng.

Học tăng cường tối ưu hóa các hệ thống do AI điều khiển bằng cách bắt chước trí thông minh mô phỏng nhận thức của con người. Cách tiếp cận học như vậy giúp lập trình viên đưa ra các quyết định quan trọng nhằm đạt được kết quả đáng kinh ngạc trong các nhiệm vụ dự kiến ​​mà không cần sự tham gia của con người hoặc không cần lập trình rõ ràng các hệ thống AI.

Ví dụ minh họa: Trong mùa đông, một đứa trẻ thấy ấm khi đến gần lửa, vậy nên nó sẽ có xu hướng đến gần lửa hơn (để nhận được phần thưởng là sự ấm áp), nhưng khi chạm phải lửa, đứa trẻ sẽ có xu hướng tránh chạm (để không nhận hình phạt là bỏng tay).

Trong ví dụ trên, phần thưởng xuất hiện ngay lập tức nên việc điều chỉnh hành động tương đối dễ dàng. Tuy nhiên, trong các trường hợp phức tạp hơn khi phần thưởng ở xa trong tương lai, việc điều chỉnh hành động trở nên phức tạp hơn. Vậy làm sao để đạt được phần thưởng cao nhất trong suốt quá trình? Reinforcement Learning là các thuật toán để giải bài toán tối ưu này.


 
 
  • Environment, môi trường là không gian máy tương tác
  • Agent, máy, quan sát môi trường và tạo ra hành động tương ứng (action)
  • Policy, chiến thuật, do máy tạo ra để đạt được mục đích
  • Reward, phần thưởng, từ môi trường mà máy nhận được khi thực hiện hành động
  • State, trạng thái, của môi trường máy nhận được.
  • Episode, tập, là một chuỗi các trạng thái và hành động cho đến trạng thái kết thúc

Phấn loại Reinforcement Learning

Về mặt kỹ thuật, việc triển khai học tăng cường có thể được phân thành ba loại:

  • Dựa trên chính sách: Cách tiếp cận RL này nhằm mục đích tối đa hóa phần thưởng của hệ thống bằng cách sử dụng các chính sách, chiến lược và kỹ thuật xác định.
  • Dựa trên giá trị: Việc triển khai RL dựa trên giá trị nhằm tối ưu hóa chức năng giá trị tùy ý liên quan đến việc học.
  • Dựa trên mô hình: Phương pháp dựa trên mô hình cho phép tạo ra một thiết lập ảo cho một môi trường cụ thể. Hơn nữa, các tác nhân hệ thống tham gia thực hiện nhiệm vụ của chúng trong các thông số kỹ thuật ảo này.

Reinforcement Learning hoạt động như thế nào?

Nguyên tắc hoạt động của học tăng cường dựa trên chức năng khen thưởng. Cơ chế của RL được hiểu cơ bản như sau:

Giả sử bạn có ý định dạy thú cưng (chó) của mình một số thủ thuật. Vì thú cưng của bạn không thể dịch ngôn ngữ của con người nên chúng ta cần áp dụng một chiến lược khác.

Chiến lược là để thú cưng thực hiện một nhiệm vụ cụ thể và đưa ra phần thưởng (chẳng hạn như một món ăn) cho nó. Bây giờ, bất cứ khi nào thú cưng gặp phải tình huống tương tự, nó sẽ cố gắng thực hiện hành động tương tự mà trước đó đã làm để kiếm được phần thưởng một cách nhiệt tình hơn.

Do đó, thú cưng đã “học” từ những kinh nghiệm của nó và lặp lại các hành động vì bây giờ nó biết 'phải làm gì' khi một tình huống cụ thể phát sinh. Tương tự, con vật cũng nhận thức được những điều cần tránh nếu nó gặp phải một tình huống cụ thể.

Quy trình:


 
 
  • Thú cưng của bạn hoạt động như một máy di chuyển xung quanh nhà, đó là môi trường. Ở đây, trạng thái đề cập đến tư thế ngồi của con chó, có thể được thay đổi thành đi bộ khi bạn nói một từ cụ thể.
  • Quá trình chuyển đổi từ ngồi sang đi xảy ra khi máy  phản ứng với lời nói của bạn khi ở trong môi trường. Ở đây, chính sách cho phép các máy thực hiện hành động trong một trạng thái cụ thể và mong đợi một kết quả tốt hơn.
  • Sau khi vật nuôi chuyển sang trạng thái thứ hai (đi bộ), nó sẽ nhận được phần thưởng (thức ăn cho chó).

Ứng dụng

Học tăng cường được thiết kế để tối đa hóa phần thưởng mà các máy kiếm được khi chúng hoàn thành một nhiệm vụ cụ thể. RL có lợi cho một số kịch bản và ứng dụng trong đời thực, bao gồm ô tô tự hành, robot, bác sĩ phẫu thuật và thậm chí cả AI bots.

Dưới đây là những ứng dụng quan trọng của việc học tăng cường trong cuộc sống hàng ngày của chúng ta để định hình lĩnh vực AI.

Reinforcement Learning quản lý xe ô tô tự lái

Để các phương tiện vận hành tự chủ trong môi trường đô thị, chúng cần sự hỗ trợ đáng kể từ các mô hình học máy để mô phỏng tất cả các tình huống hoặc viễn cảnh mà xe có thể gặp phải. RL đến để xử lý trong những trường hợp như vậy vì các mô hình này được đào tạo trong một môi trường năng động, trong đó tất cả các con đường khả thi đều được nghiên cứu và sắp xếp thông qua quá trình học. 

Khả năng rút kinh nghiệm khiến RL trở thành lựa chọn tốt nhất cho những chiếc xe tự lái cần đưa ra quyết định tối ưu khi đang di chuyển. Một số biến, chẳng hạn như quản lý vùng lái xe, xử lý giao thông, giám sát tốc độ xe và kiểm soát tai nạn, được xử lý tốt thông qua các phương pháp Học tăng cường.

Một nhóm các nhà nghiên cứu đã phát triển khả năng mô phỏng đó cho các đơn vị tự trị như máy bay không người lái và ô tô tại MIT, được đặt tên là 'DeepTraffic'. Dự án là một môi trường mã nguồn mở phát triển các thuật toán bằng cách kết hợp Reinforcement Learning, học sâu (Deep Learning) và các ràng buộc về thị giác máy tính (Computer Vision).

Reinforcement Learning giải quyết vấn đề tiêu thụ năng lượng

Với sự gia tăng vượt bậc trong phát triển AI, các chính quyền có thể xử lý các vấn đề nghiêm trọng như tiêu thụ năng lượng ngày nay. Hơn nữa, số lượng thiết bị IoT và các hệ thống thương mại, công nghiệp và doanh nghiệp ngày càng tăng đã khiến các máy chủ buộc phải luôn đứng vững.

Khi các thuật toán học tăng cường trở nên phổ biến, người ta đã xác định được rằng các tác nhân Reinforcement Learning mà không có bất kỳ kiến ​​thức trước nào về điều kiện máy chủ có thể kiểm soát các thông số vật lý xung quanh máy chủ. Dữ liệu cho việc này được thu thập thông qua nhiều cảm biến nhiệt độ, điện năng và các dữ liệu khác, giúp đào tạo các mạng thần kinh sâu, do đó góp phần làm mát các trung tâm dữ liệu và điều chỉnh mức tiêu thụ năng lượng. Thông thường, các thuật toán mạng Q-learning (DQN) được sử dụng trong những trường hợp như vậy.

Reinforcement Learning điều khiển tín hiệu giao thông

Đô thị hóa và nhu cầu tăng cao đối với các phương tiện giao thông ở các thành phố đô thị đã dấy lên báo động cho các nhà chức trách, khi họ phải vật lộn trong việc quản lý tình trạng tắc nghẽn giao thông môi trường đô thị. Một giải pháp cho vấn đề này là Reinforcement Learning, vì các mô hình học tăng cường có thể điều khiển đèn giao thông dựa trên tình trạng giao thông trong một địa phương.

Điều này ngụ ý rằng mô hình xem xét lưu lượng từ nhiều hướng và sau đó học hỏi, điều chỉnh và điều chỉnh tín hiệu đèn giao thông trong mạng lưới giao thông đô thị.


 
 

Reinforcement Learning trong chăm sóc sức khỏe

RLđóng một vai trò quan trọng trong lĩnh vực chăm sóc sức khỏe vì DTRs (Dynamic Treatment Regimes - Chế độ điều trị động) đã hỗ trợ các chuyên gia y tế trong việc xử lý sức khỏe của bệnh nhân. DTR sử dụng một chuỗi các quyết định để đưa ra giải pháp cuối cùng. Quy trình tuần tự này có thể bao gồm các bước sau:

  • Xác định tình trạng sống của bệnh nhân
  • Quyết định loại điều trị
  • Đưa ra liều lượng thuốc phù hợp dựa trên tình trạng của bệnh nhân
  • Quyết định thời gian liều lượng, v.v.

Với chuỗi quyết định này, bác sĩ có thể tinh chỉnh chiến lược điều trị của họ và chẩn đoán các bệnh phức tạp như mệt mỏi về tinh thần, tiểu đường, ung thư, v.v. Hơn nữa, DTR có thể giúp đưa ra phương pháp điều trị vào đúng thời điểm mà không có bất kỳ biến chứng nào phát sinh do sự chậm trễ gây ra.

Reinforcement Learning trong phát triển người máy

Robotics là một lĩnh vực đào tạo robot để bắt chước hành vi của con người khi nó thực hiện một nhiệm vụ. Tuy nhiên, các người máy ngày nay dường như không có đạo đức, tính xã hội hoặc ý thức thông thường trong khi hoàn thành mục tiêu. Trong những trường hợp như vậy, các lĩnh vực phụ của AI như Deep Learning và Reinforcement Learning có thể được kết hợp, tại thành Deep Reinforcement Learning (Học tăng cường sâu) để có được kết quả tốt hơn.

Deep RL rất quan trọng đối với robot trong điều hướng kho hàng khi cung cấp các bộ phận sản phẩm thiết yếu, đóng gói sản phẩm, lắp ráp sản phẩm, kiểm tra lỗi, v.v. Ví dụ: các mô hình RL sâu được đào tạo trên dữ liệu đa phương thức, chìa khóa để xác định các bộ phận bị thiếu, vết nứt, vết xước, hoặc thiệt hại tổng thể cho máy móc trong kho do quét hình ảnh với hàng tỷ điểm dữ liệu.

Hơn nữa, học tăng cường sâu cũng giúp quản lý hàng tồn kho vì các máy được đào tạo để khoanh vùng các container rỗng và bổ sung chúng ngay lập tức.


 
 

Reinforcement Learning trong marketing

RL giúp các tổ chức tối đa hóa sự tăng trưởng của khách hàng và hợp lý hóa các chiến lược kinh doanh để đạt được các mục tiêu dài hạn. Trong lĩnh vực tiếp thị, Reinforcement Learning hỗ trợ đưa ra các đề xuất được cá nhân hóa cho người dùng bằng cách dự đoán các lựa chọn, phản ứng và hành vi của họ đối với các sản phẩm hoặc dịch vụ cụ thể.

Reinforcement Learning trong game

Các máy học tăng cường học hỏi và thích nghi với môi trường chơi game khi chúng liên tục áp dụng logic thông qua kinh nghiệm và đạt được kết quả mong muốn bằng cách thực hiện một chuỗi các bước.

Ví dụ, AlphaGo do DeepMind tạo ra của Google đã vượt trội so với kiện tướng cờ vây vào tháng 10 năm 2015. Đó là một bước tiến lớn đối với các mô hình AI vào thời điểm đó. 

Bên cạnh việc thiết kế các trò chơi như AlphaGo sử dụng mạng thần kinh sâu, các máy RL được sử dụng để kiểm tra trò chơi và phát hiện lỗi trong môi trường trò chơi. Các lỗi tiềm ẩn có thể dễ dàng xác định khi RL chạy nhiều lần mà không có sự can thiệp từ bên ngoài. Ví dụ, các công ty game như Ubisoft sử dụng Reinforcement Learning để phát hiện lỗi.

Kết luận

Reinforcement Learning giúp tự động hóa quá trình ra quyết định và học tập. Các máy RL học hỏi từ môi trường và kinh nghiệm của chúng mà không cần phải dựa vào sự giám sát trực tiếp hoặc sự can thiệp của con người.

Học tăng cường là một tập hợp con quan trọng của AI và Machine Learning. Nó thường hữu ích cho việc phát triển rô bốt tự động, máy bay không người lái hoặc thậm chí mô phỏng, vì nó mô phỏng các quy trình học tập giống như con người để hiểu môi trường xung quanh.

Theo: Reatimes.vn
Copy link
Chia sẻ:

Cùng chủ đề

Việc mất 10 tiếng để làm được AI hoàn thành trong 10 giây: Các sinh viên tài chính ngân hàng chuẩn bị mất việc?

Bitcoin trở thành tài sản có giá trị lớn thứ 8 toàn cầu

Mặt trái của AI: Tiêu thụ điện năng ở mức khổng lồ

Kỷ nguyên công nghệ gia tăng áp lực cạnh tranh giữa các doanh nghiệp bất động sản

Hé lộ 3 kênh podcast ‘giải ngố đầu tư’ dành cho người mới bắt đầu

Top 5 bóng hồng quyền lực trong làng công nghệ thế giới

5 tiêu chí tham gia cơ chế thử nghiệm cho vay ngang hàng - P2P Lending

Gen Z “sống chất” với phong cách tài chính 4.0: Luôn biết cách “tích tiểu thành đại”, “xung phong” lan tỏa tài chính số

Tin mới cập nhật

Blockchain, trí tuệ nhận tạo sẽ giúp định hình tương lai theo cách "không thể tưởng tượng nổi"

8 giờ trước

Cổ đông lo giá cổ phiếu giảm khi nhiều ngân hàng chia cổ tức

16 giờ trước

Trung tâm thương mại TP.HCM "đắt" khách thuê

16 giờ trước

Hà Nội có mức sống đắt đỏ nhất Việt Nam: Gia đình 4 người chi 30 triệu/tháng vẫn thấy thiếu

17 giờ trước

Bí quyết tạo prompt nhằm tận dụng sức mạnh của chatbot AI

17 giờ trước