Học Tăng cường (RL) là một nhánh của học máy, trong đó tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường. Trong RL, mục tiêu của tác nhân là học một chính sách (một chiến lược) để lựa chọn các hành động nhằm tối đa hóa phần thưởng tích lũy theo thời gian.
Khác với học có giám sát, vốn yêu cầu các ví dụ được gán nhãn, RL dựa vào phản hồi thử và sai: các hành động mang lại kết quả tích cực (phần thưởng) sẽ được củng cố, trong khi những hành động gây kết quả tiêu cực (hình phạt) sẽ bị tránh.
Như Sutton và Barto giải thích, RL về cơ bản là “một phương pháp tính toán để hiểu và tự động hóa việc học và ra quyết định hướng tới mục tiêu” trong đó tác nhân học từ tương tác trực tiếp với môi trường, không cần sự giám sát bên ngoài hay một mô hình hoàn chỉnh về thế giới.
Trong thực tế, điều này có nghĩa là tác nhân liên tục khám phá không gian trạng thái - hành động, quan sát kết quả của các hành động và điều chỉnh chiến lược để cải thiện phần thưởng trong tương lai.
Khái niệm và Thành phần Chính
Học tăng cường bao gồm một số yếu tố cốt lõi. Nói chung, tác nhân (người học hoặc thực thể ra quyết định) tương tác với môi trường (hệ thống bên ngoài hoặc không gian vấn đề) bằng cách thực hiện các hành động tại các bước thời gian rời rạc.
Tại mỗi bước, tác nhân quan sát trạng thái hiện tại của môi trường, thực hiện một hành động, rồi nhận được một phần thưởng (tín hiệu phản hồi số) từ môi trường. Qua nhiều lần tương tác như vậy, tác nhân cố gắng tối đa hóa tổng phần thưởng (tích lũy). Các khái niệm chính bao gồm:
- Tác nhân: Người học tự động (ví dụ: chương trình AI hoặc robot) đưa ra quyết định.
- Môi trường: Thế giới hoặc miền vấn đề mà tác nhân tương tác. Môi trường cung cấp trạng thái hiện tại cho tác nhân và tính toán phần thưởng dựa trên hành động của tác nhân.
- Hành động: Quyết định hoặc bước đi mà tác nhân thực hiện để ảnh hưởng đến môi trường. Các hành động khác nhau có thể dẫn đến trạng thái và phần thưởng khác nhau.
- Trạng thái: Đại diện cho môi trường tại một thời điểm nhất định (ví dụ: vị trí các quân cờ trên bàn cờ hoặc dữ liệu cảm biến của robot). Tác nhân sử dụng trạng thái để quyết định hành động tiếp theo.
- Phần thưởng: Tín hiệu phản hồi dạng số (có thể dương, âm hoặc bằng 0) do môi trường cung cấp sau mỗi hành động. Nó đo lường lợi ích (hoặc chi phí) ngay lập tức của hành động đó. Mục tiêu của tác nhân là tối đa hóa phần thưởng tích lũy kỳ vọng theo thời gian.
- Chính sách: Chiến lược của tác nhân để chọn hành động, thường là ánh xạ từ trạng thái sang hành động. Qua học tập, tác nhân hướng tới tìm chính sách tối ưu hoặc gần tối ưu.
- Hàm giá trị (hoặc giá trị trả về): Ước lượng phần thưởng tương lai kỳ vọng (phần thưởng tích lũy) mà tác nhân sẽ nhận được từ một trạng thái (hoặc cặp trạng thái-hành động). Hàm giá trị giúp tác nhân đánh giá hậu quả lâu dài của các hành động.
- Mô hình (tùy chọn): Trong RL dựa trên mô hình, tác nhân xây dựng mô hình nội bộ về động lực môi trường (cách trạng thái chuyển đổi theo hành động) và dùng nó để lập kế hoạch. Trong RL không dựa trên mô hình, tác nhân học hoàn toàn từ kinh nghiệm thử và sai mà không xây dựng mô hình.
Cách Thức Hoạt Động của Học Tăng cường
RL thường được mô hình hóa dưới dạng quy trình quyết định Markov (MDP). Tại mỗi bước thời gian rời rạc, tác nhân quan sát trạng thái St và chọn hành động At. Môi trường sau đó chuyển sang trạng thái mới St+1 và phát ra phần thưởng Rt+1 dựa trên hành động đã thực hiện.
Qua nhiều tập hợp tương tác, tác nhân tích lũy kinh nghiệm dưới dạng chuỗi trạng thái - hành động - phần thưởng. Bằng cách phân tích các hành động dẫn đến phần thưởng cao hơn, tác nhân dần cải thiện chính sách của mình.
Điều quan trọng là các bài toán RL đòi hỏi sự cân bằng giữa khám phá và khai thác. Tác nhân phải khai thác các hành động đã biết mang lại phần thưởng tốt để thu lợi, đồng thời cũng phải khám phá các hành động mới có thể mang lại kết quả tốt hơn.
Ví dụ, một tác nhân học tăng cường điều khiển robot có thể thường xuyên chọn đường đi an toàn đã được chứng minh (khai thác) nhưng thỉnh thoảng thử một lối đi mới (khám phá) để có thể tìm ra đường nhanh hơn. Việc cân bằng này rất quan trọng để tìm ra chính sách tối ưu.
Quá trình học thường được ví như điều kiện hóa hành vi. Ví dụ, AWS ghi nhận RL “mô phỏng quá trình học thử và sai mà con người sử dụng”. Một đứa trẻ có thể học rằng dọn dẹp sẽ được khen ngợi trong khi ném đồ chơi sẽ bị mắng; tương tự, tác nhân RL học được hành động nào mang lại phần thưởng bằng cách nhận phản hồi tích cực cho hành động tốt và phản hồi tiêu cực cho hành động xấu.
Theo thời gian, tác nhân xây dựng các ước lượng giá trị hoặc chính sách phản ánh chuỗi hành động tốt nhất để đạt mục tiêu dài hạn.
Trong thực tế, các thuật toán RL tích lũy phần thưởng qua các tập hợp và hướng tới tối đa hóa giá trị trả về kỳ vọng (tổng phần thưởng tương lai). Chúng học cách ưu tiên các hành động dẫn đến phần thưởng cao trong tương lai, ngay cả khi những hành động đó không mang lại phần thưởng ngay lập tức cao nhất. Khả năng lập kế hoạch cho lợi ích lâu dài (đôi khi chấp nhận hy sinh ngắn hạn) khiến RL phù hợp với các nhiệm vụ ra quyết định phức tạp, theo chuỗi.
Các Loại Thuật Toán Học Tăng cường
Có nhiều thuật toán để triển khai học tăng cường. Nói chung, chúng thuộc hai nhóm: dựa trên mô hình và không dựa trên mô hình.
-
RL dựa trên mô hình: Tác nhân trước tiên học hoặc biết mô hình động lực của môi trường (cách trạng thái thay đổi và cách phần thưởng được cấp) rồi lập kế hoạch hành động bằng cách mô phỏng kết quả. Ví dụ, một robot lập bản đồ tòa nhà để tìm đường ngắn nhất sử dụng phương pháp dựa trên mô hình.
-
RL không dựa trên mô hình: Tác nhân không có mô hình rõ ràng về môi trường và học hoàn toàn từ thử và sai trong môi trường thực tế (hoặc mô phỏng). Thay vì lập kế hoạch với mô hình, nó cập nhật dần các ước lượng giá trị hoặc chính sách dựa trên kinh nghiệm. Hầu hết các thuật toán RL cổ điển (như Q-learning hoặc học theo sai số thời gian) thuộc nhóm này.
Trong các nhóm này, thuật toán khác nhau về cách biểu diễn và cập nhật chính sách hoặc hàm giá trị. Ví dụ, Q-learning (phương pháp dựa trên giá trị) học ước lượng “giá trị Q” (giá trị trả về kỳ vọng) cho các cặp trạng thái-hành động và chọn hành động có giá trị cao nhất.
Phương pháp chính sách-gradient trực tiếp tham số hóa chính sách và điều chỉnh tham số thông qua phép tăng dần gradient trên phần thưởng kỳ vọng. Nhiều phương pháp tiên tiến (như Actor-Critic hoặc Trust Region Policy Optimization) kết hợp ước lượng giá trị và tối ưu chính sách.
Một phát triển quan trọng gần đây là Học Tăng cường Sâu. Ở đây, mạng nơ-ron sâu được dùng làm bộ xấp xỉ hàm cho hàm giá trị hoặc chính sách, giúp RL xử lý dữ liệu đầu vào có chiều cao như hình ảnh. Thành công của DeepMind trên các trò chơi Atari và cờ bàn (ví dụ AlphaGo trong cờ vây) đến từ việc kết hợp học sâu với RL. Trong học tăng cường sâu, các thuật toán như Deep Q-Networks (DQN) hoặc Deep Policy Gradients mở rộng RL cho các nhiệm vụ phức tạp trong thế giới thực.
Ví dụ, AWS ghi nhận các thuật toán RL phổ biến bao gồm Q-learning, phương pháp Monte Carlo, phương pháp chính sách-gradient và học theo sai số thời gian, và “Deep RL” đề cập đến việc sử dụng mạng nơ-ron sâu trong các phương pháp này.
Ứng Dụng của Học Tăng cường
Học tăng cường được áp dụng trong nhiều lĩnh vực mà việc ra quyết định theo chuỗi dưới sự không chắc chắn là rất quan trọng. Các ứng dụng chính bao gồm:
- Trò chơi và Mô phỏng: RL nổi tiếng với việc làm chủ các trò chơi và mô phỏng. Ví dụ, AlphaGo và AlphaZero của DeepMind đã học chơi cờ vây và cờ vua ở mức siêu phàm bằng RL. Các trò chơi điện tử (Atari, StarCraft) và mô phỏng (vật lý, robot) là môi trường thử nghiệm tự nhiên cho RL vì môi trường được xác định rõ và có thể thử nhiều lần.
- Robot và Điều khiển: Robot tự động và xe tự lái là các tác nhân trong môi trường động. Qua thử và sai, RL có thể dạy robot cầm nắm vật hoặc xe điều hướng giao thông. IBM ghi nhận robot và xe tự lái là ví dụ điển hình của tác nhân RL học qua tương tác với môi trường.
- Hệ thống Gợi ý và Marketing: RL có thể cá nhân hóa nội dung hoặc quảng cáo dựa trên tương tác người dùng. Ví dụ, hệ thống gợi ý dựa trên RL cập nhật đề xuất khi người dùng nhấp hoặc bỏ qua mục, học cách trình bày quảng cáo hoặc sản phẩm phù hợp nhất theo thời gian.
- Tối ưu Hóa Tài nguyên: RL xuất sắc trong tối ưu hóa hệ thống với mục tiêu dài hạn. Ví dụ như điều chỉnh làm mát trung tâm dữ liệu để giảm tiêu thụ năng lượng, điều khiển lưu trữ năng lượng lưới điện thông minh, hoặc quản lý tài nguyên điện toán đám mây. AWS mô tả các trường hợp như “tối ưu chi phí đám mây”, nơi tác nhân RL học cách phân bổ tài nguyên tính toán hiệu quả nhất về chi phí.
- Tài chính và Giao dịch: Thị trường tài chính là môi trường động và theo chuỗi. RL được nghiên cứu để tối ưu chiến lược giao dịch, quản lý danh mục đầu tư và phòng ngừa rủi ro bằng cách mô phỏng giao dịch và học hành động nào tối đa hóa lợi nhuận khi thị trường biến động.
Những ứng dụng này làm nổi bật sức mạnh của RL trong lập kế hoạch dài hạn. Khác với các phương pháp chỉ dự đoán kết quả ngay lập tức, RL tối đa hóa phần thưởng tích lũy, rất phù hợp với các bài toán mà hành động có hậu quả chậm trễ.
Học Tăng cường so với Các Phương pháp Học Máy Khác
Học tăng cường là một trong ba mô hình chính của học máy (cùng với học có giám sát và học không giám sát), nhưng có trọng tâm khá khác biệt. Học có giám sát huấn luyện trên các cặp dữ liệu đầu vào - đầu ra đã gán nhãn, trong khi học không giám sát tìm kiếm các mẫu trong dữ liệu chưa gán nhãn.
Ngược lại, RL không yêu cầu các ví dụ có nhãn về hành vi đúng. Thay vào đó, nó xác định một mục tiêu thông qua tín hiệu phần thưởng và học bằng thử và sai. Trong RL, “dữ liệu huấn luyện” (các bộ trạng thái - hành động - phần thưởng) là liên tiếp và phụ thuộc lẫn nhau, vì mỗi hành động ảnh hưởng đến các trạng thái tương lai.
Nói đơn giản, học có giám sát dạy mô hình cái gì cần dự đoán; học tăng cường dạy tác nhân cách hành động. Như IBM nhận xét, RL học bằng “củng cố tích cực” (phần thưởng) thay vì được chỉ ra câu trả lời đúng.
Điều này làm cho RL đặc biệt mạnh mẽ cho các nhiệm vụ liên quan đến ra quyết định và điều khiển. Tuy nhiên, nó cũng đồng nghĩa RL có thể khó khăn hơn: không có phản hồi có nhãn, tác nhân phải tự khám phá các hành động tốt, thường đòi hỏi nhiều khám phá môi trường.
Những Thách Thức của Học Tăng cường
Mặc dù mạnh mẽ, RL cũng gặp phải những thách thức thực tiễn:
- Hiệu quả mẫu thấp: RL thường đòi hỏi lượng lớn kinh nghiệm (số lần thử) để học chính sách hiệu quả. Huấn luyện trong thế giới thực có thể tốn kém hoặc chậm (ví dụ, một robot có thể cần hàng triệu lần thử để thành thạo nhiệm vụ). Vì vậy, nhiều hệ thống RL được huấn luyện trong mô phỏng trước khi triển khai.
- Thiết kế phần thưởng: Xác định hàm phần thưởng phù hợp là điều khó khăn. Phần thưởng không hợp lý có thể dẫn đến hành vi không mong muốn (tác nhân có thể “lách luật” phần thưởng theo cách không phù hợp với mục tiêu thực sự). Việc thiết kế phần thưởng phản ánh mục tiêu dài hạn mà không tạo ra lối tắt không mong muốn là một nghệ thuật trong nghiên cứu RL.
- Ổn định và An toàn: Trong môi trường thực tế (robot, y tế, tài chính), các hành động khám phá không an toàn có thể nguy hiểm hoặc tốn kém. AWS lưu ý rằng thử nghiệm thực tế (ví dụ bay drone) có thể không khả thi nếu không có mô phỏng. Đảm bảo an toàn trong quá trình học và triển khai là lĩnh vực nghiên cứu RL đang phát triển.
- Khả năng giải thích: Chính sách RL học được (đặc biệt là mô hình RL sâu) có thể khó hiểu. Việc hiểu tại sao tác nhân chọn hành động nhất định thường khó khăn, gây trở ngại cho việc gỡ lỗi hoặc tin tưởng hệ thống. Thiếu khả năng giải thích này được xem là thách thức khi triển khai các hệ thống RL phức tạp.
Mỗi thách thức này đang được nghiên cứu liên tục. Bất chấp những khó khăn, thành công thực tiễn của RL (trong trò chơi, robot, hệ thống gợi ý, v.v.) cho thấy khi áp dụng cẩn trọng, RL có thể đạt kết quả ấn tượng.
>>>Nhấn để tìm hiểu thêm về:
Tóm lại, học tăng cường là một khung học tập tự động trong đó tác nhân học cách đạt mục tiêu bằng cách tương tác với môi trường và tối đa hóa phần thưởng tích lũy. Nó kết hợp các ý tưởng từ điều khiển tối ưu, lập trình động và tâm lý học hành vi, và là nền tảng của nhiều đột phá AI hiện đại.
Bằng cách mô hình hóa các bài toán như nhiệm vụ ra quyết định theo chuỗi có phản hồi, RL cho phép máy móc học các hành vi phức tạp một cách tự chủ, nối liền khoảng cách giữa học dựa trên dữ liệu và hành động hướng tới mục tiêu.