甚麼是強化學習?

強化學習(RL)是機器學習的一個分支,代理人透過與環境互動來學習決策。在強化學習中,代理人的目標是學習一套策略,以選擇能夠隨時間最大化累積獎勵的行動。

強化學習(RL) 是機器學習的一個分支,其中一個 代理人 透過與 環境 互動來學習如何做決策。在強化學習中,代理人的目標是學習一套 策略(一種方法),以選擇能夠隨時間最大化累積獎勵的行動。

與需要標籤範例的監督式學習不同,強化學習依賴於 試錯反饋:產生正面結果(獎勵)的行動會被強化,而產生負面結果(懲罰)的行動則會被避免。

強化學習本質上是「一種理解及自動化目標導向學習與決策的計算方法」,代理人透過與環境的直接互動學習,無需外部監督或完整的世界模型。

— Sutton 與 Barto,強化學習研究者

實務上,這意味著代理人持續探索狀態-行動空間,觀察行動結果,並調整策略以提升未來獎勵。

主要概念與組成

強化學習包含幾個核心元素。簡單來說,代理人(學習者或決策實體)透過在離散時間點採取 行動環境(外部系統或問題空間)互動。

每一步,代理人觀察環境的當前 狀態,執行一個行動,然後從環境獲得一個 獎勵(數值反饋信號)。經過多次互動,代理人尋求最大化其總(累積)獎勵。

代理人

自主學習者(例如 AI 程式或機械人)負責做決策。

環境

代理人互動的世界或問題領域。環境提供當前狀態給代理人,並根據代理人的行動計算獎勵。

行動

代理人為影響環境所做的決策或動作。不同的行動可能導致不同的狀態和獎勵。

狀態

環境在特定時間的表示(例如棋盤上棋子的位子或機械人的感測器讀數)。代理人利用狀態決定下一步行動。

獎勵

環境在每次行動後給予的標量反饋信號(正面、負面或零)。它量化行動的即時效益(或成本)。代理人的目標是最大化 期望累積獎勵

策略

代理人選擇行動的策略,通常是從狀態映射到行動。透過學習,代理人旨在找到最佳或近似最佳策略。

價值函數

代理人從某狀態(或狀態-行動對)預期將獲得的未來獎勵(累積獎勵)估計。價值函數幫助代理人評估行動的長期後果。

模型(可選)

在基於模型的強化學習中,代理人建立環境動態的內部模型(狀態如何因行動轉移),並用於規劃。在無模型強化學習中,代理人純粹從試錯經驗中學習,無需建立模型。
強化學習的主要概念與組成
強化學習框架的主要概念與組成

強化學習如何運作

強化學習通常形式化為 馬可夫決策過程(MDP)。在每個離散時間點,代理人觀察狀態 St 並選擇行動 At。環境隨後轉移到新狀態 St+1,並根據所採取的行動發出獎勵 Rt+1。

經過多次回合,代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵,代理人逐步改進策略。

探索與利用:強化學習問題涉及探索與利用的關鍵權衡。代理人必須 利用 已知最佳行動以獲取獎勵,同時也要 探索 新行動,可能帶來更佳結果。

例如,一個控制機械人的強化學習代理人通常會採用已證實安全的路徑(利用),但有時會嘗試新路徑(探索),以期發現更快的路線。平衡此權衡對找到最佳策略至關重要。

強化學習「模仿人類使用的試錯學習過程」。小孩可能學會收拾玩具會獲讚賞,而亂丟玩具會被責罵;同理,強化學習代理人透過對好行動給予正面反饋,對壞行動給予負面反饋來學習哪些行動能獲得獎勵。

— AWS 機器學習文件

隨著時間推移,代理人建立價值估計或策略,捕捉達成長期目標的最佳行動序列。

實務上,強化學習算法在多回合中累積獎勵,目標是最大化 期望回報(未來獎勵總和)。它們學會偏好導致高未來獎勵的行動,即使該行動當下未必帶來最高獎勵。這種為長期利益規劃(有時接受短期犧牲)的能力,使強化學習適合複雜的序列決策任務。

強化學習如何運作
強化學習實務運作示意

強化學習算法類型

實現強化學習有多種算法,主要分為兩類:基於模型無模型 方法。

基於模型的強化學習

規劃方法

代理人先學習或已知環境動態模型(狀態如何變化及獎勵如何給予),然後透過模擬結果來規劃行動。

  • 在有限數據下效率高
  • 能有效提前規劃
  • 需要準確的環境模型

範例:機械人繪製建築物地圖以尋找最短路徑即為基於模型的方法。

無模型強化學習

直接學習

代理人沒有明確的環境模型,純粹透過在真實(或模擬)環境中的試錯學習。

  • 不需環境模型
  • 適用於複雜環境
  • 需要更多經驗

範例:大多數經典強化學習算法(如 Q-learning 或時序差分學習)屬於無模型方法。

在這些類別中,算法在如何表示及更新策略或價值函數上有所不同。例如,Q-learning(基於價值的方法)學習狀態-行動對的「Q值」(期望回報)估計,並選擇價值最高的行動。

策略梯度方法直接參數化策略,並透過期望獎勵的梯度上升調整參數。許多先進方法(如 Actor-Critic 或信賴域策略優化)結合價值估計與策略優化。

深度強化學習:近期重大進展,利用深度神經網絡作為價值函數或策略的函數逼近器,使強化學習能處理高維輸入如影像。DeepMind 在 Atari 遊戲及棋類遊戲(如 AlphaGo)上的成功即源於深度學習與強化學習的結合。

在深度強化學習中,算法如深度 Q 網絡(DQN)或深度策略梯度將強化學習擴展至複雜的現實任務。

常見強化學習算法包括 Q-learning、蒙地卡羅方法、策略梯度方法及時序差分學習,而「深度強化學習」指的是這些方法中使用深度神經網絡。

— AWS 機器學習文件
強化學習算法類型
強化學習算法類型

強化學習的應用

強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括:

遊戲與模擬

強化學習在遊戲和模擬器中取得突破。DeepMind 的 AlphaGo 和 AlphaZero 利用強化學習達到超越人類的圍棋和西洋棋水平。

  • 電子遊戲(Atari、星海爭霸)
  • 棋類遊戲(圍棋、西洋棋)
  • 物理模擬
  • 機械人模擬器

機械人與控制

自主機械人和自駕車是動態環境中的代理人,透過試錯學習。

  • 物體抓取與操作
  • 自主導航
  • 自駕車輛
  • 工業自動化

推薦系統

強化學習可根據用戶互動個人化內容或廣告,學習隨時間呈現最相關的項目。

  • 內容個人化
  • 廣告目標優化
  • 產品推薦
  • 用戶參與優化

資源優化

強化學習擅長優化具有長期目標和複雜資源分配挑戰的系統。

  • 數據中心冷卻優化
  • 智慧電網儲能
  • 雲端計算資源
  • 供應鏈管理

金融與交易

金融市場動態且序列性強,適合用強化學習進行交易策略和投資組合管理。

  • 算法交易策略
  • 投資組合優化
  • 風險管理
  • 做市商策略
長期規劃優勢:這些應用凸顯強化學習在 長期規劃 的優勢。與只預測即時結果的方法不同,強化學習明確最大化累積獎勵,適合行動有延遲後果的問題。
強化學習的應用
跨行業的強化學習應用

強化學習與其他機器學習的比較

強化學習是機器學習三大範式之一(另兩者為監督式與非監督式學習),但焦點截然不同。監督式學習以標籤輸入輸出對訓練,非監督式學習則在無標籤資料中尋找模式。

面向 監督式學習 非監督式學習 強化學習
資料類型 標籤輸入輸出對 無標籤資料 序列狀態-行動-獎勵元組
學習目標 預測正確輸出 發現隱藏模式 最大化累積獎勵
反饋類型 直接正確答案 無反饋 獎勵/懲罰信號
學習方法 從範例學習 發現結構 試錯探索

相比之下,強化學習 不需要 正確行為的標籤範例。它透過獎勵信號定義 目標,並以試錯方式學習。在強化學習中,「訓練資料」(狀態-行動-獎勵元組)是 序列且相互依賴,因為每個行動影響未來狀態。

簡言之,監督式學習告訴模型要預測什麼;強化學習教代理人如何行動。強化學習透過「正向強化」(獎勵)學習,而非直接展示正確答案。

— IBM 機器學習概述

這使得強化學習特別適合涉及決策與控制的任務。但同時也意味著強化學習更具挑戰性:沒有標籤反饋,代理人必須自行發現良好行動,通常需要大量探索環境。

強化學習與其他機器學習的比較
強化學習與其他機器學習範式的比較

強化學習的挑戰

儘管強化學習強大,但實務上存在挑戰:

樣本效率低

強化學習通常需要 大量經驗(試驗)來學習有效策略。真實世界訓練可能昂貴或緩慢(例如機械人可能需數百萬次試驗才能掌握任務)。因此,許多強化學習系統先在模擬中訓練再部署。

獎勵設計

定義適當的獎勵函數很棘手。不當的獎勵可能導致代理人產生意外行為(代理人可能「鑽獎勵漏洞」而偏離真正目標)。設計能捕捉長期目標且避免捷徑的獎勵是強化學習研究的藝術。

穩定性與安全性

在真實世界(如機械人、醫療、金融)中,不安全的探索行動可能危險或代價高昂。真實實驗(如飛行無人機)可能不切實際。確保學習與部署過程中的安全性是強化學習研究的活躍領域。

可解釋性

學到的強化學習策略(尤其是深度強化學習模型)可能不透明。理解代理人為何採取特定行動常很困難,增加了除錯與信任系統的難度。這種缺乏可解釋性被視為複雜強化學習系統部署的挑戰。
持續研究:這些挑戰皆為持續研究的主題。儘管困難重重,強化學習在遊戲、機械人、推薦系統等領域的實務成功證明,只要謹慎應用,強化學習能達成令人印象深刻的成果。
強化學習的挑戰
強化學習實施的挑戰

結論

總結來說,強化學習是一種 自主學習框架,代理人透過與環境互動並最大化累積獎勵來達成目標。它結合了最佳控制、動態規劃與行為心理學的理念,是許多現代 AI 突破的基礎。

透過將問題框架化為帶有反饋的序列決策任務,強化學習使機器能自主學習複雜行為,橋接了數據驅動學習與目標導向行動之間的鴻溝。

外部參考資料
本文章內容參考以下外部資源整理而成:
96 內容創作者及部落格貢獻者
Rosie Ha 是 Inviai 的作者,專注分享人工智能的知識與解決方案。憑藉在商業、內容創作及自動化等多個領域應用 AI 的經驗,Rosie Ha 將帶來易明、實用且具啟發性的文章。Rosie Ha 的使命是協助大家有效運用 AI,提高生產力並擴展創意潛能。
搜尋