強化學習(RL) 是機器學習的一個分支,其中 代理人 透過與 環境 互動來學習做決策。在強化學習中,代理人的目標是學習一個 策略(一種策略)來選擇行動,以最大化隨時間累積的獎勵。

與需要標記範例的監督式學習不同,強化學習依賴於 試錯反饋:產生正面結果(獎勵)的行動會被強化,而產生負面結果(懲罰)的行動則會被避免。

正如 Sutton 和 Barto 所解釋,強化學習本質上是「一種理解和自動化目標導向學習與決策的計算方法」,代理人透過與環境的 直接互動 學習,無需外部監督或完整的世界模型。

實務上,這表示代理人持續探索狀態-行動空間,觀察行動結果,並調整策略以提升未來獎勵。

關鍵概念與組成要素

強化學習包含幾個核心元素。大致而言,代理人(學習者或決策實體)透過在離散時間點採取 行動環境(外部系統或問題空間)互動。

每一步,代理人觀察環境的當前 狀態,執行一個行動,然後從環境接收一個 獎勵(數值反饋信號)。經過多次互動,代理人尋求最大化其總累積獎勵。關鍵概念包括:

  • 代理人:自主學習者(例如 AI 程式或機器人),負責做決策。
  • 環境:代理人互動的世界或問題領域。環境提供當前狀態給代理人,並根據代理人的行動計算獎勵。
  • 行動:代理人為影響環境所做的決策或動作。不同的行動可能導致不同的狀態和獎勵。
  • 狀態:環境在特定時間的表示(例如棋盤上的棋子位置或機器人的感測器讀數)。代理人利用狀態決定下一步行動。
  • 獎勵:環境在每次行動後給予的標量反饋信號(正、負或零)。它量化該行動的即時利益(或成本)。代理人的目標是最大化 期望累積獎勵
  • 策略:代理人選擇行動的策略,通常是從狀態映射到行動。透過學習,代理人旨在找到最佳或近似最佳策略。
  • 價值函數(或回報):代理人從特定狀態(或狀態-行動對)預期獲得的未來獎勵(累積獎勵)估計。價值函數幫助代理人評估行動的長期影響。
  • 模型(可選):在基於模型的強化學習中,代理人建立環境動態的內部模型(狀態如何根據行動轉移),並用於規劃。在無模型強化學習中,代理人純粹透過試錯經驗學習,無需建立模型。

強化學習的關鍵概念與組成要素

強化學習的運作原理

強化學習通常被形式化為 馬可夫決策過程(MDP)。在每個離散時間點,代理人觀察狀態 St,選擇行動 At。環境隨後轉移到新狀態 St+1,並根據所採取的行動發出獎勵 Rt+1。

經過多次回合,代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵,代理人逐步改進其策略。

關鍵在於強化學習問題涉及 探索利用 之間的權衡。代理人必須 利用 已知最佳行動以獲得獎勵,同時也要 探索 新行動,可能帶來更佳結果。

例如,一個控制機器人的強化學習代理人通常會採用已證明安全的路徑(利用),但有時會嘗試新路徑(探索),以期發現更快的路線。平衡這種權衡對找到最佳策略至關重要。

學習過程常被比喻為行為條件反射。例如,AWS 指出強化學習「模仿人類的試錯學習過程」。孩子可能學會收拾玩具會得到讚美,而亂丟玩具會被責罵;同理,強化學習代理人透過對良好行動給予正面反饋、對不良行動給予負面反饋來學習哪些行動能獲得獎勵。

隨著時間推移,代理人建立價值估計或策略,捕捉達成長期目標的最佳行動序列。

實務上,強化學習演算法在多個回合中累積獎勵,並旨在最大化 期望回報(未來獎勵總和)。它們學會偏好導致高未來獎勵的行動,即使這些行動可能不會帶來最高的即時獎勵。這種為長期利益規劃(有時接受短期犧牲)的能力,使強化學習適合複雜的序列決策任務。

強化學習的運作原理

強化學習演算法類型

實現強化學習有許多演算法,主要分為兩類:基於模型無模型 方法。

  • 基於模型的強化學習:代理人首先學習或已知環境動態模型(狀態如何變化及獎勵如何給予),然後透過模擬結果來規劃行動。例如,機器人繪製建築物地圖以尋找最短路徑即屬基於模型的方法。

  • 無模型強化學習:代理人沒有明確的環境模型,僅透過在真實(或模擬)環境中的試錯學習。它不透過模型規劃,而是從經驗中逐步更新價值估計或策略。大多數經典強化學習演算法(如 Q-learning 或時序差分學習)屬於無模型方法。

在這些類別中,演算法在如何表示和更新策略或價值函數上有所不同。例如,Q-learning(基於價值的方法)學習狀態-行動對的「Q值」(期望回報)估計,並選擇價值最高的行動。

策略梯度 方法直接參數化策略,並透過期望獎勵的梯度上升調整參數。許多先進方法(如 Actor-Critic 或信賴域策略優化)結合價值估計與策略優化。

一項重大進展是 深度強化學習。此處,深度神經網路作為價值函數或策略的函數逼近器,使強化學習能處理高維輸入如影像。DeepMind 在 Atari 遊戲和棋類遊戲(如 AlphaGo)上的成功,來自深度學習與強化學習的結合。在深度強化學習中,演算法如深度 Q 網路(DQN)或深度策略梯度將強化學習擴展到複雜的現實任務。

例如,AWS 指出常見的強化學習演算法包括 Q-learning、蒙地卡羅方法、策略梯度方法和時序差分學習,而「深度強化學習」指的是這些方法中使用深度神經網路。

強化學習演算法類型

強化學習的應用

強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括:

  • 遊戲與模擬:強化學習在遊戲和模擬中取得突破。例如,DeepMind 的 AlphaGo 和 AlphaZero 利用強化學習達到超越人類的圍棋和西洋棋水平。電子遊戲(Atari、星海爭霸)和模擬器(物理、機器人模擬器)是理想的強化學習測試平台,因為環境明確且可進行多次試驗。
  • 機器人與控制:自主機器人和自駕車是動態環境中的代理人。透過試錯,強化學習能教導機器人抓取物體或車輛導航交通。IBM 指出,機器人和自駕車是強化學習代理人透過與環境互動學習的典型例子。
  • 推薦系統與行銷:強化學習可根據用戶互動個人化內容或廣告。例如,基於強化學習的推薦系統會隨著用戶點擊或跳過項目調整建議,學習呈現最相關的廣告或產品。
  • 資源優化:強化學習擅長優化具有長期目標的系統。例子包括調整資料中心冷卻以降低能耗、控制智慧電網儲能或管理雲端運算資源。AWS 描述的用例如「雲端支出優化」,即強化學習代理人學習如何分配計算資源以達最佳成本效益。
  • 金融與交易:金融市場動態且具序列性。強化學習被用於優化交易策略、投資組合管理和避險,透過模擬交易學習在市場變動中最大化回報的行動。

這些例子凸顯強化學習在 長期規劃 上的優勢。與僅預測即時結果的方法不同,強化學習明確最大化累積獎勵,適合行動有延遲後果的問題。

強化學習的應用

強化學習與其他機器學習的比較

強化學習是機器學習三大範式之一(另兩者為監督式與非監督式學習),但其焦點截然不同。監督式學習以標記的輸入-輸出對訓練模型,非監督式學習則在未標記資料中尋找模式。

相較之下,強化學習 需要正確行為的標記範例。它透過獎勵信號定義 目標,並以試錯方式學習。在強化學習中,「訓練資料」(狀態-行動-獎勵三元組)是 序列且相互依賴 的,因為每個行動會影響未來狀態。

簡言之,監督式學習告訴模型 預測什麼;強化學習教導代理人 如何行動。正如 IBM 的概述所述,強化學習透過「正向強化」(獎勵)學習,而非直接展示正確答案。

這使得強化學習特別適合涉及決策與控制的任務,但也意味著強化學習更具挑戰性:沒有標記反饋,代理人必須自行探索良好行動,通常需要大量環境探索。

強化學習與其他機器學習的比較

強化學習的挑戰

儘管強化學習強大,但在實務上仍面臨挑戰:

  • 樣本效率低:強化學習通常需要 大量經驗(試驗)才能學習有效策略。真實世界訓練可能昂貴或緩慢(例如,機器人可能需要數百萬次試驗才能掌握任務)。因此,許多強化學習系統先在模擬中訓練再部署。
  • 獎勵設計:定義適當的獎勵函數很棘手。不當的獎勵可能導致代理人產生意外行為(代理人可能「作弊」獎勵,與真實目標不符)。設計能捕捉長期目標且避免捷徑的獎勵,是強化學習研究中的藝術。
  • 穩定性與安全性:在真實世界場景(機器人、醫療、金融)中,不安全的探索行動可能危險或代價高昂。AWS 指出,真實世界實驗(如飛行無人機)可能不切實際,需依賴模擬。確保學習與部署過程中的安全性,是強化學習研究的活躍領域。
  • 可解釋性:學習到的強化學習策略(尤其是深度強化學習模型)可能不透明。理解代理人為何採取特定行動常很困難,增加系統除錯與信任的難度。這種缺乏可解釋性被視為複雜強化學習系統部署的挑戰。

這些挑戰皆為持續研究的主題。儘管困難,強化學習在遊戲、機器人、推薦系統等領域的實務成功證明,只要謹慎應用,強化學習能達成令人印象深刻的成果。

>>>點擊了解更多:

什麼是生成式人工智慧?

什麼是神經網路?

強化學習的挑戰


總結來說,強化學習是一種 自主學習框架,代理人透過與環境互動並最大化累積獎勵來達成目標。它結合了最佳控制、動態規劃與行為心理學的理念,是許多現代 AI 突破的基礎。

透過將問題框架化為具有反饋的序列決策任務,強化學習使機器能自主學習複雜行為,彌合了數據驅動學習與目標導向行動之間的鴻溝。

External References
This article has been compiled with reference to the following external sources: