什麼是強化學習？

強化學習（RL） 是機器學習的一個分支，其中 代理人 透過與環境互動來學習做決策。在強化學習中，代理人的目標是學習一個策略（一種策略）來選擇行動，以最大化隨時間累積的獎勵。

與需要標記範例的監督式學習不同，強化學習依賴於 試錯反饋：產生正面結果（獎勵）的行動會被強化，而產生負面結果（懲罰）的行動則會被避免。

正如 Sutton 和 Barto 所解釋，強化學習本質上是「一種理解和自動化目標導向學習與決策的計算方法」，代理人透過與環境的 直接互動 學習，無需外部監督或完整的世界模型。

實務上，這表示代理人持續探索狀態-行動空間，觀察行動結果，並調整策略以提升未來獎勵。

關鍵概念與組成要素

強化學習包含幾個核心元素。大致而言，代理人（學習者或決策實體）透過在離散時間點採取行動與環境（外部系統或問題空間）互動。

每一步，代理人觀察環境的當前狀態，執行一個行動，然後從環境接收一個獎勵（數值反饋信號）。經過多次互動，代理人尋求最大化其總累積獎勵。關鍵概念包括：

代理人：自主學習者（例如 AI 程式或機器人），負責做決策。
環境：代理人互動的世界或問題領域。環境提供當前狀態給代理人，並根據代理人的行動計算獎勵。
行動：代理人為影響環境所做的決策或動作。不同的行動可能導致不同的狀態和獎勵。
狀態：環境在特定時間的表示（例如棋盤上的棋子位置或機器人的感測器讀數）。代理人利用狀態決定下一步行動。
獎勵：環境在每次行動後給予的標量反饋信號（正、負或零）。它量化該行動的即時利益（或成本）。代理人的目標是最大化 期望累積獎勵。
策略：代理人選擇行動的策略，通常是從狀態映射到行動。透過學習，代理人旨在找到最佳或近似最佳策略。
價值函數（或回報）：代理人從特定狀態（或狀態-行動對）預期獲得的未來獎勵（累積獎勵）估計。價值函數幫助代理人評估行動的長期影響。
模型（可選）：在基於模型的強化學習中，代理人建立環境動態的內部模型（狀態如何根據行動轉移），並用於規劃。在無模型強化學習中，代理人純粹透過試錯經驗學習，無需建立模型。

強化學習的關鍵概念與組成要素

強化學習的運作原理

強化學習通常被形式化為 馬可夫決策過程（MDP）。在每個離散時間點，代理人觀察狀態 St，選擇行動 At。環境隨後轉移到新狀態 St+1，並根據所採取的行動發出獎勵 Rt+1。

經過多次回合，代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵，代理人逐步改進其策略。

關鍵在於強化學習問題涉及探索與利用之間的權衡。代理人必須利用已知最佳行動以獲得獎勵，同時也要探索新行動，可能帶來更佳結果。

例如，一個控制機器人的強化學習代理人通常會採用已證明安全的路徑（利用），但有時會嘗試新路徑（探索），以期發現更快的路線。平衡這種權衡對找到最佳策略至關重要。

學習過程常被比喻為行為條件反射。例如，AWS 指出強化學習「模仿人類的試錯學習過程」。孩子可能學會收拾玩具會得到讚美，而亂丟玩具會被責罵；同理，強化學習代理人透過對良好行動給予正面反饋、對不良行動給予負面反饋來學習哪些行動能獲得獎勵。

隨著時間推移，代理人建立價值估計或策略，捕捉達成長期目標的最佳行動序列。

實務上，強化學習演算法在多個回合中累積獎勵，並旨在最大化 期望回報（未來獎勵總和）。它們學會偏好導致高未來獎勵的行動，即使這些行動可能不會帶來最高的即時獎勵。這種為長期利益規劃（有時接受短期犧牲）的能力，使強化學習適合複雜的序列決策任務。

強化學習的運作原理

強化學習演算法類型

實現強化學習有許多演算法，主要分為兩類：基於模型與 無模型 方法。

基於模型的強化學習：代理人首先學習或已知環境動態模型（狀態如何變化及獎勵如何給予），然後透過模擬結果來規劃行動。例如，機器人繪製建築物地圖以尋找最短路徑即屬基於模型的方法。
無模型強化學習：代理人沒有明確的環境模型，僅透過在真實（或模擬）環境中的試錯學習。它不透過模型規劃，而是從經驗中逐步更新價值估計或策略。大多數經典強化學習演算法（如 Q-learning 或時序差分學習）屬於無模型方法。

在這些類別中，演算法在如何表示和更新策略或價值函數上有所不同。例如，Q-learning（基於價值的方法）學習狀態-行動對的「Q值」（期望回報）估計，並選擇價值最高的行動。

策略梯度 方法直接參數化策略，並透過期望獎勵的梯度上升調整參數。許多先進方法（如 Actor-Critic 或信賴域策略優化）結合價值估計與策略優化。

一項重大進展是 深度強化學習。此處，深度神經網路作為價值函數或策略的函數逼近器，使強化學習能處理高維輸入如影像。DeepMind 在 Atari 遊戲和棋類遊戲（如 AlphaGo）上的成功，來自深度學習與強化學習的結合。在深度強化學習中，演算法如深度 Q 網路（DQN）或深度策略梯度將強化學習擴展到複雜的現實任務。

例如，AWS 指出常見的強化學習演算法包括 Q-learning、蒙地卡羅方法、策略梯度方法和時序差分學習，而「深度強化學習」指的是這些方法中使用深度神經網路。

強化學習的應用

強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括：

遊戲與模擬：強化學習在遊戲和模擬中取得突破。例如，DeepMind 的 AlphaGo 和 AlphaZero 利用強化學習達到超越人類的圍棋和西洋棋水平。電子遊戲（Atari、星海爭霸）和模擬器（物理、機器人模擬器）是理想的強化學習測試平台，因為環境明確且可進行多次試驗。
機器人與控制：自主機器人和自駕車是動態環境中的代理人。透過試錯，強化學習能教導機器人抓取物體或車輛導航交通。IBM 指出，機器人和自駕車是強化學習代理人透過與環境互動學習的典型例子。
推薦系統與行銷：強化學習可根據用戶互動個人化內容或廣告。例如，基於強化學習的推薦系統會隨著用戶點擊或跳過項目調整建議，學習呈現最相關的廣告或產品。
資源優化：強化學習擅長優化具有長期目標的系統。例子包括調整資料中心冷卻以降低能耗、控制智慧電網儲能或管理雲端運算資源。AWS 描述的用例如「雲端支出優化」，即強化學習代理人學習如何分配計算資源以達最佳成本效益。
金融與交易：金融市場動態且具序列性。強化學習被用於優化交易策略、投資組合管理和避險，透過模擬交易學習在市場變動中最大化回報的行動。

這些例子凸顯強化學習在 長期規劃 上的優勢。與僅預測即時結果的方法不同，強化學習明確最大化累積獎勵，適合行動有延遲後果的問題。

強化學習的應用

強化學習與其他機器學習的比較

強化學習是機器學習三大範式之一（另兩者為監督式與非監督式學習），但其焦點截然不同。監督式學習以標記的輸入-輸出對訓練模型，非監督式學習則在未標記資料中尋找模式。

相較之下，強化學習不需要正確行為的標記範例。它透過獎勵信號定義目標，並以試錯方式學習。在強化學習中，「訓練資料」（狀態-行動-獎勵三元組）是 序列且相互依賴 的，因為每個行動會影響未來狀態。

簡言之，監督式學習告訴模型 預測什麼；強化學習教導代理人 如何行動。正如 IBM 的概述所述，強化學習透過「正向強化」（獎勵）學習，而非直接展示正確答案。

這使得強化學習特別適合涉及決策與控制的任務，但也意味著強化學習更具挑戰性：沒有標記反饋，代理人必須自行探索良好行動，通常需要大量環境探索。

強化學習與其他機器學習的比較

強化學習的挑戰

儘管強化學習強大，但在實務上仍面臨挑戰：

樣本效率低：強化學習通常需要 大量經驗（試驗）才能學習有效策略。真實世界訓練可能昂貴或緩慢（例如，機器人可能需要數百萬次試驗才能掌握任務）。因此，許多強化學習系統先在模擬中訓練再部署。
獎勵設計：定義適當的獎勵函數很棘手。不當的獎勵可能導致代理人產生意外行為（代理人可能「作弊」獎勵，與真實目標不符）。設計能捕捉長期目標且避免捷徑的獎勵，是強化學習研究中的藝術。
穩定性與安全性：在真實世界場景（機器人、醫療、金融）中，不安全的探索行動可能危險或代價高昂。AWS 指出，真實世界實驗（如飛行無人機）可能不切實際，需依賴模擬。確保學習與部署過程中的安全性，是強化學習研究的活躍領域。
可解釋性：學習到的強化學習策略（尤其是深度強化學習模型）可能不透明。理解代理人為何採取特定行動常很困難，增加系統除錯與信任的難度。這種缺乏可解釋性被視為複雜強化學習系統部署的挑戰。

這些挑戰皆為持續研究的主題。儘管困難，強化學習在遊戲、機器人、推薦系統等領域的實務成功證明，只要謹慎應用，強化學習能達成令人印象深刻的成果。

>>>點擊了解更多：

什麼是生成式人工智慧？

什麼是神經網路？

強化學習的挑戰