甚麼是強化學習?
強化學習(RL)是機器學習的一個分支,代理人透過與環境互動來學習決策。在強化學習中,代理人的目標是學習一套策略,以選擇能夠隨時間最大化累積獎勵的行動。
強化學習(RL) 是機器學習的一個分支,其中一個 代理人 透過與 環境 互動來學習如何做決策。在強化學習中,代理人的目標是學習一套 策略(一種方法),以選擇能夠隨時間最大化累積獎勵的行動。
與需要標籤範例的監督式學習不同,強化學習依賴於 試錯反饋:產生正面結果(獎勵)的行動會被強化,而產生負面結果(懲罰)的行動則會被避免。
強化學習本質上是「一種理解及自動化目標導向學習與決策的計算方法」,代理人透過與環境的直接互動學習,無需外部監督或完整的世界模型。
— Sutton 與 Barto,強化學習研究者
實務上,這意味著代理人持續探索狀態-行動空間,觀察行動結果,並調整策略以提升未來獎勵。
主要概念與組成
強化學習包含幾個核心元素。簡單來說,代理人(學習者或決策實體)透過在離散時間點採取 行動 與 環境(外部系統或問題空間)互動。
每一步,代理人觀察環境的當前 狀態,執行一個行動,然後從環境獲得一個 獎勵(數值反饋信號)。經過多次互動,代理人尋求最大化其總(累積)獎勵。
代理人
環境
行動
狀態
獎勵
策略
價值函數
模型(可選)

強化學習如何運作
強化學習通常形式化為 馬可夫決策過程(MDP)。在每個離散時間點,代理人觀察狀態 St 並選擇行動 At。環境隨後轉移到新狀態 St+1,並根據所採取的行動發出獎勵 Rt+1。
經過多次回合,代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵,代理人逐步改進策略。
例如,一個控制機械人的強化學習代理人通常會採用已證實安全的路徑(利用),但有時會嘗試新路徑(探索),以期發現更快的路線。平衡此權衡對找到最佳策略至關重要。
強化學習「模仿人類使用的試錯學習過程」。小孩可能學會收拾玩具會獲讚賞,而亂丟玩具會被責罵;同理,強化學習代理人透過對好行動給予正面反饋,對壞行動給予負面反饋來學習哪些行動能獲得獎勵。
— AWS 機器學習文件
隨著時間推移,代理人建立價值估計或策略,捕捉達成長期目標的最佳行動序列。
實務上,強化學習算法在多回合中累積獎勵,目標是最大化 期望回報(未來獎勵總和)。它們學會偏好導致高未來獎勵的行動,即使該行動當下未必帶來最高獎勵。這種為長期利益規劃(有時接受短期犧牲)的能力,使強化學習適合複雜的序列決策任務。

強化學習算法類型
實現強化學習有多種算法,主要分為兩類:基於模型與 無模型 方法。
規劃方法
代理人先學習或已知環境動態模型(狀態如何變化及獎勵如何給予),然後透過模擬結果來規劃行動。
- 在有限數據下效率高
 - 能有效提前規劃
 - 需要準確的環境模型
 
範例:機械人繪製建築物地圖以尋找最短路徑即為基於模型的方法。
直接學習
代理人沒有明確的環境模型,純粹透過在真實(或模擬)環境中的試錯學習。
- 不需環境模型
 - 適用於複雜環境
 - 需要更多經驗
 
範例:大多數經典強化學習算法(如 Q-learning 或時序差分學習)屬於無模型方法。
在這些類別中,算法在如何表示及更新策略或價值函數上有所不同。例如,Q-learning(基於價值的方法)學習狀態-行動對的「Q值」(期望回報)估計,並選擇價值最高的行動。
策略梯度方法直接參數化策略,並透過期望獎勵的梯度上升調整參數。許多先進方法(如 Actor-Critic 或信賴域策略優化)結合價值估計與策略優化。
在深度強化學習中,算法如深度 Q 網絡(DQN)或深度策略梯度將強化學習擴展至複雜的現實任務。
常見強化學習算法包括 Q-learning、蒙地卡羅方法、策略梯度方法及時序差分學習,而「深度強化學習」指的是這些方法中使用深度神經網絡。
— AWS 機器學習文件

強化學習的應用
強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括:
遊戲與模擬
強化學習在遊戲和模擬器中取得突破。DeepMind 的 AlphaGo 和 AlphaZero 利用強化學習達到超越人類的圍棋和西洋棋水平。
- 電子遊戲(Atari、星海爭霸)
 - 棋類遊戲(圍棋、西洋棋)
 - 物理模擬
 - 機械人模擬器
 
機械人與控制
自主機械人和自駕車是動態環境中的代理人,透過試錯學習。
- 物體抓取與操作
 - 自主導航
 - 自駕車輛
 - 工業自動化
 
推薦系統
強化學習可根據用戶互動個人化內容或廣告,學習隨時間呈現最相關的項目。
- 內容個人化
 - 廣告目標優化
 - 產品推薦
 - 用戶參與優化
 
資源優化
強化學習擅長優化具有長期目標和複雜資源分配挑戰的系統。
- 數據中心冷卻優化
 - 智慧電網儲能
 - 雲端計算資源
 - 供應鏈管理
 
金融與交易
金融市場動態且序列性強,適合用強化學習進行交易策略和投資組合管理。
- 算法交易策略
 - 投資組合優化
 - 風險管理
 - 做市商策略
 

強化學習與其他機器學習的比較
強化學習是機器學習三大範式之一(另兩者為監督式與非監督式學習),但焦點截然不同。監督式學習以標籤輸入輸出對訓練,非監督式學習則在無標籤資料中尋找模式。
| 面向 | 監督式學習 | 非監督式學習 | 強化學習 | 
|---|---|---|---|
| 資料類型 | 標籤輸入輸出對 | 無標籤資料 | 序列狀態-行動-獎勵元組 | 
| 學習目標 | 預測正確輸出 | 發現隱藏模式 | 最大化累積獎勵 | 
| 反饋類型 | 直接正確答案 | 無反饋 | 獎勵/懲罰信號 | 
| 學習方法 | 從範例學習 | 發現結構 | 試錯探索 | 
相比之下,強化學習 不需要 正確行為的標籤範例。它透過獎勵信號定義 目標,並以試錯方式學習。在強化學習中,「訓練資料」(狀態-行動-獎勵元組)是 序列且相互依賴,因為每個行動影響未來狀態。
簡言之,監督式學習告訴模型要預測什麼;強化學習教代理人如何行動。強化學習透過「正向強化」(獎勵)學習,而非直接展示正確答案。
— IBM 機器學習概述
這使得強化學習特別適合涉及決策與控制的任務。但同時也意味著強化學習更具挑戰性:沒有標籤反饋,代理人必須自行發現良好行動,通常需要大量探索環境。

強化學習的挑戰
儘管強化學習強大,但實務上存在挑戰:
樣本效率低
獎勵設計
穩定性與安全性
可解釋性

結論
總結來說,強化學習是一種 自主學習框架,代理人透過與環境互動並最大化累積獎勵來達成目標。它結合了最佳控制、動態規劃與行為心理學的理念,是許多現代 AI 突破的基礎。
透過將問題框架化為帶有反饋的序列決策任務,強化學習使機器能自主學習複雜行為,橋接了數據驅動學習與目標導向行動之間的鴻溝。