什麼是強化學習?
強化學習(Reinforcement Learning,RL)是機器學習的一個分支,代理人透過與環境互動來學習做決策。在強化學習中,代理人的目標是學習一套策略,用以選擇能夠隨時間最大化累積獎勵的行動。
強化學習(RL) 是機器學習的一個分支,其中 代理人 透過與 環境 互動來學習做決策。在強化學習中,代理人的目標是學習一套 策略(一種方法),用以選擇能夠隨時間最大化累積獎勵的行動。
與需要標記範例的監督式學習不同,強化學習依賴於 試誤反饋:產生正面結果(獎勵)的行動會被強化,而產生負面結果(懲罰)的行動則會被避免。
強化學習本質上是「一種理解與自動化目標導向學習與決策的計算方法」,代理人透過與環境的直接互動學習,無需外部監督或完整的世界模型。
— Sutton 與 Barto,強化學習研究者
實務上,這表示代理人持續探索狀態-行動空間,觀察行動結果,並調整策略以提升未來獎勵。
主要概念與組成
強化學習包含多個核心元素。簡言之,代理人(學習者或決策實體)透過在離散時間點採取 行動,與 環境(外部系統或問題空間)互動。
每一步,代理人觀察環境的當前 狀態,執行一個行動,然後從環境接收一個 獎勵(數值反饋信號)。經過多次互動,代理人尋求最大化其總(累積)獎勵。
代理人
環境
行動
狀態
獎勵
策略
價值函數
模型(選用)

強化學習的運作原理
強化學習通常形式化為 馬可夫決策過程(MDP)。在每個離散時間點,代理人觀察狀態 St 並選擇行動 At。環境隨後轉移到新狀態 St+1,並根據行動給出獎勵 Rt+1。
經過多次回合,代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵,代理人逐步改進策略。
例如,一個控制機器人的強化學習代理人通常會採用已證實安全的路徑(利用),但有時也會嘗試新路徑(探索),以期發現更快的路徑。平衡此權衡對尋找最佳策略至關重要。
強化學習「模仿人類的試誤學習過程」。小孩可能學會收拾玩具會得到讚美,而亂丟玩具會被責罵;同理,強化學習代理人透過對好行動給予正面反饋、壞行動給予負面反饋來學習哪些行動能獲得獎勵。
— AWS 機器學習文件
隨著時間推移,代理人建立價值估計或策略,捕捉達成長期目標的最佳行動序列。
實務上,強化學習演算法在多回合中累積獎勵,目標是最大化 期望回報(未來獎勵總和)。它們學會偏好能帶來高未來獎勵的行動,即使該行動當下獎勵不最高。這種為長期利益規劃(有時接受短期犧牲)的能力,使強化學習適合複雜的序列決策任務。

強化學習演算法類型
實現強化學習有許多演算法,主要分為兩大類:基於模型與 無模型 方法。
規劃方法
代理人先學習或已知環境動態模型(狀態如何變化及獎勵如何給予),然後透過模擬結果來規劃行動。
- 在有限資料下效率高
 - 能有效預先規劃
 - 需要準確的環境模型
 
範例: 機器人繪製建築物地圖以尋找最短路徑即為基於模型的方法。
直接學習
代理人沒有明確的環境模型,僅透過在真實(或模擬)環境中的試誤學習。
- 不需環境模型
 - 適用於複雜環境
 - 需要更多經驗
 
範例: 大多數經典強化學習演算法(如 Q-learning 或時序差分學習)屬於無模型方法。
在這些類別中,演算法在策略或價值函數的表示與更新方式上有所不同。例如,Q-learning(基於價值的方法)學習狀態-行動對的「Q值」(期望回報)估計,並選擇價值最高的行動。
策略梯度方法直接參數化策略,並透過期望獎勵的梯度上升調整參數。許多先進方法(如 Actor-Critic 或信賴域策略優化)結合價值估計與策略優化。
在深度強化學習中,演算法如深度 Q 網路(DQN)或深度策略梯度將強化學習擴展至複雜的真實任務。
常見強化學習演算法包括 Q-learning、蒙地卡羅方法、策略梯度方法與時序差分學習,而「深度強化學習」指的是這些方法中使用深度神經網路。
— AWS 機器學習文件

強化學習的應用
強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括:
遊戲與模擬
強化學習在遊戲與模擬領域取得突破。DeepMind 的 AlphaGo 與 AlphaZero 利用強化學習達到超越人類的圍棋與西洋棋水平。
- 電子遊戲(Atari、星海爭霸)
 - 棋類遊戲(圍棋、西洋棋)
 - 物理模擬
 - 機器人模擬器
 
機器人與控制
自主機器人與自駕車是動態環境中的代理人,透過試誤學習。
- 物體抓取與操作
 - 自主導航
 - 自駕車輛
 - 工業自動化
 
推薦系統
強化學習可根據用戶互動個人化內容或廣告,學習隨時間呈現最相關的項目。
- 內容個人化
 - 廣告目標優化
 - 產品推薦
 - 用戶參與度優化
 
資源優化
強化學習擅長優化具有長期目標與複雜資源配置挑戰的系統。
- 資料中心冷卻優化
 - 智慧電網儲能
 - 雲端運算資源
 - 供應鏈管理
 
金融與交易
金融市場動態且序列性強,強化學習適用於交易策略與投資組合管理。
- 演算法交易策略
 - 投資組合優化
 - 風險管理
 - 做市商策略
 

強化學習與其他機器學習的比較
強化學習是機器學習三大範式之一(另兩者為監督式與非監督式學習),但焦點截然不同。監督式學習以標記的輸入輸出對訓練,非監督式學習則在未標記資料中尋找模式。
| 面向 | 監督式學習 | 非監督式學習 | 強化學習 | 
|---|---|---|---|
| 資料類型 | 標記的輸入輸出對 | 未標記資料 | 序列狀態-行動-獎勵元組 | 
| 學習目標 | 預測正確輸出 | 發現隱藏模式 | 最大化累積獎勵 | 
| 反饋類型 | 直接正確答案 | 無反饋 | 獎勵/懲罰信號 | 
| 學習方法 | 從範例學習 | 發現結構 | 試誤探索 | 
相較之下,強化學習 不需要 正確行為的標記範例。它透過獎勵信號定義 目標,並以試誤方式學習。在強化學習中,「訓練資料」(狀態-行動-獎勵元組)是 序列且相互依賴 的,因為每個行動會影響未來狀態。
簡言之,監督式學習告訴模型要預測什麼;強化學習教代理人如何行動。強化學習透過「正向強化」(獎勵)學習,而非展示正確答案。
— IBM 機器學習概述
這使得強化學習特別適合涉及決策與控制的任務。然而,這也意味著強化學習更具挑戰性:沒有標記反饋,代理人必須自行探索良好行動,通常需要大量環境探索。

強化學習的挑戰
儘管強化學習強大,但實務上仍面臨挑戰:
樣本效率低
獎勵設計
穩定性與安全性
可解釋性

結論
總結來說,強化學習是一種 自主學習框架,代理人透過與環境互動並最大化累積獎勵來達成目標。它結合了最佳控制、動態規劃與行為心理學的理念,是許多現代 AI 突破的基礎。
透過將問題框架化為具有反饋的序列決策任務,強化學習使機器能自主學習複雜行為,彌合資料驅動學習與目標導向行動之間的鴻溝。