甚麼是強化學習？

強化學習（RL）是機器學習的一個分支，代理人透過與環境互動來學習決策。在強化學習中，代理人的目標是學習一套策略，以選擇能夠隨時間最大化累積獎勵的行動。

強化學習（RL） 是機器學習的一個分支，其中一個 代理人 透過與環境互動來學習如何做決策。在強化學習中，代理人的目標是學習一套策略（一種方法），以選擇能夠隨時間最大化累積獎勵的行動。

與需要標籤範例的監督式學習不同，強化學習依賴於 試錯反饋：產生正面結果（獎勵）的行動會被強化，而產生負面結果（懲罰）的行動則會被避免。

強化學習本質上是「一種理解及自動化目標導向學習與決策的計算方法」，代理人透過與環境的直接互動學習，無需外部監督或完整的世界模型。
— Sutton 與 Barto，強化學習研究者

實務上，這意味著代理人持續探索狀態-行動空間，觀察行動結果，並調整策略以提升未來獎勵。

主要概念與組成

強化學習包含幾個核心元素。簡單來說，代理人（學習者或決策實體）透過在離散時間點採取行動與環境（外部系統或問題空間）互動。

每一步，代理人觀察環境的當前狀態，執行一個行動，然後從環境獲得一個獎勵（數值反饋信號）。經過多次互動，代理人尋求最大化其總（累積）獎勵。

代理人

自主學習者（例如 AI 程式或機械人）負責做決策。

環境

代理人互動的世界或問題領域。環境提供當前狀態給代理人，並根據代理人的行動計算獎勵。

行動

代理人為影響環境所做的決策或動作。不同的行動可能導致不同的狀態和獎勵。

狀態

環境在特定時間的表示（例如棋盤上棋子的位子或機械人的感測器讀數）。代理人利用狀態決定下一步行動。

獎勵

環境在每次行動後給予的標量反饋信號（正面、負面或零）。它量化行動的即時效益（或成本）。代理人的目標是最大化 期望累積獎勵。

策略

代理人選擇行動的策略，通常是從狀態映射到行動。透過學習，代理人旨在找到最佳或近似最佳策略。

價值函數

代理人從某狀態（或狀態-行動對）預期將獲得的未來獎勵（累積獎勵）估計。價值函數幫助代理人評估行動的長期後果。

模型（可選）

在基於模型的強化學習中，代理人建立環境動態的內部模型（狀態如何因行動轉移），並用於規劃。在無模型強化學習中，代理人純粹從試錯經驗中學習，無需建立模型。

強化學習框架的主要概念與組成

強化學習如何運作

強化學習通常形式化為 馬可夫決策過程（MDP）。在每個離散時間點，代理人觀察狀態 St 並選擇行動 At。環境隨後轉移到新狀態 St+1，並根據所採取的行動發出獎勵 Rt+1。

經過多次回合，代理人累積狀態-行動-獎勵序列的經驗。透過分析哪些行動帶來較高獎勵，代理人逐步改進策略。

探索與利用：強化學習問題涉及探索與利用的關鍵權衡。代理人必須利用已知最佳行動以獲取獎勵，同時也要探索新行動，可能帶來更佳結果。

例如，一個控制機械人的強化學習代理人通常會採用已證實安全的路徑（利用），但有時會嘗試新路徑（探索），以期發現更快的路線。平衡此權衡對找到最佳策略至關重要。

強化學習「模仿人類使用的試錯學習過程」。小孩可能學會收拾玩具會獲讚賞，而亂丟玩具會被責罵；同理，強化學習代理人透過對好行動給予正面反饋，對壞行動給予負面反饋來學習哪些行動能獲得獎勵。
— AWS 機器學習文件

隨著時間推移，代理人建立價值估計或策略，捕捉達成長期目標的最佳行動序列。

實務上，強化學習算法在多回合中累積獎勵，目標是最大化 期望回報（未來獎勵總和）。它們學會偏好導致高未來獎勵的行動，即使該行動當下未必帶來最高獎勵。這種為長期利益規劃（有時接受短期犧牲）的能力，使強化學習適合複雜的序列決策任務。

強化學習實務運作示意

強化學習算法類型

實現強化學習有多種算法，主要分為兩類：基於模型與 無模型 方法。

基於模型的強化學習

規劃方法

代理人先學習或已知環境動態模型（狀態如何變化及獎勵如何給予），然後透過模擬結果來規劃行動。

在有限數據下效率高
能有效提前規劃
需要準確的環境模型

範例：機械人繪製建築物地圖以尋找最短路徑即為基於模型的方法。

無模型強化學習

直接學習

代理人沒有明確的環境模型，純粹透過在真實（或模擬）環境中的試錯學習。

不需環境模型
適用於複雜環境
需要更多經驗

範例：大多數經典強化學習算法（如 Q-learning 或時序差分學習）屬於無模型方法。

在這些類別中，算法在如何表示及更新策略或價值函數上有所不同。例如，Q-learning（基於價值的方法）學習狀態-行動對的「Q值」（期望回報）估計，並選擇價值最高的行動。

策略梯度方法直接參數化策略，並透過期望獎勵的梯度上升調整參數。許多先進方法（如 Actor-Critic 或信賴域策略優化）結合價值估計與策略優化。

深度強化學習：近期重大進展，利用深度神經網絡作為價值函數或策略的函數逼近器，使強化學習能處理高維輸入如影像。DeepMind 在 Atari 遊戲及棋類遊戲（如 AlphaGo）上的成功即源於深度學習與強化學習的結合。

在深度強化學習中，算法如深度 Q 網絡（DQN）或深度策略梯度將強化學習擴展至複雜的現實任務。

常見強化學習算法包括 Q-learning、蒙地卡羅方法、策略梯度方法及時序差分學習，而「深度強化學習」指的是這些方法中使用深度神經網絡。
— AWS 機器學習文件

強化學習算法類型

強化學習的應用

強化學習應用於許多需要在不確定性下進行序列決策的領域。主要應用包括：

遊戲與模擬

強化學習在遊戲和模擬器中取得突破。DeepMind 的 AlphaGo 和 AlphaZero 利用強化學習達到超越人類的圍棋和西洋棋水平。

電子遊戲（Atari、星海爭霸）
棋類遊戲（圍棋、西洋棋）
物理模擬
機械人模擬器

機械人與控制

自主機械人和自駕車是動態環境中的代理人，透過試錯學習。

物體抓取與操作
自主導航
自駕車輛
工業自動化

資源優化

強化學習擅長優化具有長期目標和複雜資源分配挑戰的系統。

數據中心冷卻優化
智慧電網儲能
雲端計算資源
供應鏈管理

金融與交易

金融市場動態且序列性強，適合用強化學習進行交易策略和投資組合管理。

算法交易策略
投資組合優化
風險管理
做市商策略

長期規劃優勢：這些應用凸顯強化學習在 長期規劃 的優勢。與只預測即時結果的方法不同，強化學習明確最大化累積獎勵，適合行動有延遲後果的問題。

跨行業的強化學習應用

強化學習與其他機器學習的比較

強化學習是機器學習三大範式之一（另兩者為監督式與非監督式學習），但焦點截然不同。監督式學習以標籤輸入輸出對訓練，非監督式學習則在無標籤資料中尋找模式。

面向	監督式學習	非監督式學習	強化學習
資料類型	標籤輸入輸出對	無標籤資料	序列狀態-行動-獎勵元組
學習目標	預測正確輸出	發現隱藏模式	最大化累積獎勵
反饋類型	直接正確答案	無反饋	獎勵/懲罰信號
學習方法	從範例學習	發現結構	試錯探索

相比之下，強化學習 不需要 正確行為的標籤範例。它透過獎勵信號定義目標，並以試錯方式學習。在強化學習中，「訓練資料」（狀態-行動-獎勵元組）是 序列且相互依賴，因為每個行動影響未來狀態。

簡言之，監督式學習告訴模型要預測什麼；強化學習教代理人如何行動。強化學習透過「正向強化」（獎勵）學習，而非直接展示正確答案。
— IBM 機器學習概述

這使得強化學習特別適合涉及決策與控制的任務。但同時也意味著強化學習更具挑戰性：沒有標籤反饋，代理人必須自行發現良好行動，通常需要大量探索環境。

強化學習與其他機器學習範式的比較

強化學習的挑戰

儘管強化學習強大，但實務上存在挑戰：

樣本效率低

強化學習通常需要 大量經驗（試驗）來學習有效策略。真實世界訓練可能昂貴或緩慢（例如機械人可能需數百萬次試驗才能掌握任務）。因此，許多強化學習系統先在模擬中訓練再部署。

獎勵設計

定義適當的獎勵函數很棘手。不當的獎勵可能導致代理人產生意外行為（代理人可能「鑽獎勵漏洞」而偏離真正目標）。設計能捕捉長期目標且避免捷徑的獎勵是強化學習研究的藝術。

穩定性與安全性

在真實世界（如機械人、醫療、金融）中，不安全的探索行動可能危險或代價高昂。真實實驗（如飛行無人機）可能不切實際。確保學習與部署過程中的安全性是強化學習研究的活躍領域。

可解釋性

學到的強化學習策略（尤其是深度強化學習模型）可能不透明。理解代理人為何採取特定行動常很困難，增加了除錯與信任系統的難度。這種缺乏可解釋性被視為複雜強化學習系統部署的挑戰。

持續研究：這些挑戰皆為持續研究的主題。儘管困難重重，強化學習在遊戲、機械人、推薦系統等領域的實務成功證明，只要謹慎應用，強化學習能達成令人印象深刻的成果。

強化學習實施的挑戰

結論

總結來說，強化學習是一種 自主學習框架，代理人透過與環境互動並最大化累積獎勵來達成目標。它結合了最佳控制、動態規劃與行為心理學的理念，是許多現代 AI 突破的基礎。

透過將問題框架化為帶有反饋的序列決策任務，強化學習使機器能自主學習複雜行為，橋接了數據驅動學習與目標導向行動之間的鴻溝。

探索更多相關文章

外部參考

本文參考以下外部資料彙編而成：

人工智能基礎知識

25/08/2025

Rosie Ha

146 文章

Rosie Ha 是 Inviai 的作者，專注分享人工智能的知識與解決方案。憑藉在商業、內容創作及自動化等多個領域應用 AI 的經驗，Rosie Ha 將帶來易明、實用且具啟發性的文章。Rosie Ha 的使命是協助大家有效運用 AI，提高生產力並擴展創意潛能。

查看資料資料所有文章 (146) 文章 (146)

主要概念與組成

代理人

環境

行動

狀態

獎勵

策略

價值函數

模型（可選）

強化學習如何運作

強化學習算法類型

規劃方法

直接學習

強化學習的應用

遊戲與模擬

機械人與控制

推薦系統

資源優化

金融與交易

強化學習與其他機器學習的比較

強化學習的挑戰

樣本效率低

獎勵設計

穩定性與安全性

可解釋性

結論

相關文章

使用人工智能是否合法？

電影中的人工智能與現實

人工智能可以無需數據學習嗎？

人工智能是否像人類一樣思考？