یادگیری تقویتی چیست؟
یادگیری تقویتی (RL) شاخهای از یادگیری ماشین است که در آن یک عامل با تعامل با محیط خود، یاد میگیرد چگونه تصمیمگیری کند. هدف عامل در RL یادگیری یک سیاست (استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر میرساند.
یادگیری تقویتی (RL) شاخهای از یادگیری ماشین است که در آن یک عامل با تعامل با محیط خود، یاد میگیرد چگونه تصمیمگیری کند. در RL، هدف عامل یادگیری یک سیاست (استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر میرساند.
برخلاف یادگیری نظارتشده که به نمونههای برچسبخورده نیاز دارد، RL بر بازخورد آزمون و خطا تکیه دارد: اقداماتی که نتایج مثبت (پاداش) دارند تقویت میشوند، در حالی که اقداماتی که نتایج منفی (مجازات) دارند اجتناب میشوند.
RL اساساً "رویکردی محاسباتی برای درک و خودکارسازی یادگیری و تصمیمگیری هدفمند" است که در آن عامل از تعامل مستقیم با محیط خود میآموزد، بدون نیاز به نظارت خارجی یا مدل کامل از جهان.
— ساتون و بارتو، پژوهشگران یادگیری تقویتی
در عمل، این بدان معناست که عامل به طور مداوم فضای حالت-عمل را کاوش میکند، نتایج اقدامات خود را مشاهده میکند و استراتژی خود را برای بهبود پاداشهای آینده تنظیم میکند.
مفاهیم و اجزای کلیدی
یادگیری تقویتی شامل چندین عنصر اصلی است. به طور کلی، یک عامل (یادگیرنده یا موجود تصمیمگیرنده) با یک محیط (سیستم خارجی یا فضای مسئله) با انجام اقدامات در گامهای زمانی گسسته تعامل دارد.
در هر گام، عامل حالت فعلی محیط را مشاهده میکند، یک اقدام انجام میدهد و سپس از محیط پاداش (یک سیگنال بازخورد عددی) دریافت میکند. در طول تعاملات متعدد، عامل به دنبال حداکثر کردن مجموع کل پاداشها است.
عامل
محیط
اقدام
حالت
پاداش
سیاست
تابع ارزش
مدل (اختیاری)

نحوه عملکرد یادگیری تقویتی
RL اغلب به صورت فرآیند تصمیمگیری مارکوف (MDP) فرموله میشود. در هر گام زمانی گسسته، عامل یک حالت St را مشاهده کرده و یک اقدام At را انتخاب میکند. سپس محیط به حالت جدید St+1 منتقل شده و بر اساس اقدام انجام شده، پاداش Rt+1 را صادر میکند.
در طول چندین قسمت، عامل تجربهای به شکل دنبالههای حالت-اقدام-پاداش جمعآوری میکند. با تحلیل اینکه کدام اقدامات به پاداشهای بالاتر منجر شدهاند، عامل به تدریج سیاست خود را بهبود میبخشد.
برای مثال، یک عامل یادگیری تقویتی که یک ربات را کنترل میکند ممکن است معمولاً مسیر ایمن اثبات شدهای را انتخاب کند (بهرهبرداری) اما گاهی مسیر جدیدی را امتحان کند (کاوش) تا احتمالاً مسیر سریعتری کشف کند. تعادل این تعارض برای یافتن سیاست بهینه ضروری است.
RL "فرآیند یادگیری آزمون و خطا را که انسانها استفاده میکنند تقلید میکند". یک کودک ممکن است یاد بگیرد که تمیز کردن تحسین به همراه دارد در حالی که پرت کردن اسباببازیها سرزنش میآورد؛ به همین ترتیب، یک عامل RL میآموزد کدام اقدامات پاداش دارند با دریافت بازخورد مثبت برای اقدامات خوب و بازخورد منفی برای اقدامات بد.
— مستندات یادگیری ماشین AWS
با گذشت زمان، عامل برآوردهای ارزش یا سیاستهایی میسازد که بهترین دنباله اقدامات برای رسیدن به اهداف بلندمدت را ثبت میکنند.
در عمل، الگوریتمهای RL پاداشها را در طول قسمتها جمع میکنند و هدفشان حداکثر کردن بازده مورد انتظار (مجموع پاداشهای آینده) است. آنها یاد میگیرند اقداماتی را ترجیح دهند که به پاداشهای بالای آینده منجر میشوند، حتی اگر آن اقدامات پاداش فوری بالایی نداشته باشند. این توانایی برنامهریزی برای سود بلندمدت (گاهی با پذیرش فداکاریهای کوتاهمدت) RL را برای وظایف پیچیده و متوالی مناسب میسازد.

انواع الگوریتمهای یادگیری تقویتی
الگوریتمهای متعددی برای پیادهسازی یادگیری تقویتی وجود دارد. به طور کلی، آنها به دو دسته مبتنی بر مدل و بدون مدل تقسیم میشوند.
رویکرد برنامهریزی
عامل ابتدا یک مدل از دینامیکهای محیط (چگونگی تغییر حالتها و نحوه اعطای پاداش) میآموزد یا میداند و سپس با شبیهسازی نتایج، اقدامات را برنامهریزی میکند.
- کارآمد با داده محدود
 - قابلیت برنامهریزی مؤثر پیشرو
 - نیازمند مدل دقیق محیط
 
مثال: رباتی که یک ساختمان را نقشهبرداری میکند تا کوتاهترین مسیر را بیابد، از رویکرد مبتنی بر مدل استفاده میکند.
یادگیری مستقیم
عامل هیچ مدل صریحی از محیط ندارد و صرفاً از طریق آزمون و خطا در محیط واقعی (یا شبیهسازی شده) میآموزد.
- نیازی به مدل محیط ندارد
 - مناسب برای محیطهای پیچیده
 - نیازمند تجربه بیشتر
 
مثال: اکثر الگوریتمهای کلاسیک RL (مانند Q-learning یا یادگیری تفاوت زمانی) بدون مدل هستند.
در این دستهها، الگوریتمها در نحوه نمایش و بهروزرسانی سیاست یا تابع ارزش تفاوت دارند. برای مثال، Q-learning (روش مبتنی بر ارزش) برآوردهایی از "مقادیر Q" (بازده مورد انتظار) برای جفتهای حالت-اقدام میآموزد و اقدامی با بالاترین مقدار را انتخاب میکند.
روشهای گرادیان سیاست مستقیماً سیاست را پارامتردهی میکنند و پارامترهای آن را از طریق صعود گرادیان روی پاداش مورد انتظار تنظیم میکنند. بسیاری از روشهای پیشرفته (مانند Actor-Critic یا بهینهسازی سیاست منطقه اعتماد) ترکیبی از برآورد ارزش و بهینهسازی سیاست هستند.
در RL عمیق، الگوریتمهایی مانند شبکههای Q عمیق (DQN) یا گرادیانهای سیاست عمیق، RL را به وظایف پیچیده دنیای واقعی مقیاس میدهند.
الگوریتمهای رایج RL شامل Q-learning، روشهای مونتکارلو، روشهای گرادیان سیاست و یادگیری تفاوت زمانی هستند و "RL عمیق" به استفاده از شبکههای عصبی عمیق در این روشها اشاره دارد.
— مستندات یادگیری ماشین AWS

کاربردهای یادگیری تقویتی
یادگیری تقویتی در حوزههای متعددی که تصمیمگیری متوالی در شرایط عدم قطعیت اهمیت دارد، کاربرد دارد. کاربردهای کلیدی شامل موارد زیر است:
بازیها و شبیهسازی
RL به طور مشهور بازیها و شبیهسازها را تسلط یافته است. AlphaGo و AlphaZero از DeepMind بازیهای گو و شطرنج را در سطح فراتر از انسان با استفاده از RL آموختند.
- بازیهای ویدیویی (آتاری، استارکرفت)
 - بازیهای تختهای (گو، شطرنج)
 - شبیهسازیهای فیزیکی
 - شبیهسازهای رباتیک
 
رباتیک و کنترل
رباتهای خودران و خودروهای خودران عوامل در محیطهای پویا هستند که از طریق آزمون و خطا میآموزند.
- گرفتن و دستکاری اشیاء
 - ناوبری خودکار
 - خودروهای خودران
 - اتوماسیون صنعتی
 
سیستمهای پیشنهاددهی
RL میتواند محتوا یا تبلیغات را بر اساس تعاملات کاربر شخصیسازی کند و یاد میگیرد که به مرور زمان مرتبطترین موارد را ارائه دهد.
- شخصیسازی محتوا
 - بهینهسازی هدفگیری تبلیغات
 - پیشنهاد محصولات
 - بهینهسازی تعامل کاربر
 
بهینهسازی منابع
RL در بهینهسازی سیستمهایی با اهداف بلندمدت و چالشهای تخصیص منابع پیچیده عملکرد خوبی دارد.
- بهینهسازی خنکسازی مراکز داده
 - ذخیره انرژی شبکه هوشمند
 - منابع رایانش ابری
 - مدیریت زنجیره تأمین
 
مالی و معاملات
بازارهای مالی پویا و متوالی هستند و RL برای استراتژیهای معاملاتی و مدیریت پرتفوی مناسب است.
- استراتژیهای معاملات الگوریتمی
 - بهینهسازی پرتفوی
 - مدیریت ریسک
 - بازارسازی
 

یادگیری تقویتی در مقابل سایر یادگیریهای ماشین
یادگیری تقویتی یکی از سه الگوی اصلی یادگیری ماشین است (در کنار یادگیری نظارتشده و بدون نظارت)، اما تمرکز آن کاملاً متفاوت است. یادگیری نظارتشده روی جفتهای ورودی-خروجی برچسبخورده آموزش میبیند، در حالی که یادگیری بدون نظارت الگوهایی را در دادههای بدون برچسب پیدا میکند.
| جنبه | یادگیری نظارتشده | یادگیری بدون نظارت | یادگیری تقویتی | 
|---|---|---|---|
| نوع داده | جفتهای ورودی-خروجی برچسبخورده | داده بدون برچسب | دنبالههای متوالی حالت-اقدام-پاداش | 
| هدف یادگیری | پیشبینی خروجیهای صحیح | یافتن الگوهای پنهان | حداکثر کردن پاداش تجمعی | 
| نوع بازخورد | پاسخهای صحیح مستقیم | بدون بازخورد | سیگنالهای پاداش/مجازات | 
| روش یادگیری | یادگیری از نمونهها | کشف ساختار | کاوش آزمون و خطا | 
برخلاف آنها، RL به نمونههای برچسبخورده رفتار صحیح نیاز ندارد. در عوض، هدف را از طریق سیگنال پاداش تعریف میکند و با آزمون و خطا میآموزد. در RL، "دادههای آموزشی" (دنبالههای حالت-اقدام-پاداش) متوالی و وابسته به هم هستند، زیرا هر اقدام بر حالتهای آینده تأثیر میگذارد.
به طور ساده، یادگیری نظارتشده به مدل میگوید چه چیزی را پیشبینی کند؛ یادگیری تقویتی به عامل میآموزد چگونه عمل کند. RL با "تقویت مثبت" (پاداش) یاد میگیرد نه با نشان دادن پاسخهای صحیح.
— مرور یادگیری ماشین IBM
این باعث میشود RL برای وظایفی که شامل تصمیمگیری و کنترل هستند بسیار قدرتمند باشد. با این حال، همچنین به این معناست که RL میتواند چالشبرانگیزتر باشد: بدون بازخورد برچسبخورده، عامل باید اقدامات خوب را خودش کشف کند که اغلب نیازمند کاوش زیاد در محیط است.

چالشهای یادگیری تقویتی
با وجود قدرتش، RL با چالشهای عملی همراه است:
عدم کارایی نمونه
طراحی پاداش
پایداری و ایمنی
قابلیت تفسیر

نتیجهگیری
خلاصه اینکه، یادگیری تقویتی یک چارچوب یادگیری خودکار است که در آن یک عامل با تعامل با محیط خود و حداکثر کردن پاداش تجمعی، یاد میگیرد چگونه به اهداف برسد. این چارچوب ترکیبی از ایدههای کنترل بهینه، برنامهریزی پویا و روانشناسی رفتاری است و پایه بسیاری از پیشرفتهای مدرن هوش مصنوعی محسوب میشود.
با فرموله کردن مسائل به عنوان وظایف تصمیمگیری متوالی با بازخورد، RL به ماشینها امکان میدهد رفتارهای پیچیده را به تنهایی بیاموزند و شکاف بین یادگیری مبتنی بر داده و عمل هدفمند را پر کنند.