یادگیری تقویتی (RL) شاخهای از یادگیری ماشین است که در آن عامل با تعامل با محیط، یاد میگیرد چگونه تصمیمگیری کند. در RL، هدف عامل یادگیری سیاست (یک استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر میرساند.
برخلاف یادگیری نظارتشده که به نمونههای برچسبخورده نیاز دارد، RL بر بازخورد آزمون و خطا تکیه دارد: اقداماتی که نتایج مثبت (پاداش) دارند تقویت میشوند، در حالی که اقداماتی که نتایج منفی (مجازات) دارند اجتناب میشوند.
همانطور که ساتون و بارتو توضیح میدهند، RL اساساً «یک رویکرد محاسباتی برای درک و خودکارسازی یادگیری و تصمیمگیری هدفمند» است که در آن عامل از تعامل مستقیم با محیط خود میآموزد، بدون نیاز به نظارت خارجی یا مدل کامل جهان.
در عمل، این بدان معناست که عامل به طور مداوم فضای حالت-عمل را کاوش میکند، نتایج اقدامات خود را مشاهده میکند و استراتژی خود را برای بهبود پاداشهای آینده تنظیم میکند.
مفاهیم و اجزای کلیدی
یادگیری تقویتی شامل چندین عنصر اصلی است. به طور کلی، یک عامل (یادگیرنده یا موجود تصمیمگیرنده) با یک محیط (سیستم خارجی یا فضای مسئله) با انجام اقدامات در گامهای زمانی گسسته تعامل دارد.
در هر گام، عامل حالت فعلی محیط را مشاهده میکند، یک اقدام انجام میدهد و سپس از محیط پاداش (یک سیگنال بازخورد عددی) دریافت میکند. در طول تعاملات متعدد، عامل به دنبال بیشینهسازی مجموع کل پاداشها است. مفاهیم کلیدی عبارتند از:
- عامل: یادگیرنده خودمختار (مثلاً برنامه هوش مصنوعی یا ربات) که تصمیم میگیرد.
- محیط: جهان یا حوزه مسئلهای که عامل با آن تعامل دارد. محیط حالت فعلی را به عامل ارائه میدهد و بر اساس اقدام عامل، پاداش را محاسبه میکند.
- اقدام: تصمیم یا حرکتی که عامل برای تأثیرگذاری بر محیط انجام میدهد. اقدامات مختلف ممکن است به حالتها و پاداشهای متفاوتی منجر شوند.
- حالت: نمایشی از محیط در یک زمان مشخص (مثلاً موقعیت مهرهها روی صفحه بازی یا دادههای حسگر در یک ربات). عامل از حالت برای تصمیمگیری اقدام بعدی استفاده میکند.
- پاداش: سیگنال بازخورد عددی (مثبت، منفی یا صفر) که پس از هر اقدام توسط محیط داده میشود. این سیگنال مزیت (یا هزینه) فوری اقدام را نشان میدهد. هدف عامل بیشینهسازی پاداش تجمعی مورد انتظار در طول زمان است.
- سیاست: استراتژی عامل برای انتخاب اقدامات، معمولاً نگاشتی از حالتها به اقدامات. عامل از طریق یادگیری به دنبال یافتن سیاست بهینه یا نزدیک به بهینه است.
- تابع ارزش (یا بازده): برآورد پاداش آینده مورد انتظار (پاداش تجمعی) که عامل از یک حالت مشخص (یا جفت حالت-اقدام) به دست خواهد آورد. تابع ارزش به عامل کمک میکند پیامدهای بلندمدت اقدامات را ارزیابی کند.
- مدل (اختیاری): در RL مبتنی بر مدل، عامل یک مدل داخلی از دینامیکهای محیط (چگونگی انتقال حالتها با توجه به اقدامات) میسازد و از آن برای برنامهریزی استفاده میکند. در RL بدون مدل، چنین مدلی ساخته نمیشود و عامل صرفاً از طریق آزمون و خطا یاد میگیرد.
نحوه عملکرد یادگیری تقویتی
RL اغلب به صورت فرآیند تصمیمگیری مارکوف (MDP) فرموله میشود. در هر گام زمانی گسسته، عامل یک حالت St را مشاهده کرده و یک اقدام At را انتخاب میکند. سپس محیط به حالت جدید St+1 منتقل شده و بر اساس اقدام انجام شده، پاداش Rt+1 را صادر میکند.
در طول چندین قسمت، عامل تجربهای به صورت توالیهای حالت-اقدام-پاداش جمعآوری میکند. با تحلیل اینکه کدام اقدامات به پاداشهای بالاتر منجر شدهاند، عامل به تدریج سیاست خود را بهبود میبخشد.
نکته مهم این است که مسائل RL شامل تعادلی بین کاوش و بهرهبرداری هستند. عامل باید بهرهبرداری از بهترین اقدامات شناخته شده برای کسب پاداش داشته باشد، اما همچنین باید کاوش اقدامات جدیدی را انجام دهد که ممکن است به نتایج بهتری منجر شوند.
برای مثال، یک عامل یادگیری تقویتی که رباتی را کنترل میکند معمولاً مسیر ایمن و اثبات شدهای را انتخاب میکند (بهرهبرداری) اما گاهی مسیر جدیدی را امتحان میکند (کاوش) تا شاید مسیر سریعتری پیدا کند. تعادل این دو جنبه برای یافتن سیاست بهینه ضروری است.
فرآیند یادگیری اغلب با شرطیسازی رفتاری مقایسه میشود. برای مثال، AWS اشاره میکند که RL «فرآیند یادگیری آزمون و خطایی را که انسانها استفاده میکنند تقلید میکند». کودکی ممکن است بیاموزد که تمیز کردن باعث تحسین میشود و پرت کردن اسباببازیها باعث سرزنش؛ به همین ترتیب، عامل RL میآموزد کدام اقدامات پاداش دارند با دریافت بازخورد مثبت برای اقدامات خوب و بازخورد منفی برای اقدامات بد.
با گذشت زمان، عامل تخمینهای ارزش یا سیاستهایی میسازد که بهترین توالی اقدامات برای رسیدن به اهداف بلندمدت را در بر میگیرند.
در عمل، الگوریتمهای RL پاداشها را در طول قسمتها جمعآوری کرده و هدفشان بیشینهسازی بازده مورد انتظار (مجموع پاداشهای آینده) است. آنها یاد میگیرند اقداماتی را ترجیح دهند که به پاداشهای بالای آینده منجر میشوند، حتی اگر آن اقدامات بالاترین پاداش فوری را نداشته باشند. این توانایی برنامهریزی برای سود بلندمدت (گاهی با پذیرش فداکاریهای کوتاهمدت) RL را برای وظایف پیچیده و متوالی مناسب میسازد.
انواع الگوریتمهای یادگیری تقویتی
الگوریتمهای متعددی برای پیادهسازی یادگیری تقویتی وجود دارد. به طور کلی، آنها به دو دسته مبتنی بر مدل و بدون مدل تقسیم میشوند.
-
یادگیری تقویتی مبتنی بر مدل: عامل ابتدا مدل دینامیکهای محیط (چگونگی تغییر حالتها و نحوه تخصیص پاداشها) را میآموزد یا میداند و سپس با شبیهسازی نتایج، اقدامات را برنامهریزی میکند. برای مثال، رباتی که یک ساختمان را نقشهبرداری میکند تا کوتاهترین مسیر را بیابد، از رویکرد مبتنی بر مدل استفاده میکند.
-
یادگیری تقویتی بدون مدل: عامل هیچ مدل صریحی از محیط ندارد و صرفاً از طریق آزمون و خطا در محیط واقعی (یا شبیهسازی شده) یاد میگیرد. به جای برنامهریزی با مدل، به تدریج تخمینهای ارزش یا سیاستها را از تجربه بهروزرسانی میکند. بیشتر الگوریتمهای کلاسیک RL (مانند Q-learning یا یادگیری تفاوت زمانی) بدون مدل هستند.
در این دستهها، الگوریتمها در نحوه نمایش و بهروزرسانی سیاست یا تابع ارزش تفاوت دارند. برای مثال، Q-learning (یک روش مبتنی بر ارزش) تخمینهایی از «مقادیر Q» (بازده مورد انتظار) برای جفتهای حالت-اقدام میآموزد و اقدامی را انتخاب میکند که بیشترین مقدار را دارد.
روشهای گرادیان سیاست مستقیماً سیاست را پارامتردهی میکنند و پارامترهای آن را از طریق صعود گرادیان روی پاداش مورد انتظار تنظیم میکنند. بسیاری از روشهای پیشرفته (مانند Actor-Critic یا بهینهسازی سیاست منطقه اعتماد) ترکیبی از تخمین ارزش و بهینهسازی سیاست هستند.
یکی از پیشرفتهای مهم اخیر، یادگیری تقویتی عمیق است. در این روش، شبکههای عصبی عمیق به عنوان تقریبزنندههای تابع ارزش یا سیاست به کار میروند و امکان پردازش ورودیهای با ابعاد بالا مانند تصاویر را فراهم میکنند. موفقیت DeepMind در بازیهای آتاری و بازیهای تختهای (مانند AlphaGo در بازی گو) از ترکیب یادگیری عمیق با RL ناشی میشود. در یادگیری تقویتی عمیق، الگوریتمهایی مانند شبکههای Q عمیق (DQN) یا گرادیانهای سیاست عمیق، RL را به وظایف پیچیده دنیای واقعی گسترش میدهند.
برای مثال، AWS اشاره میکند که الگوریتمهای رایج RL شامل Q-learning، روشهای مونتکارلو، روشهای گرادیان سیاست و یادگیری تفاوت زمانی هستند و «یادگیری تقویتی عمیق» به استفاده از شبکههای عصبی عمیق در این روشها اشاره دارد.
کاربردهای یادگیری تقویتی
یادگیری تقویتی در حوزههای متعددی که تصمیمگیری متوالی در شرایط عدم قطعیت اهمیت دارد، کاربرد دارد. کاربردهای کلیدی عبارتند از:
- بازیها و شبیهسازی: RL به طور مشهور بازیها و شبیهسازها را تسلط یافته است. برای مثال، AlphaGo و AlphaZero از DeepMind با استفاده از RL بازیهای گو و شطرنج را در سطح فراتر از انسان آموختند. بازیهای ویدیویی (آتاری، استارکرفت) و شبیهسازها (فیزیک، رباتیک) بسترهای طبیعی برای آزمایش RL هستند زیرا محیط به خوبی تعریف شده و آزمایشهای متعدد ممکن است.
- رباتیک و کنترل: رباتهای خودران و خودروهای خودران عوامل در محیطهای پویا هستند. با آزمون و خطا، RL میتواند به ربات آموزش دهد که اشیاء را بگیرد یا خودرو را در ترافیک هدایت کند. IBM اشاره میکند که رباتها و خودروهای خودران نمونههای برجستهای از عوامل RL هستند که از طریق تعامل با محیط خود میآموزند.
- سیستمهای پیشنهاددهی و بازاریابی: RL میتواند محتوا یا تبلیغات را بر اساس تعاملات کاربر شخصیسازی کند. برای مثال، یک سیستم پیشنهاددهنده مبتنی بر RL پیشنهادات خود را با کلیک یا رد کاربران بهروزرسانی میکند و یاد میگیرد که مرتبطترین تبلیغات یا محصولات را ارائه دهد.
- بهینهسازی منابع: RL در بهینهسازی سیستمهایی با اهداف بلندمدت عملکرد خوبی دارد. نمونهها شامل تنظیم سرمایش مراکز داده برای کاهش مصرف انرژی، کنترل ذخیره انرژی شبکه هوشمند یا مدیریت منابع رایانش ابری است. AWS موارد استفادهای مانند «بهینهسازی هزینههای ابری» را توصیف میکند که در آن عامل RL یاد میگیرد منابع محاسباتی را برای بهترین بهرهوری هزینه تخصیص دهد.
- مالی و معاملات: بازارهای مالی پویا و متوالی هستند. RL برای بهینهسازی استراتژیهای معاملاتی، مدیریت پرتفوی و هجینگ با شبیهسازی معاملات و یادگیری اینکه کدام اقدامات بازدهی را در تغییرات بازار به حداکثر میرسانند، مورد بررسی قرار گرفته است.
این مثالها قدرت RL را در برنامهریزی بلندمدت نشان میدهند. برخلاف روشهایی که فقط نتایج فوری را پیشبینی میکنند، RL به طور صریح پاداشهای تجمعی را به حداکثر میرساند و آن را برای مسائلی که اقدامات پیامدهای تأخیری دارند، بسیار مناسب میسازد.
یادگیری تقویتی در مقابل سایر روشهای یادگیری ماشین
یادگیری تقویتی یکی از سه الگوی اصلی یادگیری ماشین (در کنار یادگیری نظارتشده و بدون نظارت) است، اما تمرکز متفاوتی دارد. یادگیری نظارتشده بر روی جفتهای ورودی-خروجی برچسبخورده آموزش میبیند، در حالی که یادگیری بدون نظارت الگوها را در دادههای بدون برچسب پیدا میکند.
در مقابل، RL به نمونههای برچسبخورده رفتار صحیح نیاز ندارد. در عوض، هدف را از طریق سیگنال پاداش تعریف میکند و با آزمون و خطا یاد میگیرد. در RL، «دادههای آموزشی» (جفتهای حالت-اقدام-پاداش) متوالی و وابسته به هم هستند، زیرا هر اقدام بر حالتهای آینده تأثیر میگذارد.
به بیان ساده، یادگیری نظارتشده به مدل میگوید چه چیزی را پیشبینی کند؛ یادگیری تقویتی به عامل میآموزد چگونه عمل کند. همانطور که مرور IBM اشاره میکند، RL با «تقویت مثبت» (پاداش) یاد میگیرد نه با نشان دادن پاسخهای صحیح.
این موضوع RL را برای وظایفی که شامل تصمیمگیری و کنترل هستند، بسیار قدرتمند میکند. با این حال، به این معنی است که RL میتواند چالشبرانگیزتر باشد: بدون بازخورد برچسبخورده، عامل باید اقدامات خوب را خودش کشف کند که اغلب نیازمند کاوش گسترده در محیط است.
چالشهای یادگیری تقویتی
با وجود قدرتش، RL با چالشهای عملی همراه است:
- کارایی نمونه پایین: RL اغلب به مقادیر زیادی تجربه (آزمایش) برای یادگیری سیاستهای مؤثر نیاز دارد. آموزش در دنیای واقعی میتواند پرهزینه یا کند باشد (مثلاً یک ربات ممکن است به میلیونها آزمایش برای تسلط بر یک وظیفه نیاز داشته باشد). به همین دلیل، بسیاری از سیستمهای RL ابتدا در شبیهسازی آموزش میبینند.
- طراحی پاداش: تعریف تابع پاداش مناسب دشوار است. پاداش نامناسب میتواند به رفتارهای ناخواسته منجر شود (عامل ممکن است پاداش را به گونهای «بازی» کند که با هدف واقعی همراستا نباشد). طراحی پاداشهایی که اهداف بلندمدت را بدون میانبرهای ناخواسته منعکس کنند، هنر تحقیق در RL است.
- پایداری و ایمنی: در محیطهای واقعی (رباتیک، بهداشت و درمان، مالی)، اقدامات اکتشافی ناایمن میتوانند خطرناک یا پرهزینه باشند. AWS اشاره میکند که آزمایش در دنیای واقعی (مثلاً پرواز پهپاد) ممکن است بدون شبیهسازی عملی نباشد. تضمین ایمنی در طول یادگیری و استقرار، حوزه فعالی از تحقیقات RL است.
- قابلیت تفسیر: سیاستهای یادگرفته شده RL (به ویژه مدلهای عمیق RL) میتوانند غیرشفاف باشند. فهمیدن اینکه چرا عامل اقدامات خاصی را انجام میدهد اغلب دشوار است و این موضوع عیبیابی یا اعتماد به سیستم را سخت میکند. این کمبود قابلیت تفسیر به عنوان چالشی در استقرار سیستمهای پیچیده RL شناخته شده است.
هر یک از این چالشها موضوع تحقیقات جاری است. با وجود موانع، موفقیتهای عملی RL (در بازیها، رباتیک، سیستمهای پیشنهاددهی و غیره) نشان میدهد که وقتی با دقت به کار گرفته شود، RL میتواند نتایج چشمگیری به دست آورد.
>>>برای اطلاعات بیشتر کلیک کنید:
در خلاصه، یادگیری تقویتی یک چارچوب یادگیری خودمختار است که در آن عامل با تعامل با محیط خود و بیشینهسازی پاداش تجمعی، به اهداف دست مییابد. این چارچوب ترکیبی از ایدههای کنترل بهینه، برنامهریزی پویا و روانشناسی رفتاری است و پایه بسیاری از پیشرفتهای مدرن هوش مصنوعی محسوب میشود.
با فرموله کردن مسائل به عنوان وظایف تصمیمگیری متوالی با بازخورد، RL به ماشینها امکان میدهد رفتارهای پیچیده را به تنهایی بیاموزند و فاصله بین یادگیری مبتنی بر داده و عمل هدفمند را پر کنند.