یادگیری تقویتی (RL) شاخه‌ای از یادگیری ماشین است که در آن عامل با تعامل با محیط، یاد می‌گیرد چگونه تصمیم‌گیری کند. در RL، هدف عامل یادگیری سیاست (یک استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر می‌رساند.

برخلاف یادگیری نظارت‌شده که به نمونه‌های برچسب‌خورده نیاز دارد، RL بر بازخورد آزمون و خطا تکیه دارد: اقداماتی که نتایج مثبت (پاداش) دارند تقویت می‌شوند، در حالی که اقداماتی که نتایج منفی (مجازات) دارند اجتناب می‌شوند.

همان‌طور که ساتون و بارتو توضیح می‌دهند، RL اساساً «یک رویکرد محاسباتی برای درک و خودکارسازی یادگیری و تصمیم‌گیری هدفمند» است که در آن عامل از تعامل مستقیم با محیط خود می‌آموزد، بدون نیاز به نظارت خارجی یا مدل کامل جهان.

در عمل، این بدان معناست که عامل به طور مداوم فضای حالت-عمل را کاوش می‌کند، نتایج اقدامات خود را مشاهده می‌کند و استراتژی خود را برای بهبود پاداش‌های آینده تنظیم می‌کند.

مفاهیم و اجزای کلیدی

یادگیری تقویتی شامل چندین عنصر اصلی است. به طور کلی، یک عامل (یادگیرنده یا موجود تصمیم‌گیرنده) با یک محیط (سیستم خارجی یا فضای مسئله) با انجام اقدامات در گام‌های زمانی گسسته تعامل دارد.

در هر گام، عامل حالت فعلی محیط را مشاهده می‌کند، یک اقدام انجام می‌دهد و سپس از محیط پاداش (یک سیگنال بازخورد عددی) دریافت می‌کند. در طول تعاملات متعدد، عامل به دنبال بیشینه‌سازی مجموع کل پاداش‌ها است. مفاهیم کلیدی عبارتند از:

  • عامل: یادگیرنده خودمختار (مثلاً برنامه هوش مصنوعی یا ربات) که تصمیم می‌گیرد.
  • محیط: جهان یا حوزه مسئله‌ای که عامل با آن تعامل دارد. محیط حالت فعلی را به عامل ارائه می‌دهد و بر اساس اقدام عامل، پاداش را محاسبه می‌کند.
  • اقدام: تصمیم یا حرکتی که عامل برای تأثیرگذاری بر محیط انجام می‌دهد. اقدامات مختلف ممکن است به حالت‌ها و پاداش‌های متفاوتی منجر شوند.
  • حالت: نمایشی از محیط در یک زمان مشخص (مثلاً موقعیت مهره‌ها روی صفحه بازی یا داده‌های حسگر در یک ربات). عامل از حالت برای تصمیم‌گیری اقدام بعدی استفاده می‌کند.
  • پاداش: سیگنال بازخورد عددی (مثبت، منفی یا صفر) که پس از هر اقدام توسط محیط داده می‌شود. این سیگنال مزیت (یا هزینه) فوری اقدام را نشان می‌دهد. هدف عامل بیشینه‌سازی پاداش تجمعی مورد انتظار در طول زمان است.
  • سیاست: استراتژی عامل برای انتخاب اقدامات، معمولاً نگاشتی از حالت‌ها به اقدامات. عامل از طریق یادگیری به دنبال یافتن سیاست بهینه یا نزدیک به بهینه است.
  • تابع ارزش (یا بازده): برآورد پاداش آینده مورد انتظار (پاداش تجمعی) که عامل از یک حالت مشخص (یا جفت حالت-اقدام) به دست خواهد آورد. تابع ارزش به عامل کمک می‌کند پیامدهای بلندمدت اقدامات را ارزیابی کند.
  • مدل (اختیاری): در RL مبتنی بر مدل، عامل یک مدل داخلی از دینامیک‌های محیط (چگونگی انتقال حالت‌ها با توجه به اقدامات) می‌سازد و از آن برای برنامه‌ریزی استفاده می‌کند. در RL بدون مدل، چنین مدلی ساخته نمی‌شود و عامل صرفاً از طریق آزمون و خطا یاد می‌گیرد.

مفاهیم و اجزای کلیدی یادگیری تقویتی

نحوه عملکرد یادگیری تقویتی

RL اغلب به صورت فرآیند تصمیم‌گیری مارکوف (MDP) فرموله می‌شود. در هر گام زمانی گسسته، عامل یک حالت St را مشاهده کرده و یک اقدام At را انتخاب می‌کند. سپس محیط به حالت جدید St+1 منتقل شده و بر اساس اقدام انجام شده، پاداش Rt+1 را صادر می‌کند.

در طول چندین قسمت، عامل تجربه‌ای به صورت توالی‌های حالت-اقدام-پاداش جمع‌آوری می‌کند. با تحلیل اینکه کدام اقدامات به پاداش‌های بالاتر منجر شده‌اند، عامل به تدریج سیاست خود را بهبود می‌بخشد.

نکته مهم این است که مسائل RL شامل تعادلی بین کاوش و بهره‌برداری هستند. عامل باید بهره‌برداری از بهترین اقدامات شناخته شده برای کسب پاداش داشته باشد، اما همچنین باید کاوش اقدامات جدیدی را انجام دهد که ممکن است به نتایج بهتری منجر شوند.

برای مثال، یک عامل یادگیری تقویتی که رباتی را کنترل می‌کند معمولاً مسیر ایمن و اثبات شده‌ای را انتخاب می‌کند (بهره‌برداری) اما گاهی مسیر جدیدی را امتحان می‌کند (کاوش) تا شاید مسیر سریع‌تری پیدا کند. تعادل این دو جنبه برای یافتن سیاست بهینه ضروری است.

فرآیند یادگیری اغلب با شرطی‌سازی رفتاری مقایسه می‌شود. برای مثال، AWS اشاره می‌کند که RL «فرآیند یادگیری آزمون و خطایی را که انسان‌ها استفاده می‌کنند تقلید می‌کند». کودکی ممکن است بیاموزد که تمیز کردن باعث تحسین می‌شود و پرت کردن اسباب‌بازی‌ها باعث سرزنش؛ به همین ترتیب، عامل RL می‌آموزد کدام اقدامات پاداش دارند با دریافت بازخورد مثبت برای اقدامات خوب و بازخورد منفی برای اقدامات بد.

با گذشت زمان، عامل تخمین‌های ارزش یا سیاست‌هایی می‌سازد که بهترین توالی اقدامات برای رسیدن به اهداف بلندمدت را در بر می‌گیرند.

در عمل، الگوریتم‌های RL پاداش‌ها را در طول قسمت‌ها جمع‌آوری کرده و هدفشان بیشینه‌سازی بازده مورد انتظار (مجموع پاداش‌های آینده) است. آن‌ها یاد می‌گیرند اقداماتی را ترجیح دهند که به پاداش‌های بالای آینده منجر می‌شوند، حتی اگر آن اقدامات بالاترین پاداش فوری را نداشته باشند. این توانایی برنامه‌ریزی برای سود بلندمدت (گاهی با پذیرش فداکاری‌های کوتاه‌مدت) RL را برای وظایف پیچیده و متوالی مناسب می‌سازد.

نحوه عملکرد یادگیری تقویتی

انواع الگوریتم‌های یادگیری تقویتی

الگوریتم‌های متعددی برای پیاده‌سازی یادگیری تقویتی وجود دارد. به طور کلی، آن‌ها به دو دسته مبتنی بر مدل و بدون مدل تقسیم می‌شوند.

  • یادگیری تقویتی مبتنی بر مدل: عامل ابتدا مدل دینامیک‌های محیط (چگونگی تغییر حالت‌ها و نحوه تخصیص پاداش‌ها) را می‌آموزد یا می‌داند و سپس با شبیه‌سازی نتایج، اقدامات را برنامه‌ریزی می‌کند. برای مثال، رباتی که یک ساختمان را نقشه‌برداری می‌کند تا کوتاه‌ترین مسیر را بیابد، از رویکرد مبتنی بر مدل استفاده می‌کند.

  • یادگیری تقویتی بدون مدل: عامل هیچ مدل صریحی از محیط ندارد و صرفاً از طریق آزمون و خطا در محیط واقعی (یا شبیه‌سازی شده) یاد می‌گیرد. به جای برنامه‌ریزی با مدل، به تدریج تخمین‌های ارزش یا سیاست‌ها را از تجربه به‌روزرسانی می‌کند. بیشتر الگوریتم‌های کلاسیک RL (مانند Q-learning یا یادگیری تفاوت زمانی) بدون مدل هستند.

در این دسته‌ها، الگوریتم‌ها در نحوه نمایش و به‌روزرسانی سیاست یا تابع ارزش تفاوت دارند. برای مثال، Q-learning (یک روش مبتنی بر ارزش) تخمین‌هایی از «مقادیر Q» (بازده مورد انتظار) برای جفت‌های حالت-اقدام می‌آموزد و اقدامی را انتخاب می‌کند که بیشترین مقدار را دارد.

روش‌های گرادیان سیاست مستقیماً سیاست را پارامتردهی می‌کنند و پارامترهای آن را از طریق صعود گرادیان روی پاداش مورد انتظار تنظیم می‌کنند. بسیاری از روش‌های پیشرفته (مانند Actor-Critic یا بهینه‌سازی سیاست منطقه اعتماد) ترکیبی از تخمین ارزش و بهینه‌سازی سیاست هستند.

یکی از پیشرفت‌های مهم اخیر، یادگیری تقویتی عمیق است. در این روش، شبکه‌های عصبی عمیق به عنوان تقریب‌زننده‌های تابع ارزش یا سیاست به کار می‌روند و امکان پردازش ورودی‌های با ابعاد بالا مانند تصاویر را فراهم می‌کنند. موفقیت DeepMind در بازی‌های آتاری و بازی‌های تخته‌ای (مانند AlphaGo در بازی گو) از ترکیب یادگیری عمیق با RL ناشی می‌شود. در یادگیری تقویتی عمیق، الگوریتم‌هایی مانند شبکه‌های Q عمیق (DQN) یا گرادیان‌های سیاست عمیق، RL را به وظایف پیچیده دنیای واقعی گسترش می‌دهند.

برای مثال، AWS اشاره می‌کند که الگوریتم‌های رایج RL شامل Q-learning، روش‌های مونت‌کارلو، روش‌های گرادیان سیاست و یادگیری تفاوت زمانی هستند و «یادگیری تقویتی عمیق» به استفاده از شبکه‌های عصبی عمیق در این روش‌ها اشاره دارد.

انواع الگوریتم‌های یادگیری تقویتی

کاربردهای یادگیری تقویتی

یادگیری تقویتی در حوزه‌های متعددی که تصمیم‌گیری متوالی در شرایط عدم قطعیت اهمیت دارد، کاربرد دارد. کاربردهای کلیدی عبارتند از:

  • بازی‌ها و شبیه‌سازی: RL به طور مشهور بازی‌ها و شبیه‌سازها را تسلط یافته است. برای مثال، AlphaGo و AlphaZero از DeepMind با استفاده از RL بازی‌های گو و شطرنج را در سطح فراتر از انسان آموختند. بازی‌های ویدیویی (آتاری، استارکرفت) و شبیه‌سازها (فیزیک، رباتیک) بسترهای طبیعی برای آزمایش RL هستند زیرا محیط به خوبی تعریف شده و آزمایش‌های متعدد ممکن است.
  • رباتیک و کنترل: ربات‌های خودران و خودروهای خودران عوامل در محیط‌های پویا هستند. با آزمون و خطا، RL می‌تواند به ربات آموزش دهد که اشیاء را بگیرد یا خودرو را در ترافیک هدایت کند. IBM اشاره می‌کند که ربات‌ها و خودروهای خودران نمونه‌های برجسته‌ای از عوامل RL هستند که از طریق تعامل با محیط خود می‌آموزند.
  • سیستم‌های پیشنهاددهی و بازاریابی: RL می‌تواند محتوا یا تبلیغات را بر اساس تعاملات کاربر شخصی‌سازی کند. برای مثال، یک سیستم پیشنهاددهنده مبتنی بر RL پیشنهادات خود را با کلیک یا رد کاربران به‌روزرسانی می‌کند و یاد می‌گیرد که مرتبط‌ترین تبلیغات یا محصولات را ارائه دهد.
  • بهینه‌سازی منابع: RL در بهینه‌سازی سیستم‌هایی با اهداف بلندمدت عملکرد خوبی دارد. نمونه‌ها شامل تنظیم سرمایش مراکز داده برای کاهش مصرف انرژی، کنترل ذخیره انرژی شبکه هوشمند یا مدیریت منابع رایانش ابری است. AWS موارد استفاده‌ای مانند «بهینه‌سازی هزینه‌های ابری» را توصیف می‌کند که در آن عامل RL یاد می‌گیرد منابع محاسباتی را برای بهترین بهره‌وری هزینه تخصیص دهد.
  • مالی و معاملات: بازارهای مالی پویا و متوالی هستند. RL برای بهینه‌سازی استراتژی‌های معاملاتی، مدیریت پرتفوی و هجینگ با شبیه‌سازی معاملات و یادگیری اینکه کدام اقدامات بازدهی را در تغییرات بازار به حداکثر می‌رسانند، مورد بررسی قرار گرفته است.

این مثال‌ها قدرت RL را در برنامه‌ریزی بلندمدت نشان می‌دهند. برخلاف روش‌هایی که فقط نتایج فوری را پیش‌بینی می‌کنند، RL به طور صریح پاداش‌های تجمعی را به حداکثر می‌رساند و آن را برای مسائلی که اقدامات پیامدهای تأخیری دارند، بسیار مناسب می‌سازد.

کاربردهای یادگیری تقویتی

یادگیری تقویتی در مقابل سایر روش‌های یادگیری ماشین

یادگیری تقویتی یکی از سه الگوی اصلی یادگیری ماشین (در کنار یادگیری نظارت‌شده و بدون نظارت) است، اما تمرکز متفاوتی دارد. یادگیری نظارت‌شده بر روی جفت‌های ورودی-خروجی برچسب‌خورده آموزش می‌بیند، در حالی که یادگیری بدون نظارت الگوها را در داده‌های بدون برچسب پیدا می‌کند.

در مقابل، RL به نمونه‌های برچسب‌خورده رفتار صحیح نیاز ندارد. در عوض، هدف را از طریق سیگنال پاداش تعریف می‌کند و با آزمون و خطا یاد می‌گیرد. در RL، «داده‌های آموزشی» (جفت‌های حالت-اقدام-پاداش) متوالی و وابسته به هم هستند، زیرا هر اقدام بر حالت‌های آینده تأثیر می‌گذارد.

به بیان ساده، یادگیری نظارت‌شده به مدل می‌گوید چه چیزی را پیش‌بینی کند؛ یادگیری تقویتی به عامل می‌آموزد چگونه عمل کند. همان‌طور که مرور IBM اشاره می‌کند، RL با «تقویت مثبت» (پاداش) یاد می‌گیرد نه با نشان دادن پاسخ‌های صحیح.

این موضوع RL را برای وظایفی که شامل تصمیم‌گیری و کنترل هستند، بسیار قدرتمند می‌کند. با این حال، به این معنی است که RL می‌تواند چالش‌برانگیزتر باشد: بدون بازخورد برچسب‌خورده، عامل باید اقدامات خوب را خودش کشف کند که اغلب نیازمند کاوش گسترده در محیط است.

یادگیری تقویتی در مقابل سایر روش‌های یادگیری ماشین

چالش‌های یادگیری تقویتی

با وجود قدرتش، RL با چالش‌های عملی همراه است:

  • کارایی نمونه پایین: RL اغلب به مقادیر زیادی تجربه (آزمایش) برای یادگیری سیاست‌های مؤثر نیاز دارد. آموزش در دنیای واقعی می‌تواند پرهزینه یا کند باشد (مثلاً یک ربات ممکن است به میلیون‌ها آزمایش برای تسلط بر یک وظیفه نیاز داشته باشد). به همین دلیل، بسیاری از سیستم‌های RL ابتدا در شبیه‌سازی آموزش می‌بینند.
  • طراحی پاداش: تعریف تابع پاداش مناسب دشوار است. پاداش نامناسب می‌تواند به رفتارهای ناخواسته منجر شود (عامل ممکن است پاداش را به گونه‌ای «بازی» کند که با هدف واقعی هم‌راستا نباشد). طراحی پاداش‌هایی که اهداف بلندمدت را بدون میان‌برهای ناخواسته منعکس کنند، هنر تحقیق در RL است.
  • پایداری و ایمنی: در محیط‌های واقعی (رباتیک، بهداشت و درمان، مالی)، اقدامات اکتشافی ناایمن می‌توانند خطرناک یا پرهزینه باشند. AWS اشاره می‌کند که آزمایش در دنیای واقعی (مثلاً پرواز پهپاد) ممکن است بدون شبیه‌سازی عملی نباشد. تضمین ایمنی در طول یادگیری و استقرار، حوزه فعالی از تحقیقات RL است.
  • قابلیت تفسیر: سیاست‌های یادگرفته شده RL (به ویژه مدل‌های عمیق RL) می‌توانند غیرشفاف باشند. فهمیدن اینکه چرا عامل اقدامات خاصی را انجام می‌دهد اغلب دشوار است و این موضوع عیب‌یابی یا اعتماد به سیستم را سخت می‌کند. این کمبود قابلیت تفسیر به عنوان چالشی در استقرار سیستم‌های پیچیده RL شناخته شده است.

هر یک از این چالش‌ها موضوع تحقیقات جاری است. با وجود موانع، موفقیت‌های عملی RL (در بازی‌ها، رباتیک، سیستم‌های پیشنهاددهی و غیره) نشان می‌دهد که وقتی با دقت به کار گرفته شود، RL می‌تواند نتایج چشمگیری به دست آورد.

>>>برای اطلاعات بیشتر کلیک کنید:

هوش مصنوعی مولد چیست؟

شبکه عصبی چیست؟

چالش‌های یادگیری تقویتی


در خلاصه، یادگیری تقویتی یک چارچوب یادگیری خودمختار است که در آن عامل با تعامل با محیط خود و بیشینه‌سازی پاداش تجمعی، به اهداف دست می‌یابد. این چارچوب ترکیبی از ایده‌های کنترل بهینه، برنامه‌ریزی پویا و روان‌شناسی رفتاری است و پایه بسیاری از پیشرفت‌های مدرن هوش مصنوعی محسوب می‌شود.

با فرموله کردن مسائل به عنوان وظایف تصمیم‌گیری متوالی با بازخورد، RL به ماشین‌ها امکان می‌دهد رفتارهای پیچیده را به تنهایی بیاموزند و فاصله بین یادگیری مبتنی بر داده و عمل هدفمند را پر کنند.

External References
This article has been compiled with reference to the following external sources: