یادگیری تقویتی چیست؟

یادگیری تقویتی (RL) شاخه‌ای از یادگیری ماشین است که در آن یک عامل با تعامل با محیط خود، یاد می‌گیرد چگونه تصمیم‌گیری کند. هدف عامل در RL یادگیری یک سیاست (استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر می‌رساند.

یادگیری تقویتی (RL) شاخه‌ای از یادگیری ماشین است که در آن یک عامل با تعامل با محیط خود، یاد می‌گیرد چگونه تصمیم‌گیری کند. در RL، هدف عامل یادگیری یک سیاست (استراتژی) برای انتخاب اقداماتی است که پاداش تجمعی را در طول زمان به حداکثر می‌رساند.

برخلاف یادگیری نظارت‌شده که به نمونه‌های برچسب‌خورده نیاز دارد، RL بر بازخورد آزمون و خطا تکیه دارد: اقداماتی که نتایج مثبت (پاداش) دارند تقویت می‌شوند، در حالی که اقداماتی که نتایج منفی (مجازات) دارند اجتناب می‌شوند.

RL اساساً "رویکردی محاسباتی برای درک و خودکارسازی یادگیری و تصمیم‌گیری هدفمند" است که در آن عامل از تعامل مستقیم با محیط خود می‌آموزد، بدون نیاز به نظارت خارجی یا مدل کامل از جهان.

— ساتون و بارتو، پژوهشگران یادگیری تقویتی

در عمل، این بدان معناست که عامل به طور مداوم فضای حالت-عمل را کاوش می‌کند، نتایج اقدامات خود را مشاهده می‌کند و استراتژی خود را برای بهبود پاداش‌های آینده تنظیم می‌کند.

مفاهیم و اجزای کلیدی

یادگیری تقویتی شامل چندین عنصر اصلی است. به طور کلی، یک عامل (یادگیرنده یا موجود تصمیم‌گیرنده) با یک محیط (سیستم خارجی یا فضای مسئله) با انجام اقدامات در گام‌های زمانی گسسته تعامل دارد.

در هر گام، عامل حالت فعلی محیط را مشاهده می‌کند، یک اقدام انجام می‌دهد و سپس از محیط پاداش (یک سیگنال بازخورد عددی) دریافت می‌کند. در طول تعاملات متعدد، عامل به دنبال حداکثر کردن مجموع کل پاداش‌ها است.

عامل

یادگیرنده خودکار (مثلاً برنامه هوش مصنوعی یا ربات) که تصمیم می‌گیرد.

محیط

جهان یا حوزه مسئله‌ای که عامل با آن تعامل دارد. محیط حالت فعلی را به عامل می‌دهد و بر اساس اقدام عامل، پاداش را محاسبه می‌کند.

اقدام

تصمیم یا حرکتی که عامل برای تأثیرگذاری بر محیط انجام می‌دهد. اقدامات مختلف ممکن است به حالت‌ها و پاداش‌های متفاوت منجر شوند.

حالت

نمایشی از محیط در یک زمان مشخص (مثلاً موقعیت قطعات روی صفحه بازی یا داده‌های حسگر در ربات). عامل از حالت برای تصمیم‌گیری اقدام بعدی خود استفاده می‌کند.

پاداش

یک سیگنال بازخورد عددی (مثبت، منفی یا صفر) که پس از هر اقدام توسط محیط داده می‌شود. این سیگنال سود (یا هزینه) فوری اقدام را کمّی می‌کند. هدف عامل حداکثر کردن پاداش تجمعی مورد انتظار در طول زمان است.

سیاست

استراتژی عامل برای انتخاب اقدامات، معمولاً نگاشتی از حالت‌ها به اقدامات. از طریق یادگیری، عامل به دنبال یافتن سیاست بهینه یا نزدیک به بهینه است.

تابع ارزش

برآورد پاداش آینده مورد انتظار (پاداش تجمعی) که عامل از یک حالت مشخص (یا جفت حالت-اقدام) به دست خواهد آورد. تابع ارزش به عامل کمک می‌کند پیامدهای بلندمدت اقدامات را ارزیابی کند.

مدل (اختیاری)

در RL مبتنی بر مدل، عامل یک مدل داخلی از دینامیک‌های محیط (چگونگی انتقال حالت‌ها با توجه به اقدامات) می‌سازد و از آن برای برنامه‌ریزی استفاده می‌کند. در RL بدون مدل، چنین مدلی ساخته نمی‌شود و عامل صرفاً از تجربه آزمون و خطا می‌آموزد.
مفاهیم و اجزای کلیدی یادگیری تقویتی
مفاهیم و اجزای کلیدی چارچوب یادگیری تقویتی

نحوه عملکرد یادگیری تقویتی

RL اغلب به صورت فرآیند تصمیم‌گیری مارکوف (MDP) فرموله می‌شود. در هر گام زمانی گسسته، عامل یک حالت St را مشاهده کرده و یک اقدام At را انتخاب می‌کند. سپس محیط به حالت جدید St+1 منتقل شده و بر اساس اقدام انجام شده، پاداش Rt+1 را صادر می‌کند.

در طول چندین قسمت، عامل تجربه‌ای به شکل دنباله‌های حالت-اقدام-پاداش جمع‌آوری می‌کند. با تحلیل اینکه کدام اقدامات به پاداش‌های بالاتر منجر شده‌اند، عامل به تدریج سیاست خود را بهبود می‌بخشد.

کاوش در مقابل بهره‌برداری: مسائل RL شامل یک تعادل حیاتی بین کاوش و بهره‌برداری هستند. عامل باید از بهترین اقدامات شناخته شده برای کسب پاداش استفاده کند، اما همچنین باید اقدامات جدیدی را کاوش کند که ممکن است به نتایج بهتری منجر شوند.

برای مثال، یک عامل یادگیری تقویتی که یک ربات را کنترل می‌کند ممکن است معمولاً مسیر ایمن اثبات شده‌ای را انتخاب کند (بهره‌برداری) اما گاهی مسیر جدیدی را امتحان کند (کاوش) تا احتمالاً مسیر سریع‌تری کشف کند. تعادل این تعارض برای یافتن سیاست بهینه ضروری است.

RL "فرآیند یادگیری آزمون و خطا را که انسان‌ها استفاده می‌کنند تقلید می‌کند". یک کودک ممکن است یاد بگیرد که تمیز کردن تحسین به همراه دارد در حالی که پرت کردن اسباب‌بازی‌ها سرزنش می‌آورد؛ به همین ترتیب، یک عامل RL می‌آموزد کدام اقدامات پاداش دارند با دریافت بازخورد مثبت برای اقدامات خوب و بازخورد منفی برای اقدامات بد.

— مستندات یادگیری ماشین AWS

با گذشت زمان، عامل برآوردهای ارزش یا سیاست‌هایی می‌سازد که بهترین دنباله اقدامات برای رسیدن به اهداف بلندمدت را ثبت می‌کنند.

در عمل، الگوریتم‌های RL پاداش‌ها را در طول قسمت‌ها جمع می‌کنند و هدفشان حداکثر کردن بازده مورد انتظار (مجموع پاداش‌های آینده) است. آن‌ها یاد می‌گیرند اقداماتی را ترجیح دهند که به پاداش‌های بالای آینده منجر می‌شوند، حتی اگر آن اقدامات پاداش فوری بالایی نداشته باشند. این توانایی برنامه‌ریزی برای سود بلندمدت (گاهی با پذیرش فداکاری‌های کوتاه‌مدت) RL را برای وظایف پیچیده و متوالی مناسب می‌سازد.

نحوه عملکرد یادگیری تقویتی
نحوه عملکرد یادگیری تقویتی در عمل

انواع الگوریتم‌های یادگیری تقویتی

الگوریتم‌های متعددی برای پیاده‌سازی یادگیری تقویتی وجود دارد. به طور کلی، آن‌ها به دو دسته مبتنی بر مدل و بدون مدل تقسیم می‌شوند.

یادگیری تقویتی مبتنی بر مدل

رویکرد برنامه‌ریزی

عامل ابتدا یک مدل از دینامیک‌های محیط (چگونگی تغییر حالت‌ها و نحوه اعطای پاداش) می‌آموزد یا می‌داند و سپس با شبیه‌سازی نتایج، اقدامات را برنامه‌ریزی می‌کند.

  • کارآمد با داده محدود
  • قابلیت برنامه‌ریزی مؤثر پیشرو
  • نیازمند مدل دقیق محیط

مثال: رباتی که یک ساختمان را نقشه‌برداری می‌کند تا کوتاه‌ترین مسیر را بیابد، از رویکرد مبتنی بر مدل استفاده می‌کند.

یادگیری تقویتی بدون مدل

یادگیری مستقیم

عامل هیچ مدل صریحی از محیط ندارد و صرفاً از طریق آزمون و خطا در محیط واقعی (یا شبیه‌سازی شده) می‌آموزد.

  • نیازی به مدل محیط ندارد
  • مناسب برای محیط‌های پیچیده
  • نیازمند تجربه بیشتر

مثال: اکثر الگوریتم‌های کلاسیک RL (مانند Q-learning یا یادگیری تفاوت زمانی) بدون مدل هستند.

در این دسته‌ها، الگوریتم‌ها در نحوه نمایش و به‌روزرسانی سیاست یا تابع ارزش تفاوت دارند. برای مثال، Q-learning (روش مبتنی بر ارزش) برآوردهایی از "مقادیر Q" (بازده مورد انتظار) برای جفت‌های حالت-اقدام می‌آموزد و اقدامی با بالاترین مقدار را انتخاب می‌کند.

روش‌های گرادیان سیاست مستقیماً سیاست را پارامتردهی می‌کنند و پارامترهای آن را از طریق صعود گرادیان روی پاداش مورد انتظار تنظیم می‌کنند. بسیاری از روش‌های پیشرفته (مانند Actor-Critic یا بهینه‌سازی سیاست منطقه اعتماد) ترکیبی از برآورد ارزش و بهینه‌سازی سیاست هستند.

یادگیری تقویتی عمیق: توسعه مهم اخیر که در آن شبکه‌های عصبی عمیق به عنوان تقریب‌زننده‌های تابع برای توابع ارزش یا سیاست‌ها عمل می‌کنند و به RL اجازه می‌دهند ورودی‌های با ابعاد بالا مانند تصاویر را مدیریت کند. موفقیت DeepMind در بازی‌های آتاری و بازی‌های تخته‌ای (مثلاً AlphaGo در بازی گو) از ترکیب یادگیری عمیق با RL ناشی می‌شود.

در RL عمیق، الگوریتم‌هایی مانند شبکه‌های Q عمیق (DQN) یا گرادیان‌های سیاست عمیق، RL را به وظایف پیچیده دنیای واقعی مقیاس می‌دهند.

الگوریتم‌های رایج RL شامل Q-learning، روش‌های مونت‌کارلو، روش‌های گرادیان سیاست و یادگیری تفاوت زمانی هستند و "RL عمیق" به استفاده از شبکه‌های عصبی عمیق در این روش‌ها اشاره دارد.

— مستندات یادگیری ماشین AWS
انواع الگوریتم‌های یادگیری تقویتی
انواع الگوریتم‌های یادگیری تقویتی

کاربردهای یادگیری تقویتی

یادگیری تقویتی در حوزه‌های متعددی که تصمیم‌گیری متوالی در شرایط عدم قطعیت اهمیت دارد، کاربرد دارد. کاربردهای کلیدی شامل موارد زیر است:

بازی‌ها و شبیه‌سازی

RL به طور مشهور بازی‌ها و شبیه‌سازها را تسلط یافته است. AlphaGo و AlphaZero از DeepMind بازی‌های گو و شطرنج را در سطح فراتر از انسان با استفاده از RL آموختند.

  • بازی‌های ویدیویی (آتاری، استارکرفت)
  • بازی‌های تخته‌ای (گو، شطرنج)
  • شبیه‌سازی‌های فیزیکی
  • شبیه‌سازهای رباتیک

رباتیک و کنترل

ربات‌های خودران و خودروهای خودران عوامل در محیط‌های پویا هستند که از طریق آزمون و خطا می‌آموزند.

  • گرفتن و دستکاری اشیاء
  • ناوبری خودکار
  • خودروهای خودران
  • اتوماسیون صنعتی

سیستم‌های پیشنهاددهی

RL می‌تواند محتوا یا تبلیغات را بر اساس تعاملات کاربر شخصی‌سازی کند و یاد می‌گیرد که به مرور زمان مرتبط‌ترین موارد را ارائه دهد.

  • شخصی‌سازی محتوا
  • بهینه‌سازی هدف‌گیری تبلیغات
  • پیشنهاد محصولات
  • بهینه‌سازی تعامل کاربر

بهینه‌سازی منابع

RL در بهینه‌سازی سیستم‌هایی با اهداف بلندمدت و چالش‌های تخصیص منابع پیچیده عملکرد خوبی دارد.

  • بهینه‌سازی خنک‌سازی مراکز داده
  • ذخیره انرژی شبکه هوشمند
  • منابع رایانش ابری
  • مدیریت زنجیره تأمین

مالی و معاملات

بازارهای مالی پویا و متوالی هستند و RL برای استراتژی‌های معاملاتی و مدیریت پرتفوی مناسب است.

  • استراتژی‌های معاملات الگوریتمی
  • بهینه‌سازی پرتفوی
  • مدیریت ریسک
  • بازارسازی
مزیت برنامه‌ریزی بلندمدت: این کاربردها قدرت RL در برنامه‌ریزی بلندمدت را نشان می‌دهند. برخلاف روش‌هایی که فقط نتایج فوری را پیش‌بینی می‌کنند، RL به طور صریح پاداش تجمعی را به حداکثر می‌رساند و آن را برای مسائلی که اقدامات پیامدهای تأخیری دارند، مناسب می‌سازد.
کاربردهای یادگیری تقویتی
کاربردهای یادگیری تقویتی در صنایع مختلف

یادگیری تقویتی در مقابل سایر یادگیری‌های ماشین

یادگیری تقویتی یکی از سه الگوی اصلی یادگیری ماشین است (در کنار یادگیری نظارت‌شده و بدون نظارت)، اما تمرکز آن کاملاً متفاوت است. یادگیری نظارت‌شده روی جفت‌های ورودی-خروجی برچسب‌خورده آموزش می‌بیند، در حالی که یادگیری بدون نظارت الگوهایی را در داده‌های بدون برچسب پیدا می‌کند.

جنبه یادگیری نظارت‌شده یادگیری بدون نظارت یادگیری تقویتی
نوع داده جفت‌های ورودی-خروجی برچسب‌خورده داده بدون برچسب دنباله‌های متوالی حالت-اقدام-پاداش
هدف یادگیری پیش‌بینی خروجی‌های صحیح یافتن الگوهای پنهان حداکثر کردن پاداش تجمعی
نوع بازخورد پاسخ‌های صحیح مستقیم بدون بازخورد سیگنال‌های پاداش/مجازات
روش یادگیری یادگیری از نمونه‌ها کشف ساختار کاوش آزمون و خطا

برخلاف آن‌ها، RL به نمونه‌های برچسب‌خورده رفتار صحیح نیاز ندارد. در عوض، هدف را از طریق سیگنال پاداش تعریف می‌کند و با آزمون و خطا می‌آموزد. در RL، "داده‌های آموزشی" (دنباله‌های حالت-اقدام-پاداش) متوالی و وابسته به هم هستند، زیرا هر اقدام بر حالت‌های آینده تأثیر می‌گذارد.

به طور ساده، یادگیری نظارت‌شده به مدل می‌گوید چه چیزی را پیش‌بینی کند؛ یادگیری تقویتی به عامل می‌آموزد چگونه عمل کند. RL با "تقویت مثبت" (پاداش) یاد می‌گیرد نه با نشان دادن پاسخ‌های صحیح.

— مرور یادگیری ماشین IBM

این باعث می‌شود RL برای وظایفی که شامل تصمیم‌گیری و کنترل هستند بسیار قدرتمند باشد. با این حال، همچنین به این معناست که RL می‌تواند چالش‌برانگیزتر باشد: بدون بازخورد برچسب‌خورده، عامل باید اقدامات خوب را خودش کشف کند که اغلب نیازمند کاوش زیاد در محیط است.

یادگیری تقویتی در مقابل سایر یادگیری‌های ماشین
یادگیری تقویتی در مقابل سایر الگوهای یادگیری ماشین

چالش‌های یادگیری تقویتی

با وجود قدرتش، RL با چالش‌های عملی همراه است:

عدم کارایی نمونه

RL اغلب به مقادیر زیادی تجربه (آزمون‌ها) برای یادگیری سیاست‌های مؤثر نیاز دارد. آموزش در دنیای واقعی می‌تواند پرهزینه یا کند باشد (مثلاً یک ربات ممکن است میلیون‌ها آزمون برای تسلط بر یک وظیفه نیاز داشته باشد). به همین دلیل، بسیاری از سیستم‌های RL ابتدا در شبیه‌ساز آموزش می‌بینند.

طراحی پاداش

تعریف تابع پاداش مناسب دشوار است. پاداش نامناسب می‌تواند به رفتارهای ناخواسته منجر شود (عامل ممکن است پاداش را به گونه‌ای "بازی" کند که با هدف واقعی هم‌راستا نباشد). طراحی پاداش‌هایی که اهداف بلندمدت را بدون میان‌برهای ناخواسته منعکس کنند، هنر پژوهش در RL است.

پایداری و ایمنی

در محیط‌های واقعی (رباتیک، بهداشت، مالی)، اقدامات اکتشافی ناایمن می‌توانند خطرناک یا پرهزینه باشند. آزمایش در دنیای واقعی (مثلاً پرواز پهپاد) ممکن است بدون شبیه‌سازی عملی نباشد. تضمین ایمنی در طول یادگیری و استقرار، حوزه فعالی از پژوهش RL است.

قابلیت تفسیر

سیاست‌های یادگرفته شده RL (به ویژه مدل‌های RL عمیق) می‌توانند غیرشفاف باشند. درک دلیل اتخاذ اقدامات خاص توسط عامل اغلب دشوار است و این موضوع عیب‌یابی یا اعتماد به سیستم را سخت می‌کند. این کمبود قابلیت تفسیر به عنوان چالشی در استقرار سیستم‌های پیچیده RL شناخته شده است.
پژوهش‌های جاری: هر یک از این چالش‌ها موضوع پژوهش‌های فعال هستند. با وجود موانع، موفقیت‌های عملی RL (در بازی‌ها، رباتیک، سیستم‌های پیشنهاددهی و غیره) نشان می‌دهد که وقتی با دقت به کار گرفته شود، RL می‌تواند نتایج چشمگیری به دست آورد.
چالش‌های یادگیری تقویتی
چالش‌های پیاده‌سازی یادگیری تقویتی

نتیجه‌گیری

خلاصه اینکه، یادگیری تقویتی یک چارچوب یادگیری خودکار است که در آن یک عامل با تعامل با محیط خود و حداکثر کردن پاداش تجمعی، یاد می‌گیرد چگونه به اهداف برسد. این چارچوب ترکیبی از ایده‌های کنترل بهینه، برنامه‌ریزی پویا و روانشناسی رفتاری است و پایه بسیاری از پیشرفت‌های مدرن هوش مصنوعی محسوب می‌شود.

با فرموله کردن مسائل به عنوان وظایف تصمیم‌گیری متوالی با بازخورد، RL به ماشین‌ها امکان می‌دهد رفتارهای پیچیده را به تنهایی بیاموزند و شکاف بین یادگیری مبتنی بر داده و عمل هدفمند را پر کنند.

مطالب مرتبط بیشتر را کاوش کنید
منابع خارجی
این مقاله با ارجاع به منابع خارجی زیر تهیه شده است.
96 مقالات
رزی ها نویسنده‌ای در Inviai است که تخصصش در به اشتراک‌گذاری دانش و راهکارهای هوش مصنوعی می‌باشد. با تجربه‌ای گسترده در پژوهش و کاربرد هوش مصنوعی در حوزه‌های مختلفی مانند کسب‌وکار، تولید محتوا و اتوماسیون، رزی ها مقالاتی ساده، کاربردی و الهام‌بخش ارائه می‌دهد. مأموریت رزی ها کمک به افراد برای بهره‌برداری مؤثر از هوش مصنوعی به منظور افزایش بهره‌وری و گسترش ظرفیت‌های خلاقیت است.
جستجو