ما هو التعلم المعزز؟
التعلم المعزز (RL) هو فرع من فروع تعلم الآلة حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع بيئته. في التعلم المعزز، هدف الوكيل هو تعلم سياسة (استراتيجية) لاختيار الإجراءات التي تعظم المكافآت التراكمية مع مرور الوقت.
التعلم المعزز (RL) هو فرع من تعلم الآلة حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع البيئة. في التعلم المعزز، هدف الوكيل هو تعلم سياسة (استراتيجية) لاختيار الإجراءات التي تعظم المكافأة التراكمية مع مرور الوقت.
على عكس التعلم الموجه الذي يتطلب أمثلة معنونة، يعتمد التعلم المعزز على التغذية الراجعة بالتجربة والخطأ: يتم تعزيز الإجراءات التي تنتج نتائج إيجابية (مكافآت)، بينما يتم تجنب تلك التي تؤدي إلى نتائج سلبية (عقوبات).
التعلم المعزز هو في الأساس "نهج حسابي لفهم وأتمتة التعلم الموجه نحو الهدف واتخاذ القرار" حيث يتعلم الوكيل من التفاعل المباشر مع بيئته، دون الحاجة إلى إشراف خارجي أو نموذج كامل للعالم.
— ساتون وبارتو، باحثو التعلم المعزز
عمليًا، يعني هذا أن الوكيل يستكشف باستمرار فضاء الحالة-الإجراء، يراقب نتائج أفعاله، ويعدل استراتيجيته لتحسين المكافآت المستقبلية.
المفاهيم والمكونات الأساسية
يتضمن التعلم المعزز عدة عناصر أساسية. بشكل عام، الوكيل (المتعلم أو كيان اتخاذ القرار) يتفاعل مع البيئة (النظام الخارجي أو مجال المشكلة) من خلال اتخاذ إجراءات في خطوات زمنية منفصلة.
في كل خطوة، يلاحظ الوكيل حالة البيئة الحالية، ينفذ إجراءً، ثم يتلقى مكافأة (إشارة تغذية راجعة رقمية) من البيئة. عبر العديد من هذه التفاعلات، يسعى الوكيل لتعظيم مجموع المكافآت (التراكمية).
الوكيل
البيئة
الإجراء
الحالة
المكافأة
السياسة
دالة القيمة
النموذج (اختياري)

كيف يعمل التعلم المعزز
غالبًا ما يُصاغ التعلم المعزز كـ عملية اتخاذ قرار ماركوف (MDP). في كل خطوة زمنية منفصلة، يلاحظ الوكيل حالة St ويختار إجراءً At. ثم تنتقل البيئة إلى حالة جديدة St+1 وتصدر مكافأة Rt+1 بناءً على الإجراء المتخذ.
عبر العديد من الحلقات، يجمع الوكيل الخبرة في شكل تسلسلات حالة-إجراء-مكافأة. من خلال تحليل الإجراءات التي أدت إلى مكافآت أعلى، يحسن الوكيل تدريجيًا سياسته.
على سبيل المثال، قد يتبع وكيل التعلم المعزز الذي يتحكم في روبوت عادةً مسارًا آمنًا مثبتًا (استغلال) لكنه يحاول أحيانًا مسارًا جديدًا (استكشاف) لاكتشاف طريق أسرع محتمل. تحقيق التوازن بين هذين الأمرين ضروري لإيجاد السياسة المثلى.
التعلم المعزز "يقلد عملية التعلم بالتجربة والخطأ التي يستخدمها البشر". قد يتعلم الطفل أن التنظيف يجلب الثناء بينما رمي الألعاب يجلب التوبيخ؛ وبالمثل، يتعلم وكيل التعلم المعزز أي الإجراءات تؤدي إلى مكافآت من خلال تلقي تغذية راجعة إيجابية للإجراءات الجيدة وسلبية للإجراءات السيئة.
— وثائق تعلم الآلة من AWS
مع مرور الوقت، يبني الوكيل تقديرات للقيمة أو سياسات تلتقط أفضل تسلسل من الإجراءات لتحقيق الأهداف طويلة الأمد.
عمليًا، تجمع خوارزميات التعلم المعزز المكافآت عبر الحلقات وتهدف إلى تعظيم العائد المتوقع (مجموع المكافآت المستقبلية). تتعلم تفضيل الإجراءات التي تؤدي إلى مكافآت مستقبلية عالية، حتى لو لم تحقق أعلى مكافأة فورية. هذه القدرة على التخطيط للمكاسب طويلة الأمد (مع قبول أحيانًا تضحيات قصيرة الأمد) تجعل التعلم المعزز مناسبًا للمهام المعقدة والمتسلسلة لاتخاذ القرار.

أنواع خوارزميات التعلم المعزز
هناك العديد من الخوارزميات لتنفيذ التعلم المعزز. بشكل عام، تنقسم إلى فئتين: القائمة على النموذج وغير القائمة على النموذج.
نهج التخطيط
يتعلم الوكيل أولاً أو يعرف نموذجًا لديناميكيات البيئة (كيفية تغير الحالات وكيف تُمنح المكافآت) ثم يخطط الإجراءات من خلال محاكاة النتائج.
- فعال مع بيانات محدودة
 - يمكنه التخطيط مسبقًا بفعالية
 - يتطلب نموذج بيئة دقيق
 
مثال: روبوت يرسم خريطة لمبنى لإيجاد أقصر طريق يستخدم نهجًا قائمًا على النموذج.
التعلم المباشر
لا يمتلك الوكيل نموذجًا صريحًا للبيئة ويتعلم فقط من التجربة والخطأ في البيئة الحقيقية (أو المحاكاة).
- لا يحتاج إلى نموذج بيئة
 - يعمل مع بيئات معقدة
 - يتطلب خبرة أكثر
 
مثال: معظم خوارزميات التعلم المعزز الكلاسيكية (مثل Q-learning أو التعلم بالفارق الزمني) هي غير قائمة على النموذج.
داخل هذه الفئات، تختلف الخوارزميات في كيفية تمثيل وتحديث السياسة أو دالة القيمة. على سبيل المثال، تعلم Q (طريقة قائمة على القيمة) يتعلم تقديرات "قيم Q" (العائد المتوقع) لأزواج الحالة-الإجراء ويختار الإجراء ذو القيمة الأعلى.
طرق تدرج السياسة تقوم بتمثيل السياسة مباشرة وتعدل معلماتها عبر تصاعد التدرج على المكافأة المتوقعة. العديد من الطرق المتقدمة (مثل الممثل-الناقد أو تحسين سياسة منطقة الثقة) تجمع بين تقدير القيمة وتحسين السياسة.
في التعلم المعزز العميق، خوارزميات مثل الشبكات العصبية العميقة Q (DQN) أو تدرجات السياسة العميقة توسع التعلم المعزز ليشمل مهام العالم الحقيقي المعقدة.
تشمل خوارزميات التعلم المعزز الشائعة تعلم Q، طرق مونت كارلو، طرق تدرج السياسة، والتعلم بالفارق الزمني، و"التعلم المعزز العميق" يشير إلى استخدام الشبكات العصبية العميقة في هذه الطرق.
— وثائق تعلم الآلة من AWS

تطبيقات التعلم المعزز
يُطبق التعلم المعزز في العديد من المجالات التي يكون فيها اتخاذ القرار المتسلسل تحت عدم اليقين أمرًا حاسمًا. تشمل التطبيقات الرئيسية:
الألعاب والمحاكاة
أتقن التعلم المعزز الألعاب والمحاكيات بشكل مشهور. تعلمت AlphaGo وAlphaZero من DeepMind لعبتي جو والشطرنج بمستويات تفوق البشر باستخدام التعلم المعزز.
- ألعاب الفيديو (أتاري، ستاركرافت)
 - ألعاب اللوح (جو، شطرنج)
 - محاكيات الفيزياء
 - محاكيات الروبوتات
 
الروبوتات والتحكم
الروبوتات المستقلة والسيارات ذاتية القيادة هي وكلاء في بيئات ديناميكية يتعلمون من خلال التجربة والخطأ.
- الإمساك بالأشياء والتلاعب بها
 - الملاحة الذاتية
 - المركبات ذاتية القيادة
 - الأتمتة الصناعية
 
أنظمة التوصية
يمكن للتعلم المعزز تخصيص المحتوى أو الإعلانات بناءً على تفاعلات المستخدم، متعلمًا تقديم العناصر الأكثر صلة مع مرور الوقت.
- تخصيص المحتوى
 - تحسين استهداف الإعلانات
 - توصيات المنتجات
 - تحسين تفاعل المستخدم
 
تحسين الموارد
يتفوق التعلم المعزز في تحسين الأنظمة ذات الأهداف طويلة الأمد وتحديات تخصيص الموارد المعقدة.
- تحسين تبريد مراكز البيانات
 - تخزين الطاقة في الشبكات الذكية
 - موارد الحوسبة السحابية
 - إدارة سلسلة التوريد
 
المالية والتداول
الأسواق المالية ديناميكية ومتسلسلة، مما يجعل التعلم المعزز مناسبًا لاستراتيجيات التداول وإدارة المحافظ.
- استراتيجيات التداول الخوارزمية
 - تحسين المحافظ
 - إدارة المخاطر
 - صناعة السوق
 

التعلم المعزز مقابل تعلم الآلة الآخر
التعلم المعزز هو أحد ثلاثة نماذج رئيسية لتعلم الآلة (إلى جانب التعلم الموجه وغير الموجه)، لكنه يختلف كثيرًا في التركيز. التعلم الموجه يتدرب على أزواج مدخلات-مخرجات معنونة، بينما يجد التعلم غير الموجه أنماطًا في بيانات غير معنونة.
| الجانب | التعلم الموجه | التعلم غير الموجه | التعلم المعزز | 
|---|---|---|---|
| نوع البيانات | أزواج مدخلات-مخرجات معنونة | بيانات غير معنونة | تسلسلات حالة-إجراء-مكافأة متسلسلة | 
| هدف التعلم | التنبؤ بالمخرجات الصحيحة | اكتشاف الأنماط المخفية | تعظيم المكافأة التراكمية | 
| نوع التغذية الراجعة | إجابات صحيحة مباشرة | لا توجد تغذية راجعة | إشارات مكافأة/عقاب | 
| طريقة التعلم | التعلم من الأمثلة | اكتشاف الهيكل | الاستكشاف بالتجربة والخطأ | 
على النقيض، لا يتطلب التعلم المعزز أمثلة معنونة للسلوك الصحيح. بدلاً من ذلك، يحدد هدفًا عبر إشارة المكافأة ويتعلم من خلال التجربة والخطأ. في التعلم المعزز، "بيانات التدريب" (تسلسلات حالة-إجراء-مكافأة) متسلسلة ومترابطة، لأن كل إجراء يؤثر على الحالات المستقبلية.
ببساطة، يخبر التعلم الموجه النموذج بما يتنبأ به؛ بينما يعلم التعلم المعزز الوكيل كيفية التصرف. يتعلم التعلم المعزز عن طريق "التعزيز الإيجابي" (المكافأة) بدلاً من عرض الإجابات الصحيحة عليه.
— نظرة عامة على تعلم الآلة من IBM
هذا يجعل التعلم المعزز قويًا بشكل خاص للمهام التي تتضمن اتخاذ القرار والتحكم. ومع ذلك، يعني أيضًا أن التعلم المعزز قد يكون أكثر تحديًا: بدون تغذية راجعة معنونة، يجب على الوكيل اكتشاف الإجراءات الجيدة بنفسه، مما يتطلب غالبًا الكثير من الاستكشاف للبيئة.

تحديات التعلم المعزز
على الرغم من قوته، يأتي التعلم المعزز مع تحديات عملية:
عدم كفاءة العينات
تصميم المكافأة
الاستقرار والسلامة
قابلية التفسير

الخلاصة
باختصار، التعلم المعزز هو إطار تعلم مستقل يتعلم فيه الوكيل تحقيق الأهداف من خلال التفاعل مع بيئته وتعظيم المكافأة التراكمية. يجمع بين أفكار من التحكم الأمثل، البرمجة الديناميكية، وعلم النفس السلوكي، وهو أساس العديد من اختراقات الذكاء الاصطناعي الحديثة.
من خلال صياغة المشاكل كمهام اتخاذ قرار متسلسلة مع تغذية راجعة، يمكن للتعلم المعزز تمكين الآلات من تعلم سلوكيات معقدة بنفسها، جسرًا بين التعلم القائم على البيانات والعمل الموجه نحو الهدف.