ما هو التعلم المعزز؟

التعلم المعزز (RL) هو فرع من فروع تعلم الآلة حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع بيئته. في التعلم المعزز، هدف الوكيل هو تعلم سياسة (استراتيجية) لاختيار الإجراءات التي تعظم المكافآت التراكمية مع مرور الوقت.

التعلم المعزز (RL) هو فرع من تعلم الآلة حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع البيئة. في التعلم المعزز، هدف الوكيل هو تعلم سياسة (استراتيجية) لاختيار الإجراءات التي تعظم المكافأة التراكمية مع مرور الوقت.

على عكس التعلم الموجه الذي يتطلب أمثلة معنونة، يعتمد التعلم المعزز على التغذية الراجعة بالتجربة والخطأ: يتم تعزيز الإجراءات التي تنتج نتائج إيجابية (مكافآت)، بينما يتم تجنب تلك التي تؤدي إلى نتائج سلبية (عقوبات).

التعلم المعزز هو في الأساس "نهج حسابي لفهم وأتمتة التعلم الموجه نحو الهدف واتخاذ القرار" حيث يتعلم الوكيل من التفاعل المباشر مع بيئته، دون الحاجة إلى إشراف خارجي أو نموذج كامل للعالم.

— ساتون وبارتو، باحثو التعلم المعزز

عمليًا، يعني هذا أن الوكيل يستكشف باستمرار فضاء الحالة-الإجراء، يراقب نتائج أفعاله، ويعدل استراتيجيته لتحسين المكافآت المستقبلية.

المفاهيم والمكونات الأساسية

يتضمن التعلم المعزز عدة عناصر أساسية. بشكل عام، الوكيل (المتعلم أو كيان اتخاذ القرار) يتفاعل مع البيئة (النظام الخارجي أو مجال المشكلة) من خلال اتخاذ إجراءات في خطوات زمنية منفصلة.

في كل خطوة، يلاحظ الوكيل حالة البيئة الحالية، ينفذ إجراءً، ثم يتلقى مكافأة (إشارة تغذية راجعة رقمية) من البيئة. عبر العديد من هذه التفاعلات، يسعى الوكيل لتعظيم مجموع المكافآت (التراكمية).

الوكيل

المتعلم المستقل (مثل برنامج ذكاء اصطناعي أو روبوت) الذي يتخذ القرارات.

البيئة

العالم أو مجال المشكلة الذي يتفاعل معه الوكيل. توفر البيئة الحالة الحالية للوكيل وتحسب المكافأة بناءً على إجراء الوكيل.

الإجراء

قرار أو حركة يتخذها الوكيل للتأثير على البيئة. قد تؤدي الإجراءات المختلفة إلى حالات ومكافآت مختلفة.

الحالة

تمثيل للبيئة في وقت معين (على سبيل المثال، موقع القطع على لوحة لعبة أو قراءات الحساس في روبوت). يستخدم الوكيل الحالة لاتخاذ قراره التالي.

المكافأة

إشارة تغذية راجعة عددية (إيجابية، سلبية، أو صفر) تقدمها البيئة بعد كل إجراء. تقيس الفائدة الفورية (أو التكلفة) للإجراء. هدف الوكيل هو تعظيم المكافأة التراكمية المتوقعة مع مرور الوقت.

السياسة

استراتيجية الوكيل لاختيار الإجراءات، عادةً ما تكون تعيينًا من الحالات إلى الإجراءات. من خلال التعلم، يهدف الوكيل إلى إيجاد سياسة مثلى أو قريبة من المثلى.

دالة القيمة

تقدير للمكافأة المستقبلية المتوقعة (المكافأة التراكمية) التي سيحصل عليها الوكيل من حالة معينة (أو زوج حالة-إجراء). تساعد دالة القيمة الوكيل على تقييم العواقب طويلة الأمد للإجراءات.

النموذج (اختياري)

في التعلم المعزز القائم على النموذج، يبني الوكيل نموذجًا داخليًا لديناميكيات البيئة (كيفية انتقال الحالات بناءً على الإجراءات) ويستخدمه للتخطيط. في التعلم المعزز غير القائم على النموذج، لا يُبنى مثل هذا النموذج؛ يتعلم الوكيل فقط من التجربة والخطأ.
المفاهيم والمكونات الأساسية في التعلم المعزز
المفاهيم والمكونات الأساسية في إطار التعلم المعزز

كيف يعمل التعلم المعزز

غالبًا ما يُصاغ التعلم المعزز كـ عملية اتخاذ قرار ماركوف (MDP). في كل خطوة زمنية منفصلة، يلاحظ الوكيل حالة St ويختار إجراءً At. ثم تنتقل البيئة إلى حالة جديدة St+1 وتصدر مكافأة Rt+1 بناءً على الإجراء المتخذ.

عبر العديد من الحلقات، يجمع الوكيل الخبرة في شكل تسلسلات حالة-إجراء-مكافأة. من خلال تحليل الإجراءات التي أدت إلى مكافآت أعلى، يحسن الوكيل تدريجيًا سياسته.

الاستكشاف مقابل الاستغلال: تتضمن مشاكل التعلم المعزز موازنة حاسمة بين الاستكشاف والاستغلال. يجب على الوكيل استغلال أفضل الإجراءات المعروفة للحصول على مكافأة، ولكنه يجب أيضًا استكشاف إجراءات جديدة قد تؤدي إلى نتائج أفضل.

على سبيل المثال، قد يتبع وكيل التعلم المعزز الذي يتحكم في روبوت عادةً مسارًا آمنًا مثبتًا (استغلال) لكنه يحاول أحيانًا مسارًا جديدًا (استكشاف) لاكتشاف طريق أسرع محتمل. تحقيق التوازن بين هذين الأمرين ضروري لإيجاد السياسة المثلى.

التعلم المعزز "يقلد عملية التعلم بالتجربة والخطأ التي يستخدمها البشر". قد يتعلم الطفل أن التنظيف يجلب الثناء بينما رمي الألعاب يجلب التوبيخ؛ وبالمثل، يتعلم وكيل التعلم المعزز أي الإجراءات تؤدي إلى مكافآت من خلال تلقي تغذية راجعة إيجابية للإجراءات الجيدة وسلبية للإجراءات السيئة.

— وثائق تعلم الآلة من AWS

مع مرور الوقت، يبني الوكيل تقديرات للقيمة أو سياسات تلتقط أفضل تسلسل من الإجراءات لتحقيق الأهداف طويلة الأمد.

عمليًا، تجمع خوارزميات التعلم المعزز المكافآت عبر الحلقات وتهدف إلى تعظيم العائد المتوقع (مجموع المكافآت المستقبلية). تتعلم تفضيل الإجراءات التي تؤدي إلى مكافآت مستقبلية عالية، حتى لو لم تحقق أعلى مكافأة فورية. هذه القدرة على التخطيط للمكاسب طويلة الأمد (مع قبول أحيانًا تضحيات قصيرة الأمد) تجعل التعلم المعزز مناسبًا للمهام المعقدة والمتسلسلة لاتخاذ القرار.

كيف يعمل التعلم المعزز
كيف يعمل التعلم المعزز عمليًا

أنواع خوارزميات التعلم المعزز

هناك العديد من الخوارزميات لتنفيذ التعلم المعزز. بشكل عام، تنقسم إلى فئتين: القائمة على النموذج وغير القائمة على النموذج.

التعلم المعزز القائم على النموذج

نهج التخطيط

يتعلم الوكيل أولاً أو يعرف نموذجًا لديناميكيات البيئة (كيفية تغير الحالات وكيف تُمنح المكافآت) ثم يخطط الإجراءات من خلال محاكاة النتائج.

  • فعال مع بيانات محدودة
  • يمكنه التخطيط مسبقًا بفعالية
  • يتطلب نموذج بيئة دقيق

مثال: روبوت يرسم خريطة لمبنى لإيجاد أقصر طريق يستخدم نهجًا قائمًا على النموذج.

التعلم المعزز غير القائم على النموذج

التعلم المباشر

لا يمتلك الوكيل نموذجًا صريحًا للبيئة ويتعلم فقط من التجربة والخطأ في البيئة الحقيقية (أو المحاكاة).

  • لا يحتاج إلى نموذج بيئة
  • يعمل مع بيئات معقدة
  • يتطلب خبرة أكثر

مثال: معظم خوارزميات التعلم المعزز الكلاسيكية (مثل Q-learning أو التعلم بالفارق الزمني) هي غير قائمة على النموذج.

داخل هذه الفئات، تختلف الخوارزميات في كيفية تمثيل وتحديث السياسة أو دالة القيمة. على سبيل المثال، تعلم Q (طريقة قائمة على القيمة) يتعلم تقديرات "قيم Q" (العائد المتوقع) لأزواج الحالة-الإجراء ويختار الإجراء ذو القيمة الأعلى.

طرق تدرج السياسة تقوم بتمثيل السياسة مباشرة وتعدل معلماتها عبر تصاعد التدرج على المكافأة المتوقعة. العديد من الطرق المتقدمة (مثل الممثل-الناقد أو تحسين سياسة منطقة الثقة) تجمع بين تقدير القيمة وتحسين السياسة.

التعلم المعزز العميق: تطور حديث رئيسي حيث تستخدم الشبكات العصبية العميقة كمقارب دوال لدوال القيمة أو السياسات، مما يسمح للتعلم المعزز بالتعامل مع مدخلات عالية الأبعاد مثل الصور. نجاح DeepMind في ألعاب أتاري وألعاب اللوح (مثل AlphaGo في لعبة جو) جاء من دمج التعلم العميق مع التعلم المعزز.

في التعلم المعزز العميق، خوارزميات مثل الشبكات العصبية العميقة Q (DQN) أو تدرجات السياسة العميقة توسع التعلم المعزز ليشمل مهام العالم الحقيقي المعقدة.

تشمل خوارزميات التعلم المعزز الشائعة تعلم Q، طرق مونت كارلو، طرق تدرج السياسة، والتعلم بالفارق الزمني، و"التعلم المعزز العميق" يشير إلى استخدام الشبكات العصبية العميقة في هذه الطرق.

— وثائق تعلم الآلة من AWS
أنواع خوارزميات التعلم المعزز
أنواع خوارزميات التعلم المعزز

تطبيقات التعلم المعزز

يُطبق التعلم المعزز في العديد من المجالات التي يكون فيها اتخاذ القرار المتسلسل تحت عدم اليقين أمرًا حاسمًا. تشمل التطبيقات الرئيسية:

الألعاب والمحاكاة

أتقن التعلم المعزز الألعاب والمحاكيات بشكل مشهور. تعلمت AlphaGo وAlphaZero من DeepMind لعبتي جو والشطرنج بمستويات تفوق البشر باستخدام التعلم المعزز.

  • ألعاب الفيديو (أتاري، ستاركرافت)
  • ألعاب اللوح (جو، شطرنج)
  • محاكيات الفيزياء
  • محاكيات الروبوتات

الروبوتات والتحكم

الروبوتات المستقلة والسيارات ذاتية القيادة هي وكلاء في بيئات ديناميكية يتعلمون من خلال التجربة والخطأ.

  • الإمساك بالأشياء والتلاعب بها
  • الملاحة الذاتية
  • المركبات ذاتية القيادة
  • الأتمتة الصناعية

أنظمة التوصية

يمكن للتعلم المعزز تخصيص المحتوى أو الإعلانات بناءً على تفاعلات المستخدم، متعلمًا تقديم العناصر الأكثر صلة مع مرور الوقت.

  • تخصيص المحتوى
  • تحسين استهداف الإعلانات
  • توصيات المنتجات
  • تحسين تفاعل المستخدم

تحسين الموارد

يتفوق التعلم المعزز في تحسين الأنظمة ذات الأهداف طويلة الأمد وتحديات تخصيص الموارد المعقدة.

  • تحسين تبريد مراكز البيانات
  • تخزين الطاقة في الشبكات الذكية
  • موارد الحوسبة السحابية
  • إدارة سلسلة التوريد

المالية والتداول

الأسواق المالية ديناميكية ومتسلسلة، مما يجعل التعلم المعزز مناسبًا لاستراتيجيات التداول وإدارة المحافظ.

  • استراتيجيات التداول الخوارزمية
  • تحسين المحافظ
  • إدارة المخاطر
  • صناعة السوق
ميزة التخطيط طويل الأمد: تبرز هذه التطبيقات قوة التعلم المعزز في التخطيط طويل الأمد. على عكس الطرق التي تتنبأ فقط بالنتائج الفورية، يعظم التعلم المعزز صراحة المكافآت التراكمية، مما يجعله مناسبًا للمشاكل التي يكون للإجراءات فيها عواقب مؤجلة.
تطبيقات التعلم المعزز
تطبيقات التعلم المعزز عبر الصناعات

التعلم المعزز مقابل تعلم الآلة الآخر

التعلم المعزز هو أحد ثلاثة نماذج رئيسية لتعلم الآلة (إلى جانب التعلم الموجه وغير الموجه)، لكنه يختلف كثيرًا في التركيز. التعلم الموجه يتدرب على أزواج مدخلات-مخرجات معنونة، بينما يجد التعلم غير الموجه أنماطًا في بيانات غير معنونة.

الجانب التعلم الموجه التعلم غير الموجه التعلم المعزز
نوع البيانات أزواج مدخلات-مخرجات معنونة بيانات غير معنونة تسلسلات حالة-إجراء-مكافأة متسلسلة
هدف التعلم التنبؤ بالمخرجات الصحيحة اكتشاف الأنماط المخفية تعظيم المكافأة التراكمية
نوع التغذية الراجعة إجابات صحيحة مباشرة لا توجد تغذية راجعة إشارات مكافأة/عقاب
طريقة التعلم التعلم من الأمثلة اكتشاف الهيكل الاستكشاف بالتجربة والخطأ

على النقيض، لا يتطلب التعلم المعزز أمثلة معنونة للسلوك الصحيح. بدلاً من ذلك، يحدد هدفًا عبر إشارة المكافأة ويتعلم من خلال التجربة والخطأ. في التعلم المعزز، "بيانات التدريب" (تسلسلات حالة-إجراء-مكافأة) متسلسلة ومترابطة، لأن كل إجراء يؤثر على الحالات المستقبلية.

ببساطة، يخبر التعلم الموجه النموذج بما يتنبأ به؛ بينما يعلم التعلم المعزز الوكيل كيفية التصرف. يتعلم التعلم المعزز عن طريق "التعزيز الإيجابي" (المكافأة) بدلاً من عرض الإجابات الصحيحة عليه.

— نظرة عامة على تعلم الآلة من IBM

هذا يجعل التعلم المعزز قويًا بشكل خاص للمهام التي تتضمن اتخاذ القرار والتحكم. ومع ذلك، يعني أيضًا أن التعلم المعزز قد يكون أكثر تحديًا: بدون تغذية راجعة معنونة، يجب على الوكيل اكتشاف الإجراءات الجيدة بنفسه، مما يتطلب غالبًا الكثير من الاستكشاف للبيئة.

التعلم المعزز مقابل تعلم الآلة الآخر
التعلم المعزز مقابل نماذج تعلم الآلة الأخرى

تحديات التعلم المعزز

على الرغم من قوته، يأتي التعلم المعزز مع تحديات عملية:

عدم كفاءة العينات

غالبًا ما يتطلب التعلم المعزز كميات هائلة من الخبرة (التجارب) لتعلم سياسات فعالة. التدريب في العالم الحقيقي قد يكون مكلفًا أو بطيئًا (على سبيل المثال، قد يحتاج روبوت إلى ملايين التجارب لإتقان مهمة). لهذا السبب، يتم تدريب العديد من أنظمة التعلم المعزز في المحاكاة قبل النشر.

تصميم المكافأة

تعريف دالة مكافأة مناسبة أمر معقد. قد تؤدي المكافأة المختارة بشكل سيء إلى سلوكيات غير مقصودة (قد "يخدع" الوكيل المكافأة بطريقة لا تتماشى مع الهدف الحقيقي). تصميم مكافآت تعكس الأهداف طويلة الأمد دون اختصارات غير مقصودة هو فن في أبحاث التعلم المعزز.

الاستقرار والسلامة

في البيئات الواقعية (كالروبوتات، الرعاية الصحية، المالية)، قد تكون الإجراءات الاستكشافية غير الآمنة خطيرة أو مكلفة. قد لا يكون التجريب الواقعي (مثل طيران طائرة بدون طيار) عمليًا بدون محاكاة. ضمان السلامة أثناء التعلم والنشر هو مجال بحث نشط في التعلم المعزز.

قابلية التفسير

السياسات المتعلمة في التعلم المعزز (وخاصة نماذج التعلم المعزز العميق) قد تكون غامضة. فهم سبب اتخاذ الوكيل لإجراءات معينة غالبًا ما يكون صعبًا، مما يجعل من الصعب تصحيح الأخطاء أو الثقة بالنظام. يُعتبر هذا النقص في القابلية للتفسير تحديًا في نشر أنظمة التعلم المعزز المعقدة.
البحث المستمر: كل من هذه التحديات موضوع بحث مستمر. على الرغم من العقبات، تظهر النجاحات العملية للتعلم المعزز (في الألعاب، الروبوتات، أنظمة التوصية، وغيرها) أنه عند تطبيقه بحذر، يمكن للتعلم المعزز تحقيق نتائج مبهرة.
تحديات التعلم المعزز
تحديات تنفيذ التعلم المعزز

الخلاصة

باختصار، التعلم المعزز هو إطار تعلم مستقل يتعلم فيه الوكيل تحقيق الأهداف من خلال التفاعل مع بيئته وتعظيم المكافأة التراكمية. يجمع بين أفكار من التحكم الأمثل، البرمجة الديناميكية، وعلم النفس السلوكي، وهو أساس العديد من اختراقات الذكاء الاصطناعي الحديثة.

من خلال صياغة المشاكل كمهام اتخاذ قرار متسلسلة مع تغذية راجعة، يمكن للتعلم المعزز تمكين الآلات من تعلم سلوكيات معقدة بنفسها، جسرًا بين التعلم القائم على البيانات والعمل الموجه نحو الهدف.

استكشف المزيد من المقالات ذات الصلة
المراجع الخارجية
تم إعداد هذا المقال بالرجوع إلى المصادر الخارجية التالية:
96 مقالات
روزي ها هي كاتبة في Inviai، متخصصة في مشاركة المعرفة والحلول المتعلقة بالذكاء الاصطناعي. بفضل خبرتها في البحث وتطبيق الذكاء الاصطناعي في مجالات متعددة مثل الأعمال التجارية، إنشاء المحتوى، والأتمتة، تقدم روزي ها مقالات سهلة الفهم، عملية وملهمة. تتمثل مهمة روزي ها في مساعدة الجميع على استغلال الذكاء الاصطناعي بفعالية لتعزيز الإنتاجية وتوسيع آفاق الإبداع.
بحث