التعلم المعزز (RL) هو فرع من فروع تعلم الآلة حيث يتعلم الوكيل اتخاذ القرارات من خلال التفاعل مع البيئة. في التعلم المعزز، هدف الوكيل هو تعلم سياسة (استراتيجية) لاختيار الإجراءات التي تزيد من المكافأة التراكمية مع مرور الوقت.

على عكس التعلم الموجه الذي يتطلب أمثلة معنونة، يعتمد التعلم المعزز على التغذية الراجعة بالتجربة والخطأ: يتم تعزيز الإجراءات التي تؤدي إلى نتائج إيجابية (مكافآت)، بينما يتم تجنب تلك التي تؤدي إلى نتائج سلبية (عقوبات).

كما يشرح ساتون وبارتو، فإن التعلم المعزز هو في الأساس "نهج حسابي لفهم وأتمتة التعلم الموجه نحو الهدف واتخاذ القرار" حيث يتعلم الوكيل من التفاعل المباشر مع بيئته، دون الحاجة إلى إشراف خارجي أو نموذج كامل للعالم.

عمليًا، يعني هذا أن الوكيل يستكشف باستمرار فضاء الحالات والإجراءات، يراقب نتائج أفعاله، ويعدل استراتيجيته لتحسين المكافآت المستقبلية.

المفاهيم والمكونات الأساسية

يتضمن التعلم المعزز عدة عناصر أساسية. بشكل عام، الوكيل (المتعلم أو كيان اتخاذ القرار) يتفاعل مع البيئة (النظام الخارجي أو مجال المشكلة) من خلال اتخاذ إجراءات في خطوات زمنية منفصلة.

في كل خطوة، يلاحظ الوكيل حالة البيئة الحالية، ينفذ إجراءً، ثم يتلقى مكافأة (إشارة تغذية راجعة رقمية) من البيئة. عبر العديد من هذه التفاعلات، يسعى الوكيل لتعظيم مجموع المكافآت التراكمية. تشمل المفاهيم الرئيسية:

  • الوكيل: المتعلم المستقل (مثل برنامج ذكاء اصطناعي أو روبوت) الذي يتخذ القرارات.
  • البيئة: العالم أو مجال المشكلة الذي يتفاعل معه الوكيل. توفر البيئة الحالة الحالية للوكيل وتحسب المكافأة بناءً على إجراء الوكيل.
  • الإجراء: قرار أو خطوة يتخذها الوكيل للتأثير على البيئة. قد تؤدي الإجراءات المختلفة إلى حالات ومكافآت مختلفة.
  • الحالة: تمثيل للبيئة في وقت معين (مثل موقع القطع على لوحة لعبة أو قراءات المستشعر في روبوت). يستخدم الوكيل الحالة لتحديد الإجراء التالي.
  • المكافأة: إشارة تغذية راجعة عددية (إيجابية، سلبية، أو صفر) تقدمها البيئة بعد كل إجراء. تقيس الفائدة الفورية (أو التكلفة) للإجراء. هدف الوكيل هو تعظيم المكافأة التراكمية المتوقعة مع مرور الوقت.
  • السياسة: استراتيجية الوكيل لاختيار الإجراءات، عادةً ما تكون تعيينًا من الحالات إلى الإجراءات. من خلال التعلم، يهدف الوكيل إلى إيجاد سياسة مثلى أو قريبة من المثلى.
  • دالة القيمة (أو العائد): تقدير للمكافأة المستقبلية المتوقعة (المكافأة التراكمية) التي سيحصل عليها الوكيل من حالة معينة (أو زوج حالة-إجراء). تساعد دالة القيمة الوكيل على تقييم العواقب طويلة الأمد للإجراءات.
  • النموذج (اختياري): في التعلم المعزز القائم على النموذج، يبني الوكيل نموذجًا داخليًا لديناميكيات البيئة (كيفية انتقال الحالات بناءً على الإجراءات) ويستخدمه للتخطيط. في التعلم المعزز الخالي من النموذج، لا يُبنى مثل هذا النموذج؛ يتعلم الوكيل فقط من التجربة والخطأ.

المفاهيم والمكونات الأساسية للتعلم المعزز

كيف يعمل التعلم المعزز

غالبًا ما يُصاغ التعلم المعزز كـ عملية اتخاذ قرار ماركوف (MDP). في كل خطوة زمنية منفصلة، يلاحظ الوكيل حالة St ويختار إجراءً At. ثم تنتقل البيئة إلى حالة جديدة St+1 وتصدر مكافأة Rt+1 بناءً على الإجراء المتخذ.

على مدار العديد من الحلقات، يجمع الوكيل خبرة في شكل تسلسلات حالة-إجراء-مكافأة. من خلال تحليل الإجراءات التي أدت إلى مكافآت أعلى، يحسن الوكيل تدريجيًا سياسته.

من المهم أن مشاكل التعلم المعزز تنطوي على موازنة بين الاستكشاف والاستغلال. يجب على الوكيل استغلال أفضل الإجراءات المعروفة للحصول على المكافأة، ولكنه يجب أيضًا استكشاف إجراءات جديدة قد تؤدي إلى نتائج أفضل.

على سبيل المثال، قد يتبع وكيل التعلم المعزز الذي يتحكم في روبوت عادةً طريقًا آمنًا مثبتًا (استغلال) لكنه يحاول أحيانًا مسارًا جديدًا (استكشاف) لاكتشاف طريق أسرع محتمل. تحقيق التوازن بين هذين الأمرين ضروري لإيجاد السياسة المثلى.

غالبًا ما يُشبه عملية التعلم بالتكييف السلوكي. على سبيل المثال، تشير AWS إلى أن التعلم المعزز "يحاكي عملية التعلم بالتجربة والخطأ التي يستخدمها البشر". قد يتعلم الطفل أن التنظيف يجلب الثناء بينما رمي الألعاب يجلب التوبيخ؛ وبالمثل، يتعلم وكيل التعلم المعزز أي الإجراءات تؤدي إلى مكافآت من خلال تلقي تغذية راجعة إيجابية عن الأفعال الجيدة وسلبية عن السيئة.

مع مرور الوقت، يبني الوكيل تقديرات للقيمة أو سياسات تلتقط أفضل تسلسل من الإجراءات لتحقيق الأهداف طويلة الأمد.

عمليًا، تجمع خوارزميات التعلم المعزز المكافآت عبر الحلقات وتهدف إلى تعظيم العائد المتوقع (مجموع المكافآت المستقبلية). تتعلم تفضيل الإجراءات التي تؤدي إلى مكافآت مستقبلية عالية، حتى لو لم تكن تلك الإجراءات تحقق أعلى مكافأة فورية. هذه القدرة على التخطيط للمكاسب طويلة الأمد (مع قبول بعض التضحيات قصيرة الأمد أحيانًا) تجعل التعلم المعزز مناسبًا للمهام المعقدة والمتسلسلة لاتخاذ القرار.

كيف يعمل التعلم المعزز

أنواع خوارزميات التعلم المعزز

هناك العديد من الخوارزميات لتطبيق التعلم المعزز. بشكل عام، تنقسم إلى فئتين: القائمة على النموذج والخالية من النموذج.

  • التعلم المعزز القائم على النموذج: يتعلم الوكيل أولاً أو يعرف نموذجًا لديناميكيات البيئة (كيفية تغير الحالات وكيف تُمنح المكافآت) ثم يخطط الإجراءات من خلال محاكاة النتائج. على سبيل المثال، روبوت يرسم خريطة لمبنى لإيجاد أقصر طريق يستخدم نهجًا قائمًا على النموذج.

  • التعلم المعزز الخالي من النموذج: لا يمتلك الوكيل نموذجًا صريحًا للبيئة ويتعلم فقط من التجربة والخطأ في البيئة الحقيقية (أو المحاكاة). بدلاً من التخطيط باستخدام نموذج، يقوم بتحديث تقديرات القيمة أو السياسات تدريجيًا من الخبرة. معظم خوارزميات التعلم المعزز الكلاسيكية (مثل Q-learning أو التعلم بالفارق الزمني) هي خالية من النموذج.

داخل هذه الفئات، تختلف الخوارزميات في كيفية تمثيل وتحديث السياسة أو دالة القيمة. على سبيل المثال، Q-learning (طريقة قائمة على القيمة) يتعلم تقديرات "قيم Q" (العائد المتوقع) لأزواج الحالة-الإجراء ويختار الإجراء ذو القيمة الأعلى.

طرق تدرج السياسة تقوم بتمثيل السياسة مباشرة وتعدل معلماتها عبر تصاعد التدرج على المكافأة المتوقعة. العديد من الطرق المتقدمة (مثل Actor-Critic أو تحسين سياسة منطقة الثقة) تجمع بين تقدير القيمة وتحسين السياسة.

تطور رئيسي حديث هو التعلم المعزز العميق. هنا، تعمل الشبكات العصبية العميقة كمعمّمات دوال لدوال القيمة أو السياسات، مما يسمح للتعلم المعزز بالتعامل مع مدخلات عالية الأبعاد مثل الصور. نجاح DeepMind في ألعاب أتاري وألعاب اللوح (مثل AlphaGo في لعبة جو) جاء من دمج التعلم العميق مع التعلم المعزز. في التعلم المعزز العميق، خوارزميات مثل الشبكات العصبية العميقة Q (DQN) أو تدرجات السياسة العميقة توسع التعلم المعزز ليشمل مهام العالم الحقيقي المعقدة.

على سبيل المثال، تشير AWS إلى أن الخوارزميات الشائعة للتعلم المعزز تشمل Q-learning، طرق مونت كارلو، طرق تدرج السياسة، والتعلم بالفارق الزمني، وأن "التعلم المعزز العميق" يشير إلى استخدام الشبكات العصبية العميقة في هذه الطرق.

أنواع خوارزميات التعلم المعزز

تطبيقات التعلم المعزز

يُستخدم التعلم المعزز في العديد من المجالات التي يكون فيها اتخاذ القرار المتسلسل تحت عدم اليقين أمرًا حاسمًا. تشمل التطبيقات الرئيسية:

  • الألعاب والمحاكاة: برع التعلم المعزز في إتقان الألعاب والمحاكيات. على سبيل المثال، تعلمت AlphaGo وAlphaZero من DeepMind لعبتي جو والشطرنج بمستويات تفوق البشر باستخدام التعلم المعزز. ألعاب الفيديو (أتاري، ستاركرافت) والمحاكيات (الفيزياء، محاكيات الروبوتات) هي بيئات اختبار طبيعية للتعلم المعزز لأن البيئة محددة جيدًا ويمكن إجراء العديد من التجارب.
  • الروبوتات والتحكم: الروبوتات المستقلة والسيارات ذاتية القيادة هي وكلاء في بيئات ديناميكية. من خلال التجربة والخطأ، يمكن للتعلم المعزز تعليم الروبوت كيفية الإمساك بالأشياء أو السيارة كيفية التنقل في المرور. تشير IBM إلى أن الروبوتات والسيارات ذاتية القيادة هي أمثلة رئيسية لوكلاء التعلم المعزز الذين يتعلمون من خلال التفاعل مع بيئتهم.
  • أنظمة التوصية والتسويق: يمكن للتعلم المعزز تخصيص المحتوى أو الإعلانات بناءً على تفاعلات المستخدم. على سبيل المثال، يقوم نظام توصية قائم على التعلم المعزز بتحديث اقتراحاته مع نقرات المستخدم أو تخطي العناصر، متعلمًا تقديم الإعلانات أو المنتجات الأكثر صلة مع مرور الوقت.
  • تحسين الموارد: يتفوق التعلم المعزز في تحسين الأنظمة ذات الأهداف طويلة الأمد. تشمل الأمثلة ضبط تبريد مراكز البيانات لتقليل استهلاك الطاقة، التحكم في تخزين الطاقة في الشبكات الذكية، أو إدارة موارد الحوسبة السحابية. تصف AWS حالات استخدام مثل "تحسين الإنفاق السحابي"، حيث يتعلم وكيل التعلم المعزز تخصيص موارد الحوسبة لتحقيق أفضل كفاءة في التكلفة.
  • المالية والتداول: الأسواق المالية ديناميكية ومتسلسلة. تم استكشاف التعلم المعزز لتحسين استراتيجيات التداول، إدارة المحافظ، والتحوط من خلال محاكاة الصفقات وتعلم الإجراءات التي تزيد العوائد تحت تغيرات السوق.

تُبرز هذه الأمثلة قوة التعلم المعزز في التخطيط طويل الأمد. على عكس الطرق التي تتنبأ فقط بالنتائج الفورية، يعظم التعلم المعزز صراحةً المكافآت التراكمية، مما يجعله مناسبًا للمشاكل التي يكون للإجراءات فيها عواقب متأخرة.

تطبيقات التعلم المعزز

التعلم المعزز مقابل تعلم الآلة الآخر

التعلم المعزز هو أحد ثلاثة نماذج رئيسية لتعلم الآلة (إلى جانب التعلم الموجه وغير الموجه)، لكنه يختلف كثيرًا في التركيز. يتدرب التعلم الموجه على أزواج مدخلات-مخرجات معنونة، بينما يجد التعلم غير الموجه أنماطًا في بيانات غير معنونة.

على النقيض من ذلك، لا يتطلب التعلم المعزز أمثلة معنونة للسلوك الصحيح. بدلاً من ذلك، يحدد هدفًا عبر إشارة المكافأة ويتعلم بالتجربة والخطأ. في التعلم المعزز، تكون "بيانات التدريب" (أزواج حالة-إجراء-مكافأة) متسلسلة ومترابطة، لأن كل إجراء يؤثر على الحالات المستقبلية.

ببساطة، يخبر التعلم الموجه النموذج ماذا يتنبأ؛ بينما يعلم التعلم المعزز الوكيل كيف يتصرف. كما تشير نظرة عامة من IBM، يتعلم التعلم المعزز من خلال "التعزيز الإيجابي" (المكافأة) بدلاً من عرض الإجابات الصحيحة.

هذا يجعل التعلم المعزز قويًا بشكل خاص للمهام التي تتضمن اتخاذ القرار والتحكم. ومع ذلك، يعني أيضًا أن التعلم المعزز قد يكون أكثر تحديًا: بدون تغذية راجعة معنونة، يجب على الوكيل اكتشاف الإجراءات الجيدة بنفسه، مما يتطلب غالبًا الكثير من الاستكشاف للبيئة.

التعلم المعزز مقابل تعلم الآلة الآخر

تحديات التعلم المعزز

على الرغم من قوته، يواجه التعلم المعزز تحديات عملية:

  • عدم كفاءة العينات: غالبًا ما يتطلب التعلم المعزز كميات هائلة من الخبرة (التجارب) لتعلم سياسات فعالة. قد يكون التدريب في العالم الحقيقي مكلفًا أو بطيئًا (على سبيل المثال، قد يحتاج روبوت إلى ملايين التجارب لإتقان مهمة). لهذا السبب، يتم تدريب العديد من أنظمة التعلم المعزز في المحاكاة قبل النشر.
  • تصميم المكافأة: تحديد دالة مكافأة مناسبة أمر معقد. قد تؤدي المكافأة المختارة بشكل سيئ إلى سلوكيات غير مقصودة (قد "يخدع" الوكيل المكافأة بطريقة لا تتوافق مع الهدف الحقيقي). تصميم مكافآت تعكس الأهداف طويلة الأمد دون اختصارات غير مقصودة هو فن في أبحاث التعلم المعزز.
  • الاستقرار والسلامة: في البيئات الواقعية (الروبوتات، الرعاية الصحية، المالية)، قد تكون الإجراءات الاستكشافية غير الآمنة خطيرة أو مكلفة. تشير AWS إلى أن التجارب الواقعية (مثل طيران طائرة بدون طيار) قد لا تكون عملية بدون محاكاة. ضمان السلامة أثناء التعلم والنشر هو مجال نشط في أبحاث التعلم المعزز.
  • قابلية التفسير: قد تكون سياسات التعلم المعزز المتعلمة (وخاصة نماذج التعلم المعزز العميق) غير شفافة. فهم سبب اتخاذ الوكيل لإجراءات معينة غالبًا ما يكون صعبًا، مما يصعب تصحيح الأخطاء أو الثقة بالنظام. يُعتبر هذا النقص في القابلية للتفسير تحديًا في نشر أنظمة التعلم المعزز المعقدة.

كل من هذه التحديات موضوع بحث مستمر. على الرغم من العقبات، تظهر النجاحات العملية للتعلم المعزز (في الألعاب، الروبوتات، أنظمة التوصية، وغيرها) أنه عند تطبيقه بعناية، يمكن للتعلم المعزز تحقيق نتائج مبهرة.

>>>انقر لتتعلم المزيد عن:

ما هو الذكاء الاصطناعي التوليدي؟

ما هو الشبكة العصبية؟

تحديات التعلم المعزز


باختصار، التعلم المعزز هو إطار تعلم مستقل يتعلم فيه الوكيل تحقيق الأهداف من خلال التفاعل مع بيئته وتعظيم المكافأة التراكمية. يجمع بين أفكار من التحكم الأمثل، البرمجة الديناميكية، وعلم النفس السلوكي، وهو أساس العديد من الإنجازات الحديثة في الذكاء الاصطناعي.

من خلال صياغة المشاكل كمهام اتخاذ قرار متسلسلة مع تغذية راجعة، يمكّن التعلم المعزز الآلات من تعلم سلوكيات معقدة بنفسها، جسرًا بين التعلم القائم على البيانات والعمل الموجه نحو الهدف.

External References
This article has been compiled with reference to the following external sources: