מהו למידה בחיזוק?
למידה בחיזוק (RL) היא ענף של למידת מכונה שבו סוכן לומד לקבל החלטות באמצעות אינטראקציה עם הסביבה שלו. ב-RL, המטרה של הסוכן היא ללמוד מדיניות (אסטרטגיה) לבחירת פעולות שממקסמות תגמולים מצטברים לאורך זמן.
למידה בחיזוק (RL) היא ענף של למידת מכונה שבו סוכן לומד לקבל החלטות באמצעות אינטראקציה עם סביבה. ב-RL, המטרה של הסוכן היא ללמוד מדיניות (אסטרטגיה) לבחירת פעולות שממקסמות תגמול מצטבר לאורך זמן.
בניגוד ללמידה מונחית, שדורשת דוגמאות מתויגות, RL מתבססת על משוב של ניסוי וטעייה: פעולות שמניבות תוצאות חיוביות (תגמולים) מחוזקות, בעוד שפעולות שמניבות תוצאות שליליות (עונשים) נמנעות.
RL היא למעשה "גישה חישובית להבנת ולמיכון למידה והחלטות מכוונות מטרה" שבה הסוכן לומד מאינטראקציה ישירה עם הסביבה, ללא צורך בפיקוח חיצוני או במודל מלא של העולם.
— Sutton ו-Barto, חוקרי למידה בחיזוק
בפועל, המשמעות היא שהסוכן חוקר כל הזמן את מרחב המצבים והפעולות, צופה בתוצאות פעולותיו, ומעדכן את האסטרטגיה שלו לשיפור תגמולים עתידיים.
מושגים ורכיבים מרכזיים
למידה בחיזוק כוללת מספר מרכיבים מרכזיים. במונחים כלליים, סוכן (הלומד או הגורם שמקבל החלטות) מתקשר עם סביבה (המערכת החיצונית או תחום הבעיה) על ידי ביצוע פעולות בשלבים בדידים של זמן.
בכל שלב הסוכן מתבונן במצב הנוכחי של הסביבה, מבצע פעולה, ואז מקבל תגמול (אות משוב מספרי) מהסביבה. לאורך אינטראקציות רבות כאלה, הסוכן שואף למקסם את סך התגמולים המצטברים.
סוכן
סביבה
פעולה
מצב
תגמול
מדיניות
פונקציית ערך
מודל (אופציונלי)

כיצד למידה בחיזוק פועלת
RL מתואר לעיתים קרובות כתהליך החלטה מרקובי (MDP). בכל שלב זמן בדיד, הסוכן מתבונן במצב St ובוחר פעולה At. הסביבה עוברת למצב חדש St+1 ומשדרת תגמול Rt+1 בהתאם לפעולה שנבחרה.
לאורך פרקים רבים, הסוכן צובר ניסיון בצורת רצפים של מצב-פעולה-תגמול. באמצעות ניתוח אילו פעולות הובילו לתגמולים גבוהים יותר, הסוכן משפר בהדרגה את המדיניות שלו.
לדוגמה, סוכן למידה בחיזוק ששולט ברובוט עשוי בדרך כלל לבחור בדרך מוכחת ובטוחה (ניצול) אך לפעמים לנסות דרך חדשה (חקירה) כדי לגלות מסלול מהיר יותר. איזון בין הפשרה הזו חיוני למציאת המדיניות האופטימלית.
RL "מדמה את תהליך הלמידה בניסוי וטעייה שבו משתמשים בני אדם". ילד עשוי ללמוד שניקיון מביא שבחים בעוד שזריקת צעצועים מביאה נזיפות; באופן דומה, סוכן RL לומד אילו פעולות מניבות תגמולים על ידי קבלת משוב חיובי על פעולות טובות ומשוב שלילי על פעולות רעות.
— תיעוד למידת מכונה של AWS
עם הזמן, הסוכן בונה הערכות ערך או מדיניות שתופסות את רצף הפעולות הטוב ביותר להשגת מטרות ארוכות טווח.
בפועל, אלגוריתמים של RL מצטברים תגמולים לאורך פרקים ושואפים למקסם את החזר צפוי (סכום התגמולים העתידיים). הם לומדים להעדיף פעולות שמובילות לתגמולים גבוהים בעתיד, גם אם פעולות אלו אינן מניבות את התגמול המיידי הגבוה ביותר. היכולת לתכנן לטווח ארוך (לפעמים תוך קבלת ויתורים לטווח קצר) הופכת את RL למתאים למשימות החלטה מורכבות ורציפות.

סוגי אלגוריתמים בלמידה בחיזוק
ישנם אלגוריתמים רבים ליישום למידה בחיזוק. באופן כללי, הם מתחלקים לשתי קטגוריות: שיטות מבוססות-מודל וללא-מודל.
גישה תכנונית
הסוכן לומד או יודע תחילה מודל של דינמיקת הסביבה (כיצד מצבים משתנים וכיצד מחולקים תגמולים) ואז מתכנן פעולות על ידי סימולציה של תוצאות.
- יעיל עם נתונים מוגבלים
 - יכול לתכנן מראש ביעילות
 - דורש מודל מדויק של הסביבה
 
דוגמה: רובוט שממפה מבנה כדי למצוא את המסלול הקצר ביותר משתמש בגישה מבוססת-מודל.
למידה ישירה
לסוכן אין מודל מפורש של הסביבה והוא לומד רק מניסיון של ניסוי וטעייה בסביבה אמיתית (או מדומה).
- לא נדרש מודל של הסביבה
 - עובד עם סביבות מורכבות
 - דורש יותר ניסיון
 
דוגמה: רוב אלגוריתמי RL הקלאסיים (כמו Q-learning או למידת הפרש זמני) הם ללא-מודל.
בתוך קטגוריות אלו, האלגוריתמים שונים באופן שבו הם מייצגים ומעדכנים את המדיניות או פונקציית הערך. לדוגמה, Q-learning (שיטה מבוססת ערך) לומדת הערכות של "ערכי Q" (החזר צפוי) לזוגות מצב-פעולה ובוחרת את הפעולה עם הערך הגבוה ביותר.
שיטות גרדיאנט מדיניות מפרמטרות ישירות את המדיניות ומעדכנות את הפרמטרים שלה באמצעות עלייה בגרדיאנט על תגמול צפוי. שיטות מתקדמות רבות (כמו Actor-Critic או Trust Region Policy Optimization) משלבות הערכת ערך ואופטימיזציית מדיניות.
בלמידה עמוקה בחיזוק, אלגוריתמים כמו Deep Q-Networks (DQN) או Deep Policy Gradients מרחיבים את RL למשימות מורכבות בעולם האמיתי.
אלגוריתמים נפוצים ב-RL כוללים Q-learning, שיטות מונטה קרלו, שיטות גרדיאנט מדיניות ולמידת הפרש זמני, ו-"Deep RL" מתייחס לשימוש ברשתות עצביות עמוקות בשיטות אלו.
— תיעוד למידת מכונה של AWS

יישומים של למידה בחיזוק
למידה בחיזוק מיושמת בתחומים רבים שבהם קבלת החלטות רציפה תחת אי-ודאות היא קריטית. יישומים מרכזיים כוללים:
משחקים וסימולציה
RL שלטה במשחקים וסימולטורים. AlphaGo ו-AlphaZero של DeepMind למדו לשחק גו ושחמט ברמות על-אנושיות באמצעות RL.
- משחקי וידאו (אטארי, StarCraft)
 - משחקי לוח (גו, שחמט)
 - סימולציות פיזיקליות
 - סימולטורים לרובוטיקה
 
רובוטיקה ושליטה
רובוטים אוטונומיים ורכבים אוטונומיים הם סוכנים בסביבות דינמיות שלומדים באמצעות ניסוי וטעייה.
- אחיזת עצמים ומניפולציה
 - ניווט אוטונומי
 - רכבים אוטונומיים
 - אוטומציה תעשייתית
 
מערכות המלצה
RL יכול להתאים תוכן או פרסומות בהתבסס על אינטראקציות משתמש, וללמוד להציג את הפריטים הרלוונטיים ביותר לאורך זמן.
- התאמת תוכן אישית
 - אופטימיזציית מיקוד פרסומות
 - המלצות על מוצרים
 - אופטימיזציית מעורבות משתמש
 
אופטימיזציית משאבים
RL מצטיין באופטימיזציה של מערכות עם מטרות ארוכות טווח ואתגרים מורכבים בהקצאת משאבים.
- אופטימיזציית קירור מרכזי נתונים
 - אחסון אנרגיה ברשת חכמה
 - משאבי מחשוב ענן
 - ניהול שרשרת אספקה
 
פיננסים וסחר
שווקים פיננסיים הם דינמיים ורציפים, מה שהופך את RL מתאים לאסטרטגיות מסחר וניהול תיקי השקעות.
- אסטרטגיות מסחר אלגוריתמיות
 - אופטימיזציית תיק השקעות
 - ניהול סיכונים
 - יצירת שוק
 

למידה בחיזוק מול שיטות למידת מכונה אחרות
למידה בחיזוק היא אחת משלוש הפרדיגמות המרכזיות של למידת מכונה (לצד למידה מונחית ולמידה בלתי מונחית), אך שונה במיקוד. למידה מונחית מתאמנת על זוגות קלט-פלט מתויגים, בעוד שלמידה בלתי מונחית מוצאת דפוסים בנתונים לא מתויגים.
| היבט | למידה מונחית | למידה בלתי מונחית | למידה בחיזוק | 
|---|---|---|---|
| סוג נתונים | זוגות קלט-פלט מתויגים | נתונים לא מתויגים | רצפי מצב-פעולה-תגמול רציפים | 
| מטרת למידה | לנבא פלטים נכונים | למצוא דפוסים נסתרים | למקסם תגמול מצטבר | 
| סוג משוב | תשובות נכונות ישירות | ללא משוב | אותות תגמול/עונש | 
| שיטת למידה | לימוד מדוגמאות | גילוי מבנה | חקירה בניסוי וטעייה | 
לעומת זאת, RL אינו דורש דוגמאות מתויגות של התנהגות נכונה. במקום זאת, הוא מגדיר מטרה באמצעות אות התגמול ולומד באמצעות ניסוי וטעייה. ב-RL, "נתוני האימון" (רצפי מצב-פעולה-תגמול) הם רציפים ותלויים זה בזה, כי כל פעולה משפיעה על מצבים עתידיים.
בקיצור, למידה מונחית מלמדת מודל מה לנבא; למידה בחיזוק מלמדת סוכן כיצד לפעול. RL לומד באמצעות "חיזוק חיובי" (תגמול) במקום על ידי הצגת התשובות הנכונות.
— סקירת למידת מכונה של IBM
זה הופך את RL לעוצמתי במיוחד למשימות הכוללות קבלת החלטות ושליטה. עם זאת, זה גם אומר ש-RL יכול להיות מאתגר יותר: ללא משוב מתויג, הסוכן חייב לגלות פעולות טובות בעצמו, לעיתים דורש חקירה רבה של הסביבה.

אתגרים בלמידה בחיזוק
למרות העוצמה שלה, RL מלווה באתגרים מעשיים:
יעילות דגימה נמוכה
עיצוב תגמול
יציבות ובטיחות
יכולת פרשנות

סיכום
לסיכום, למידה בחיזוק היא מסגרת למידה אוטונומית שבה סוכן לומד להשיג מטרות באמצעות אינטראקציה עם הסביבה ומקסום תגמול מצטבר. היא משלבת רעיונות מבקרת אופטימלית, תכנות דינמי ופסיכולוגיה התנהגותית, ומהווה בסיס לפריצות דרך רבות בבינה מלאכותית מודרנית.
על ידי ניסוח בעיות כמשימות קבלת החלטות רציפות עם משוב, RL מאפשרת למכונות ללמוד התנהגויות מורכבות בעצמן, ומגשרת על הפער בין למידה מונחית בנתונים לפעולה מכוונת מטרה.