Ce este Învățarea prin Recompensare?
Învățarea prin Recompensare (RL) este o ramură a învățării automate în care un agent învață să ia decizii prin interacțiunea cu mediul său. În RL, scopul agentului este să învețe o politică (o strategie) pentru alegerea acțiunilor care maximizează recompensele cumulative în timp.
Învățarea prin Recompensare (RL) este o ramură a învățării automate în care un agent învață să ia decizii prin interacțiunea cu un mediu. În RL, scopul agentului este să învețe o politică (o strategie) pentru alegerea acțiunilor care maximizează recompensa cumulativă în timp.
Spre deosebire de învățarea supravegheată, care necesită exemple etichetate, RL se bazează pe feedback prin încercare și eroare: acțiunile care produc rezultate pozitive (recompense) sunt întărite, în timp ce cele care generează rezultate negative (pedeapsă) sunt evitate.
RL este, în esență, „o abordare computațională pentru înțelegerea și automatizarea învățării și luării deciziilor orientate spre obiective”, unde agentul învață din interacțiunea directă cu mediul său, fără a necesita supraveghere externă sau un model complet al lumii.
— Sutton și Barto, cercetători în Învățarea prin Recompensare
În practică, aceasta înseamnă că agentul explorează continuu spațiul stare-acțiune, observând rezultatele acțiunilor sale și ajustându-și strategia pentru a îmbunătăți recompensele viitoare.
Concepte și Componente Cheie
Învățarea prin recompensare implică mai multe elemente de bază. În termeni generali, un agent (entitatea care învață sau ia decizii) interacționează cu un mediu (sistemul extern sau domeniul problemei) prin efectuarea de acțiuni la pași discreți de timp.
La fiecare pas, agentul observă starea curentă a mediului, execută o acțiune și apoi primește o recompensă (un semnal numeric de feedback) din partea mediului. Pe parcursul multor astfel de interacțiuni, agentul urmărește să maximizeze recompensa totală (cumulativă).
Agent
Mediu
Acțiune
Stare
Recompensă
Politică
Funcția de Valoare
Model (Opțional)

Cum Funcționează Învățarea prin Recompensare
RL este adesea formalizat ca un proces decizional Markov (MDP). La fiecare pas discret de timp, agentul observă o stare St și selectează o acțiune At. Mediul trece apoi la o stare nouă St+1 și emite o recompensă Rt+1 bazată pe acțiunea efectuată.
Pe parcursul multor episoade, agentul acumulează experiență sub forma unor secvențe stare–acțiune–recompensă. Analizând care acțiuni au condus la recompense mai mari, agentul își îmbunătățește treptat politica.
De exemplu, un agent de învățare prin recompensare care controlează un robot poate alege de obicei o rută sigură dovedită (exploatare), dar uneori încearcă o cale nouă (explorare) pentru a descoperi o rută mai rapidă. Echilibrarea acestui compromis este esențială pentru găsirea politicii optime.
RL „imita procesul de învățare prin încercare și eroare pe care îl folosesc oamenii”. Un copil poate învăța că a face curat primește laude, în timp ce aruncatul jucăriilor primește mustrări; similar, un agent RL învață care acțiuni aduc recompense primind feedback pozitiv pentru acțiunile bune și feedback negativ pentru cele rele.
— Documentația AWS Machine Learning
În timp, agentul construiește estimări de valoare sau politici care surprind cea mai bună secvență de acțiuni pentru a atinge obiective pe termen lung.
În practică, algoritmii RL acumulează recompense pe episoade și urmăresc să maximizeze randamentul așteptat (suma recompenselor viitoare). Ei învață să prefere acțiunile care conduc la recompense mari pe termen lung, chiar dacă aceste acțiuni nu oferă cea mai mare recompensă imediată. Această capacitate de a planifica pentru câștig pe termen lung (acceptând uneori sacrificii pe termen scurt) face RL potrivit pentru sarcini complexe și secvențiale de luare a deciziilor.

Tipuri de Algoritmi de Învățare prin Recompensare
Există mulți algoritmi pentru implementarea învățării prin recompensare. În general, aceștia se împart în două clase: metode bazate pe model și metode fără model.
Abordare de Planificare
Agentul învață sau cunoaște mai întâi un model al dinamicii mediului (cum se schimbă stările și cum se acordă recompensele) și apoi planifică acțiunile simulând rezultatele.
- Eficient cu date limitate
- Poate planifica eficient în avans
- Necesită un model precis al mediului
Exemplu: Un robot care cartografiază o clădire pentru a găsi ruta cea mai scurtă folosește o abordare bazată pe model.
Învățare Directă
Agentul nu are un model explicit al mediului și învață exclusiv prin încercare și eroare în mediul real (sau simulat).
- Nu necesită model al mediului
- Funcționează cu medii complexe
- Necesită mai multă experiență
Exemplu: Majoritatea algoritmilor clasici RL (cum ar fi Q-learning sau învățarea diferențială temporală) sunt fără model.
În cadrul acestor categorii, algoritmii diferă în modul în care reprezintă și actualizează politica sau funcția de valoare. De exemplu, Q-learning (o metodă bazată pe valoare) învață estimări ale „valorilor Q” (randamentul așteptat) pentru perechile stare-acțiune și alege acțiunea cu cea mai mare valoare.
Metodele policy-gradient parametrizează direct politica și îi ajustează parametrii prin ascensiune pe gradientul recompensei așteptate. Multe metode avansate (cum ar fi Actor-Critic sau Trust Region Policy Optimization) combină estimarea valorii și optimizarea politicii.
În RL profund, algoritmi precum Deep Q-Networks (DQN) sau Deep Policy Gradients extind RL la sarcini complexe din lumea reală.
Algoritmii comuni RL includ Q-learning, metode Monte Carlo, metode policy-gradient și învățarea diferențială temporală, iar „Deep RL” se referă la utilizarea rețelelor neuronale profunde în aceste metode.
— Documentația AWS Machine Learning

Aplicații ale Învățării prin Recompensare
Învățarea prin recompensare este aplicată în multe domenii unde luarea deciziilor secvențiale sub incertitudine este crucială. Aplicațiile cheie includ:
Jocuri și Simulare
RL a stăpânit faimos jocurile și simulatoarele. AlphaGo și AlphaZero de la DeepMind au învățat Go și Șah la niveluri supraomenești folosind RL.
- Jocuri video (Atari, StarCraft)
- Jocuri de masă (Go, Șah)
- Simulări fizice
- Simulatoare robotice
Robotică și Control
Roboții autonomi și mașinile autonome sunt agenți în medii dinamice care învață prin încercare și eroare.
- Prinderea și manipularea obiectelor
- Navigație autonomă
- Vehicule autonome
- Automatizare industrială
Sisteme de Recomandare
RL poate personaliza conținutul sau reclamele bazate pe interacțiunile utilizatorilor, învățând să prezinte cele mai relevante elemente în timp.
- Personalizarea conținutului
- Optimizarea țintirii reclamelor
- Recomandări de produse
- Optimizarea implicării utilizatorilor
Optimizarea Resurselor
RL excelează în optimizarea sistemelor cu obiective pe termen lung și provocări complexe de alocare a resurselor.
- Optimizarea răcirii centrelor de date
- Stocarea energiei în rețele inteligente
- Resurse de cloud computing
- Managementul lanțului de aprovizionare
Finanțe și Tranzacționare
Piețele financiare sunt dinamice și secvențiale, făcând RL potrivit pentru strategii de tranzacționare și managementul portofoliului.
- Strategii algoritmice de tranzacționare
- Optimizarea portofoliului
- Managementul riscului
- Market making

Învățarea prin Recompensare vs. Alte Tipuri de Învățare Automată
Învățarea prin recompensare este unul dintre cele trei paradigme majore ale învățării automate (alături de învățarea supravegheată și nesupravegheată), dar se diferențiază prin focalizare. Învățarea supravegheată antrenează pe perechi de intrare-ieșire etichetate, în timp ce învățarea nesupravegheată găsește tipare în date neetichetate.
| Aspect | Învățare Supravegheată | Învățare Nesupravegheată | Învățare prin Recompensare |
|---|---|---|---|
| Tip de Date | Perechi etichetate intrare-ieșire | Date neetichetate | Tuple secvențiale stare-acțiune-recompensă |
| Scopul Învățării | Prezicerea ieșirilor corecte | Descoperirea tiparelor ascunse | Maximizarea recompensei cumulative |
| Tip Feedback | Răspunsuri corecte directe | Fără feedback | Semnale de recompensă/pedeapsă |
| Metoda de Învățare | Învățare din exemple | Descoperirea structurii | Explorare prin încercare și eroare |
În contrast, RL nu necesită exemple etichetate de comportament corect. În schimb, definește un obiectiv prin semnalul de recompensă și învață prin încercare și eroare. În RL, „datele de antrenament” (tuplele stare-acțiune-recompensă) sunt secvențiale și interdependente, deoarece fiecare acțiune afectează stările viitoare.
Pe scurt, învățarea supravegheată spune unui model ce să prezică; învățarea prin recompensare învață un agent cum să acționeze. RL învață prin „întărire pozitivă” (recompensă) mai degrabă decât prin arătarea răspunsurilor corecte.
— Prezentare generală IBM Machine Learning
Aceasta face RL deosebit de puternic pentru sarcini care implică luarea deciziilor și controlul. Totuși, înseamnă și că RL poate fi mai provocator: fără feedback etichetat, agentul trebuie să descopere singur acțiunile bune, necesitând adesea multă explorare a mediului.

Provocările Învățării prin Recompensare
În ciuda puterii sale, RL vine cu provocări practice:
Ineficiența în Eșantionare
Proiectarea Recompensei
Stabilitate și Siguranță
Interpretabilitate

Concluzie
În rezumat, învățarea prin recompensare este un cadru de învățare autonomă în care un agent învață să atingă obiective prin interacțiunea cu mediul său și maximizarea recompensei cumulative. Combină idei din controlul optim, programarea dinamică și psihologia comportamentală și este fundamentul multor progrese moderne în AI.
Prin formularea problemelor ca sarcini de luare a deciziilor secvențiale cu feedback, RL permite mașinilor să învețe comportamente complexe pe cont propriu, făcând legătura între învățarea bazată pe date și acțiunea orientată spre obiective.