Învățarea prin Recompensare (RL) este o ramură a învățării automate în care un agent învață să ia decizii prin interacțiunea cu un mediu. În RL, scopul agentului este să învețe o politică (o strategie) pentru alegerea acțiunilor care maximizează recompensa cumulativă în timp.

Spre deosebire de învățarea supravegheată, care necesită exemple etichetate, RL se bazează pe feedback prin încercare și eroare: acțiunile care produc rezultate pozitive (recompense) sunt întărite, în timp ce cele care duc la rezultate negative (pedeapsă) sunt evitate.

Așa cum explică Sutton și Barto, RL este în esență „o abordare computațională pentru înțelegerea și automatizarea învățării și luării deciziilor orientate spre obiective”, unde agentul învață din interacțiunea directă cu mediul său, fără a necesita supraveghere externă sau un model complet al lumii.

În practică, aceasta înseamnă că agentul explorează continuu spațiul stări-acțiuni, observând rezultatele acțiunilor sale și ajustându-și strategia pentru a îmbunătăți recompensele viitoare.

Concepte și Componente Cheie

Învățarea prin recompensare implică mai multe elemente de bază. În termeni generali, un agent (entitatea care învață sau ia decizii) interacționează cu un mediu (sistemul extern sau spațiul problemei) prin efectuarea de acțiuni la pași discreți de timp.

La fiecare pas, agentul observă starea curentă a mediului, execută o acțiune și apoi primește o recompensă (un semnal numeric de feedback) din partea mediului. Pe parcursul multor astfel de interacțiuni, agentul urmărește să maximizeze recompensa totală (cumulativă). Conceptele cheie includ:

  • Agent: Învățăcelul autonom (de exemplu, un program AI sau un robot) care ia decizii.
  • Mediu: Lumea sau domeniul problemei cu care agentul interacționează. Mediul oferă starea curentă agentului și calculează recompensa pe baza acțiunii agentului.
  • Acțiune: O decizie sau o mișcare făcută de agent pentru a influența mediul. Acțiuni diferite pot conduce la stări și recompense diferite.
  • Stare: O reprezentare a mediului într-un moment dat (de exemplu, poziția pieselor pe o tablă de joc sau citirile senzorilor unui robot). Agentul folosește starea pentru a decide următoarea acțiune.
  • Recompensă: Un semnal scalar de feedback (pozitiv, negativ sau zero) oferit de mediu după fiecare acțiune. Ea cuantifică beneficiul imediat (sau costul) al acțiunii. Scopul agentului este să maximizeze recompensa cumulativă așteptată în timp.
  • Politică: Strategia agentului pentru alegerea acțiunilor, de obicei o mapare de la stări la acțiuni. Prin învățare, agentul urmărește să găsească o politică optimă sau aproape optimă.
  • Funcția de valoare (sau rentabilitate): O estimare a recompensei viitoare așteptate (recompensa cumulativă) pe care agentul o va obține dintr-o stare dată (sau pereche stare-acțiune). Funcția de valoare ajută agentul să evalueze consecințele pe termen lung ale acțiunilor.
  • Model (opțional): În RL bazat pe model, agentul construiește un model intern al dinamicii mediului (cum se schimbă stările în funcție de acțiuni) și îl folosește pentru planificare. În RL fără model, nu se construiește un astfel de model; agentul învață exclusiv din experiența de încercare și eroare.

Concepte și Componente Cheie Învățarea prin Recompensare

Cum Funcționează Învățarea prin Recompensare

RL este adesea formalizat ca un proces decizional Markov (MDP). La fiecare pas discret de timp, agentul observă o stare St și selectează o acțiune At. Mediul trece apoi la o stare nouă St+1 și emite o recompensă Rt+1 bazată pe acțiunea efectuată.

Pe parcursul multor episoade, agentul acumulează experiență sub forma unor secvențe stare–acțiune–recompensă. Analizând care acțiuni au condus la recompense mai mari, agentul își îmbunătățește treptat politica.

Este esențial faptul că problemele RL implică un echilibru între explorare și exploatare. Agentul trebuie să exploateze cele mai bune acțiuni cunoscute pentru a obține recompense, dar și să exploreze acțiuni noi care ar putea conduce la rezultate și mai bune.

De exemplu, un agent RL care controlează un robot poate alege de obicei o rută sigură dovedită (exploatare), dar uneori încearcă o cale nouă (explorare) pentru a descoperi o rută mai rapidă. Echilibrarea acestui compromis este esențială pentru găsirea politicii optime.

Procesul de învățare este adesea comparat cu condiționarea comportamentală. De exemplu, AWS menționează că RL „imitează procesul de învățare prin încercare și eroare folosit de oameni”. Un copil poate învăța că strângerea jucăriilor primește laude, în timp ce aruncarea lor primește mustrări; similar, un agent RL învață care acțiuni aduc recompense prin feedback pozitiv pentru acțiuni bune și negativ pentru cele rele.

În timp, agentul construiește estimări de valoare sau politici care surprind cea mai bună succesiune de acțiuni pentru atingerea obiectivelor pe termen lung.

În practică, algoritmii RL acumulează recompense pe episoade și urmăresc să maximizeze rentabilitatea așteptată (suma recompenselor viitoare). Ei învață să prefere acțiunile care conduc la recompense mari pe termen lung, chiar dacă aceste acțiuni nu oferă cea mai mare recompensă imediată. Această capacitate de a planifica pentru câștiguri pe termen lung (acceptând uneori sacrificii pe termen scurt) face RL potrivit pentru sarcini complexe și secvențiale de luare a deciziilor.

Cum Funcționează Învățarea prin Recompensare

Tipuri de Algoritmi de Învățare prin Recompensare

Există numeroși algoritmi pentru implementarea învățării prin recompensare. În linii mari, aceștia se împart în două categorii: metode bazate pe model și metode fără model.

  • RL bazat pe model: Agentul învață sau cunoaște mai întâi un model al dinamicii mediului (cum se schimbă stările și cum se acordă recompensele) și apoi planifică acțiunile simulând rezultatele. De exemplu, un robot care cartografiază o clădire pentru a găsi ruta cea mai scurtă folosește o abordare bazată pe model.

  • RL fără model: Agentul nu are un model explicit al mediului și învață exclusiv prin încercare și eroare în mediul real (sau simulat). În loc să planifice cu un model, actualizează incremental estimările de valoare sau politicile pe baza experienței. Majoritatea algoritmilor clasici RL (cum ar fi Q-learning sau învățarea diferențială temporală) sunt fără model.

În cadrul acestor categorii, algoritmii diferă în modul în care reprezintă și actualizează politica sau funcția de valoare. De exemplu, Q-learning (o metodă bazată pe valoare) învață estimări ale „valorilor Q” (rentabilitatea așteptată) pentru perechi stare-acțiune și alege acțiunea cu cea mai mare valoare.

Metodele policy-gradient parametrizează direct politica și îi ajustează parametrii prin ascensiune pe gradientul recompensei așteptate. Multe metode avansate (cum ar fi Actor-Critic sau Trust Region Policy Optimization) combină estimarea valorii cu optimizarea politicii.

O dezvoltare majoră recentă este Învățarea profundă prin recompensare. Aici, rețelele neuronale profunde servesc ca aproximatori funcționali pentru funcțiile de valoare sau politici, permițând RL să gestioneze intrări de înaltă dimensiune, cum ar fi imagini. Succesul DeepMind în jocurile Atari și jocurile de masă (de exemplu, AlphaGo în Go) provine din combinarea învățării profunde cu RL. În deep RL, algoritmi precum Deep Q-Networks (DQN) sau Deep Policy Gradients extind RL la sarcini complexe din lumea reală.

De exemplu, AWS menționează că algoritmii comuni RL includ Q-learning, metode Monte Carlo, metode policy-gradient și învățarea diferențială temporală, iar „Deep RL” se referă la utilizarea rețelelor neuronale profunde în aceste metode.

Tipuri de Algoritmi de Învățare prin Recompensare

Aplicații ale Învățării prin Recompensare

Învățarea prin recompensare este aplicată în multe domenii unde luarea deciziilor secvențiale sub incertitudine este esențială. Aplicațiile principale includ:

  • Jocuri și Simulare: RL a stăpânit faimos jocurile și simulatoarele. De exemplu, AlphaGo și AlphaZero de la DeepMind au învățat Go și Șah la niveluri supraomenești folosind RL. Jocurile video (Atari, StarCraft) și simulatoarele (fizică, robotică) sunt medii naturale pentru testarea RL deoarece mediul este bine definit și sunt posibile multe încercări.
  • Robotică și Control: Roboții autonomi și mașinile autonome sunt agenți în medii dinamice. Prin încercare și eroare, RL poate învăța un robot să apuce obiecte sau o mașină să navigheze în trafic. IBM menționează că roboții și mașinile autonome sunt exemple principale de agenți RL care învață prin interacțiunea cu mediul lor.
  • Sisteme de Recomandare și Marketing: RL poate personaliza conținutul sau reclamele în funcție de interacțiunile utilizatorilor. De exemplu, un sistem de recomandare bazat pe RL își actualizează sugestiile pe măsură ce utilizatorii dau click sau sar peste elemente, învățând să prezinte cele mai relevante reclame sau produse în timp.
  • Optimizarea Resurselor: RL excelează în optimizarea sistemelor cu obiective pe termen lung. Exemple includ ajustarea răcirii centrelor de date pentru a minimiza consumul de energie, controlul stocării energiei în rețele inteligente sau gestionarea resurselor de cloud computing. AWS descrie cazuri de utilizare precum „optimizarea cheltuielilor în cloud”, unde un agent RL învață să aloce resursele de calcul pentru cea mai bună eficiență a costurilor.
  • Finanțe și Tranzacționare: Piețele financiare sunt dinamice și secvențiale. RL a fost explorat pentru optimizarea strategiilor de tranzacționare, gestionarea portofoliilor și acoperire prin simularea tranzacțiilor și învățarea acțiunilor care maximizează câștigurile în condiții de schimbări ale pieței.

Aceste exemple evidențiază puterea RL în planificarea pe termen lung. Spre deosebire de metodele care prezic doar rezultatele imediate, RL maximizează explicit recompensele cumulative, fiind potrivit pentru probleme în care acțiunile au consecințe întârziate.

Aplicații ale Învățării prin Recompensare

Învățarea prin Recompensare vs. Alte Tipuri de Învățare Automată

Învățarea prin recompensare este unul dintre cele trei paradigme majore ale învățării automate (alături de învățarea supravegheată și nesupravegheată), dar se diferențiază prin focalizare. Învățarea supravegheată antrenează pe perechi de intrări-ieșiri etichetate, în timp ce învățarea nesupravegheată identifică tipare în date neetichetate.

În contrast, RL nu necesită exemple etichetate de comportament corect. În schimb, definește un obiectiv prin semnalul de recompensă și învață prin încercare și eroare. În RL, „datele de antrenament” (tupluri stare-acțiune-recompensă) sunt secvențiale și interdependente, deoarece fiecare acțiune influențează stările viitoare.

Pe scurt, învățarea supravegheată spune unui model ce să prezică; învățarea prin recompensare învață un agent cum să acționeze. După cum menționează IBM, RL învață prin „întărire pozitivă” (recompensă) mai degrabă decât prin arătarea răspunsurilor corecte.

Aceasta face RL deosebit de puternic pentru sarcini care implică luarea deciziilor și controlul. Totuși, înseamnă și că RL poate fi mai dificil: fără feedback etichetat, agentul trebuie să descopere singur acțiunile bune, necesitând adesea multă explorare a mediului.

Învățarea prin Recompensare vs. Alte Tipuri de Învățare Automată

Provocările Învățării prin Recompensare

În ciuda puterii sale, RL vine cu provocări practice:

  • Ineficiența în utilizarea eșantioanelor: RL necesită adesea cantități mari de experiență (încercări) pentru a învăța politici eficiente. Antrenamentul în lumea reală poate fi costisitor sau lent (de exemplu, un robot poate avea nevoie de milioane de încercări pentru a stăpâni o sarcină). Din acest motiv, multe sisteme RL sunt antrenate în simulare înainte de implementare.
  • Proiectarea recompensei: Definirea unei funcții de recompensă adecvate este dificilă. O recompensă prost aleasă poate conduce la comportamente nedorite (agentul poate „manipula” recompensa într-un mod care nu corespunde obiectivului real). Proiectarea recompenselor care reflectă obiective pe termen lung fără scurtături nedorite este o artă în cercetarea RL.
  • Stabilitate și siguranță: În medii reale (robotică, sănătate, finanțe), acțiunile exploratorii nesigure pot fi periculoase sau costisitoare. AWS menționează că experimentarea în lumea reală (de exemplu, pilotarea unei drone) poate să nu fie practică fără simulare. Asigurarea siguranței în timpul învățării și implementării este un domeniu activ de cercetare RL.
  • Interpretabilitate: Politicile RL învățate (în special modelele deep RL) pot fi opace. Înțelegerea motivului pentru care un agent ia anumite acțiuni este adesea dificilă, ceea ce face dificilă depanarea sau încrederea în sistem. Această lipsă de interpretabilitate este menționată ca o provocare la implementarea sistemelor RL complexe.

Fiecare dintre aceste provocări este subiectul unor cercetări continue. În ciuda obstacolelor, succesele practice ale RL (în jocuri, robotică, sisteme de recomandare etc.) demonstrează că, aplicat cu atenție, RL poate obține rezultate impresionante.

>>>Faceți clic pentru a afla mai multe despre:

Ce este Inteligența Artificială Generativă?

Ce este o Rețea Neurală?

Provocările Învățării prin Recompensare


În concluzie, învățarea prin recompensare este un cadru de învățare autonomă în care un agent învață să atingă obiective prin interacțiunea cu mediul său și maximizarea recompensei cumulative. Combină idei din controlul optim, programarea dinamică și psihologia comportamentală și este fundamentul multor progrese moderne în AI.

Prin formularea problemelor ca sarcini de luare a deciziilor secvențiale cu feedback, RL permite mașinilor să învețe comportamente complexe pe cont propriu, făcând legătura între învățarea bazată pe date și acțiunea orientată spre obiective.

External References
This article has been compiled with reference to the following external sources: