Ce este Învățarea prin Recompensare?

Învățarea prin Recompensare (RL) este o ramură a învățării automate în care un agent învață să ia decizii prin interacțiunea cu mediul său. În RL, scopul agentului este să învețe o politică (o strategie) pentru alegerea acțiunilor care maximizează recompensele cumulative în timp.

Învățarea prin Recompensare (RL) este o ramură a învățării automate în care un agent învață să ia decizii prin interacțiunea cu un mediu. În RL, scopul agentului este să învețe o politică (o strategie) pentru alegerea acțiunilor care maximizează recompensa cumulativă în timp.

Spre deosebire de învățarea supravegheată, care necesită exemple etichetate, RL se bazează pe feedback prin încercare și eroare: acțiunile care produc rezultate pozitive (recompense) sunt întărite, în timp ce cele care generează rezultate negative (pedeapsă) sunt evitate.

RL este, în esență, „o abordare computațională pentru înțelegerea și automatizarea învățării și luării deciziilor orientate spre obiective”, unde agentul învață din interacțiunea directă cu mediul său, fără a necesita supraveghere externă sau un model complet al lumii.

— Sutton și Barto, cercetători în Învățarea prin Recompensare

În practică, aceasta înseamnă că agentul explorează continuu spațiul stare-acțiune, observând rezultatele acțiunilor sale și ajustându-și strategia pentru a îmbunătăți recompensele viitoare.

Concepte și Componente Cheie

Învățarea prin recompensare implică mai multe elemente de bază. În termeni generali, un agent (entitatea care învață sau ia decizii) interacționează cu un mediu (sistemul extern sau domeniul problemei) prin efectuarea de acțiuni la pași discreți de timp.

La fiecare pas, agentul observă starea curentă a mediului, execută o acțiune și apoi primește o recompensă (un semnal numeric de feedback) din partea mediului. Pe parcursul multor astfel de interacțiuni, agentul urmărește să maximizeze recompensa totală (cumulativă).

Agent

Învățăcelul autonom (de exemplu, un program AI sau un robot) care ia decizii.

Mediu

Lumea sau domeniul problemei cu care agentul interacționează. Mediul oferă starea curentă agentului și calculează recompensa pe baza acțiunii agentului.

Acțiune

O decizie sau o mișcare făcută de agent pentru a influența mediul. Acțiuni diferite pot conduce la stări și recompense diferite.

Stare

O reprezentare a mediului într-un moment dat (de exemplu, poziția pieselor pe o tablă de joc sau citirile senzorilor unui robot). Agentul folosește starea pentru a decide următoarea acțiune.

Recompensă

Un semnal scalar de feedback (pozitiv, negativ sau zero) oferit de mediu după fiecare acțiune. Quantifică beneficiul imediat (sau costul) al acțiunii. Scopul agentului este să maximizeze recompensa cumulativă așteptată în timp.

Politică

Strategia agentului pentru alegerea acțiunilor, de obicei o mapare de la stări la acțiuni. Prin învățare, agentul urmărește să găsească o politică optimă sau aproape optimă.

Funcția de Valoare

O estimare a recompensei viitoare așteptate (recompensa cumulativă) pe care agentul o va obține dintr-o stare dată (sau pereche stare-acțiune). Funcția de valoare ajută agentul să evalueze consecințele pe termen lung ale acțiunilor.

Model (Opțional)

În RL bazat pe model, agentul construiește un model intern al dinamicii mediului (cum se schimbă stările în funcție de acțiuni) și îl folosește pentru planificare. În RL fără model, nu se construiește un astfel de model; agentul învață doar din experiența încercare-eroare.
Concepte și Componente Cheie Învățarea prin Recompensare
Concepte și componente cheie ale cadrului de învățare prin recompensare

Cum Funcționează Învățarea prin Recompensare

RL este adesea formalizat ca un proces decizional Markov (MDP). La fiecare pas discret de timp, agentul observă o stare St și selectează o acțiune At. Mediul trece apoi la o stare nouă St+1 și emite o recompensă Rt+1 bazată pe acțiunea efectuată.

Pe parcursul multor episoade, agentul acumulează experiență sub forma unor secvențe stare–acțiune–recompensă. Analizând care acțiuni au condus la recompense mai mari, agentul își îmbunătățește treptat politica.

Explorare vs. Exploatare: Problemele RL implică un compromis crucial între explorare și exploatare. Agentul trebuie să exploateze cele mai bune acțiuni cunoscute pentru a obține recompense, dar și să exploreze acțiuni noi care ar putea conduce la rezultate și mai bune.

De exemplu, un agent de învățare prin recompensare care controlează un robot poate alege de obicei o rută sigură dovedită (exploatare), dar uneori încearcă o cale nouă (explorare) pentru a descoperi o rută mai rapidă. Echilibrarea acestui compromis este esențială pentru găsirea politicii optime.

RL „imita procesul de învățare prin încercare și eroare pe care îl folosesc oamenii”. Un copil poate învăța că a face curat primește laude, în timp ce aruncatul jucăriilor primește mustrări; similar, un agent RL învață care acțiuni aduc recompense primind feedback pozitiv pentru acțiunile bune și feedback negativ pentru cele rele.

— Documentația AWS Machine Learning

În timp, agentul construiește estimări de valoare sau politici care surprind cea mai bună secvență de acțiuni pentru a atinge obiective pe termen lung.

În practică, algoritmii RL acumulează recompense pe episoade și urmăresc să maximizeze randamentul așteptat (suma recompenselor viitoare). Ei învață să prefere acțiunile care conduc la recompense mari pe termen lung, chiar dacă aceste acțiuni nu oferă cea mai mare recompensă imediată. Această capacitate de a planifica pentru câștig pe termen lung (acceptând uneori sacrificii pe termen scurt) face RL potrivit pentru sarcini complexe și secvențiale de luare a deciziilor.

Cum Funcționează Învățarea prin Recompensare
Cum funcționează în practică învățarea prin recompensare

Tipuri de Algoritmi de Învățare prin Recompensare

Există mulți algoritmi pentru implementarea învățării prin recompensare. În general, aceștia se împart în două clase: metode bazate pe model și metode fără model.

RL Bazat pe Model

Abordare de Planificare

Agentul învață sau cunoaște mai întâi un model al dinamicii mediului (cum se schimbă stările și cum se acordă recompensele) și apoi planifică acțiunile simulând rezultatele.

  • Eficient cu date limitate
  • Poate planifica eficient în avans
  • Necesită un model precis al mediului

Exemplu: Un robot care cartografiază o clădire pentru a găsi ruta cea mai scurtă folosește o abordare bazată pe model.

RL Fără Model

Învățare Directă

Agentul nu are un model explicit al mediului și învață exclusiv prin încercare și eroare în mediul real (sau simulat).

  • Nu necesită model al mediului
  • Funcționează cu medii complexe
  • Necesită mai multă experiență

Exemplu: Majoritatea algoritmilor clasici RL (cum ar fi Q-learning sau învățarea diferențială temporală) sunt fără model.

În cadrul acestor categorii, algoritmii diferă în modul în care reprezintă și actualizează politica sau funcția de valoare. De exemplu, Q-learning (o metodă bazată pe valoare) învață estimări ale „valorilor Q” (randamentul așteptat) pentru perechile stare-acțiune și alege acțiunea cu cea mai mare valoare.

Metodele policy-gradient parametrizează direct politica și îi ajustează parametrii prin ascensiune pe gradientul recompensei așteptate. Multe metode avansate (cum ar fi Actor-Critic sau Trust Region Policy Optimization) combină estimarea valorii și optimizarea politicii.

Învățarea prin Recompensare Profundă: O dezvoltare majoră recentă în care rețelele neuronale profunde servesc ca aproximatori funcționali pentru funcțiile de valoare sau politici, permițând RL să gestioneze intrări de înaltă dimensiune, cum ar fi imagini. Succesul DeepMind în jocurile Atari și jocurile de masă (de exemplu, AlphaGo în Go) provine din combinarea învățării profunde cu RL.

În RL profund, algoritmi precum Deep Q-Networks (DQN) sau Deep Policy Gradients extind RL la sarcini complexe din lumea reală.

Algoritmii comuni RL includ Q-learning, metode Monte Carlo, metode policy-gradient și învățarea diferențială temporală, iar „Deep RL” se referă la utilizarea rețelelor neuronale profunde în aceste metode.

— Documentația AWS Machine Learning
Tipuri de Algoritmi de Învățare prin Recompensare
Tipuri de algoritmi de învățare prin recompensare

Aplicații ale Învățării prin Recompensare

Învățarea prin recompensare este aplicată în multe domenii unde luarea deciziilor secvențiale sub incertitudine este crucială. Aplicațiile cheie includ:

Jocuri și Simulare

RL a stăpânit faimos jocurile și simulatoarele. AlphaGo și AlphaZero de la DeepMind au învățat Go și Șah la niveluri supraomenești folosind RL.

  • Jocuri video (Atari, StarCraft)
  • Jocuri de masă (Go, Șah)
  • Simulări fizice
  • Simulatoare robotice

Robotică și Control

Roboții autonomi și mașinile autonome sunt agenți în medii dinamice care învață prin încercare și eroare.

  • Prinderea și manipularea obiectelor
  • Navigație autonomă
  • Vehicule autonome
  • Automatizare industrială

Sisteme de Recomandare

RL poate personaliza conținutul sau reclamele bazate pe interacțiunile utilizatorilor, învățând să prezinte cele mai relevante elemente în timp.

  • Personalizarea conținutului
  • Optimizarea țintirii reclamelor
  • Recomandări de produse
  • Optimizarea implicării utilizatorilor

Optimizarea Resurselor

RL excelează în optimizarea sistemelor cu obiective pe termen lung și provocări complexe de alocare a resurselor.

  • Optimizarea răcirii centrelor de date
  • Stocarea energiei în rețele inteligente
  • Resurse de cloud computing
  • Managementul lanțului de aprovizionare

Finanțe și Tranzacționare

Piețele financiare sunt dinamice și secvențiale, făcând RL potrivit pentru strategii de tranzacționare și managementul portofoliului.

  • Strategii algoritmice de tranzacționare
  • Optimizarea portofoliului
  • Managementul riscului
  • Market making
Avantajul Planificării pe Termen Lung: Aceste aplicații evidențiază puterea RL în planificarea pe termen lung. Spre deosebire de metodele care prezic doar rezultatele imediate, RL maximizează explicit recompensele cumulative, fiind potrivit pentru probleme în care acțiunile au consecințe întârziate.
Aplicații ale Învățării prin Recompensare
Aplicații ale învățării prin recompensare în diverse industrii

Învățarea prin Recompensare vs. Alte Tipuri de Învățare Automată

Învățarea prin recompensare este unul dintre cele trei paradigme majore ale învățării automate (alături de învățarea supravegheată și nesupravegheată), dar se diferențiază prin focalizare. Învățarea supravegheată antrenează pe perechi de intrare-ieșire etichetate, în timp ce învățarea nesupravegheată găsește tipare în date neetichetate.

Aspect Învățare Supravegheată Învățare Nesupravegheată Învățare prin Recompensare
Tip de Date Perechi etichetate intrare-ieșire Date neetichetate Tuple secvențiale stare-acțiune-recompensă
Scopul Învățării Prezicerea ieșirilor corecte Descoperirea tiparelor ascunse Maximizarea recompensei cumulative
Tip Feedback Răspunsuri corecte directe Fără feedback Semnale de recompensă/pedeapsă
Metoda de Învățare Învățare din exemple Descoperirea structurii Explorare prin încercare și eroare

În contrast, RL nu necesită exemple etichetate de comportament corect. În schimb, definește un obiectiv prin semnalul de recompensă și învață prin încercare și eroare. În RL, „datele de antrenament” (tuplele stare-acțiune-recompensă) sunt secvențiale și interdependente, deoarece fiecare acțiune afectează stările viitoare.

Pe scurt, învățarea supravegheată spune unui model ce să prezică; învățarea prin recompensare învață un agent cum să acționeze. RL învață prin „întărire pozitivă” (recompensă) mai degrabă decât prin arătarea răspunsurilor corecte.

— Prezentare generală IBM Machine Learning

Aceasta face RL deosebit de puternic pentru sarcini care implică luarea deciziilor și controlul. Totuși, înseamnă și că RL poate fi mai provocator: fără feedback etichetat, agentul trebuie să descopere singur acțiunile bune, necesitând adesea multă explorare a mediului.

Învățarea prin Recompensare vs. Alte Tipuri de Învățare Automată
Învățarea prin recompensare vs alte paradigme de învățare automată

Provocările Învățării prin Recompensare

În ciuda puterii sale, RL vine cu provocări practice:

Ineficiența în Eșantionare

RL necesită adesea cantități vaste de experiență (încercări) pentru a învăța politici eficiente. Antrenamentul în lumea reală poate fi costisitor sau lent (de exemplu, un robot poate avea nevoie de milioane de încercări pentru a stăpâni o sarcină). Din acest motiv, multe sisteme RL sunt antrenate în simulare înainte de implementare.

Proiectarea Recompensei

Definirea unei funcții de recompensă adecvate este dificilă. O recompensă aleasă prost poate conduce la comportamente neintenționate (agentul poate „manipula” recompensa într-un mod care nu corespunde obiectivului real). Proiectarea recompenselor care surprind obiective pe termen lung fără scurtături neintenționate este o artă în cercetarea RL.

Stabilitate și Siguranță

În medii reale (robotică, sănătate, finanțe), acțiunile exploratorii nesigure pot fi periculoase sau costisitoare. Experimentarea în lumea reală (de exemplu, zborul unui dronă) poate să nu fie practică fără simulare. Asigurarea siguranței în timpul învățării și implementării este un domeniu activ de cercetare în RL.

Interpretabilitate

Politicile RL învățate (în special modelele RL profunde) pot fi opace. Înțelegerea motivului pentru care un agent ia anumite acțiuni este adesea dificilă, ceea ce face dificilă depanarea sau încrederea în sistem. Această lipsă de interpretabilitate este notată ca o provocare la implementarea sistemelor RL complexe.
Cercetare Continuă: Fiecare dintre aceste provocări este subiectul cercetărilor continue. În ciuda obstacolelor, succesele practice ale RL (în jocuri, robotică, sisteme de recomandare etc.) demonstrează că, aplicat cu grijă, RL poate obține rezultate impresionante.
Provocările Învățării prin Recompensare
Provocările implementării învățării prin recompensare

Concluzie

În rezumat, învățarea prin recompensare este un cadru de învățare autonomă în care un agent învață să atingă obiective prin interacțiunea cu mediul său și maximizarea recompensei cumulative. Combină idei din controlul optim, programarea dinamică și psihologia comportamentală și este fundamentul multor progrese moderne în AI.

Prin formularea problemelor ca sarcini de luare a deciziilor secvențiale cu feedback, RL permite mașinilor să învețe comportamente complexe pe cont propriu, făcând legătura între învățarea bazată pe date și acțiunea orientată spre obiective.

Referințe externe
Acest articol a fost compilat cu referire la următoarele surse externe:
96 articole
Rosie Ha este autoarea la Inviai, specializată în împărtășirea cunoștințelor și soluțiilor privind inteligența artificială. Cu experiență în cercetare și aplicarea AI în diverse domenii precum afaceri, creație de conținut și automatizare, Rosie Ha oferă articole clare, practice și inspiraționale. Misiunea sa este să ajute oamenii să valorifice eficient AI pentru a crește productivitatea și a extinde capacitățile creative.
Caută