Nini ni Kujifunza kwa Kuimarisha?
Kujifunza kwa Kuimarisha (RL) ni tawi la kujifunza kwa mashine ambapo wakala hujifunza kufanya maamuzi kwa kuingiliana na mazingira yake. Katika RL, lengo la wakala ni kujifunza sera (mkakati) wa kuchagua vitendo vinavyoongeza zawadi jumla kwa muda.
Kujifunza kwa Kuimarisha (RL) ni tawi la kujifunza kwa mashine ambapo wakala hujifunza kufanya maamuzi kwa kuingiliana na mazingira. Katika RL, lengo la wakala ni kujifunza sera (mkakati) wa kuchagua vitendo vinavyoongeza zawadi jumla kwa muda.
Tofauti na kujifunza kwa usimamizi, ambako mifano iliyo na lebo inahitajika, RL hutegemea maoni ya jaribio na kosa: vitendo vinavyotoa matokeo chanya (zawadi) huimarishwa, wakati vitendo vinavyotoa matokeo hasi (adhabu) huachwa.
RL ni kwa msingi "njia ya kihesabu kuelewa na kuendesha kujifunza na kufanya maamuzi yanayolenga malengo" ambapo wakala hujifunza kutoka kwa mwingiliano wa moja kwa moja na mazingira yake, bila kuhitaji usimamizi wa nje au mfano kamili wa dunia.
— Sutton na Barto, Watafiti wa Kujifunza kwa Kuimarisha
Kwenye vitendo, hii inamaanisha wakala huendelea kuchunguza nafasi ya hali-vitendo, akitazama matokeo ya vitendo vyake, na kurekebisha mkakati wake ili kuboresha zawadi za baadaye.
Dhana Muhimu na Vipengele
Kujifunza kwa kuimarisha kunahusisha vipengele kadhaa vya msingi. Kwa ujumla, wakala (mwanafunzi au chombo cha kufanya maamuzi) huingiliana na mazingira (mfumo wa nje au eneo la tatizo) kwa kuchukua vitendo katika hatua za wakati zilizotengwa.
Kila hatua wakala hutazama hali ya sasa ya mazingira, huchukua kitendo, kisha hupokea zawadi (ishara ya maoni ya nambari) kutoka kwa mazingira. Kupitia mwingiliano mwingi, wakala anatafuta kuongeza jumla ya zawadi yake.
Wakala
Mazingira
Kitendo
Hali
Zawadi
Sera
Kazi ya Thamani
Mfano (Hiari)

Jinsi Kujifunza kwa Kuimarisha Kunavyofanya Kazi
RL mara nyingi huundwa kama mchakato wa maamuzi wa Markov (MDP). Kila hatua ya wakati, wakala hutazama hali St na kuchagua kitendo At. Mazingira kisha hubadilika hadi hali mpya St+1 na kutoa zawadi Rt+1 kulingana na kitendo kilichochukuliwa.
Kupitia vipindi vingi, wakala hukusanya uzoefu kwa mfuatano wa hali-vitendo-zawadi. Kwa kuchambua vitendo vilivyosababisha zawadi kubwa, wakala polepole huboresha sera yake.
Kwa mfano, wakala wa kujifunza kwa kuimarisha anayeendesha roboti anaweza kawaida kuchukua njia salama iliyothibitishwa (matumizi) lakini wakati mwingine ajaribu njia mpya (uchunguzi) ili kugundua njia ya haraka zaidi. Kusawazisha mzozo huu ni muhimu kupata sera bora.
RL "huiga mchakato wa kujifunza kwa jaribio na kosa unaotumiwa na binadamu". Mtoto anaweza kujifunza kuwa kusafisha kunapata sifa wakati kurusha vitu kunapata lawama; vivyo hivyo, wakala wa RL hujifunza vitendo vinavyotoa zawadi kwa kupokea maoni chanya kwa vitendo vyema na maoni hasi kwa vitendo vibaya.
— Nyaraka za Kujifunza kwa Mashine za AWS
Kupitia muda, wakala huunda makadirio ya thamani au sera zinazoshikilia mfuatano bora wa vitendo kufikia malengo ya muda mrefu.
Kwenye vitendo, algoriti za RL hukusanya zawadi kupitia vipindi na kusudio la kuongeza rudi inayotarajiwa (jumla ya zawadi za baadaye). Hujifunza kupendelea vitendo vinavyopelekea zawadi kubwa za baadaye, hata kama vitendo hivyo havitoi zawadi kubwa papo hapo. Uwezo huu wa kupanga kwa faida ya muda mrefu (wakati mwingine ukikubali madhara ya muda mfupi) hufanya RL kufaa kwa kazi ngumu za maamuzi mfululizo.

Aina za Algoriti za Kujifunza kwa Kuimarisha
Kuna algoriti nyingi za kutekeleza kujifunza kwa kuimarisha. Kwa ujumla, zinagawanyika katika makundi mawili: mbinu zinazotegemea mfano na mbinu zisizotegemea mfano.
Mbinu ya Kupanga
Wakala kwanza hujifunza au anajua mfano wa mienendo ya mazingira (jinsi hali zinavyobadilika na jinsi zawadi zinavyotolewa) kisha anapanga vitendo kwa kuiga matokeo.
- Inafanya kazi vizuri na data chache
 - Inaweza kupanga mbele kwa ufanisi
 - Inahitaji mfano sahihi wa mazingira
 
Mfano: Roboti anayopanga ramani ya jengo kupata njia fupi zaidi anatumia mbinu inayotegemea mfano.
Kujifunza Moja kwa Moja
Wakala hana mfano wazi wa mazingira na hujifunza tu kutoka kwa jaribio na kosa katika mazingira halisi (au yaliyofanyiwa majaribio).
- Hakuna hitaji la mfano wa mazingira
 - Inafanya kazi na mazingira magumu
 - Inahitaji uzoefu zaidi
 
Mfano: Algoriti nyingi za RL za kawaida (kama Q-learning au kujifunza kwa Tofauti ya Muda) ni zisizotegemea mfano.
Katikati ya makundi haya, algoriti hutofautiana jinsi zinavyowakilisha na kusasisha sera au kazi ya thamani. Kwa mfano, Q-learning (mbinu inayotegemea thamani) hujifunza makadirio ya "Q-values" (rudi inayotarajiwa) kwa jozi za hali-vitendo na huchagua kitendo chenye thamani kubwa zaidi.
Mbinu za mwinuko wa sera huweka sera moja kwa moja na kurekebisha vigezo vyake kupitia mwinuko wa mwinuko juu ya zawadi inayotarajiwa. Mbinu nyingi za hali ya juu (kama Actor-Critic au Trust Region Policy Optimization) huunganisha makadirio ya thamani na uboreshaji wa sera.
Kwenye RL ya kina, algoriti kama Deep Q-Networks (DQN) au Deep Policy Gradients huongeza RL kwa kazi ngumu za dunia halisi.
Algoriti za kawaida za RL ni pamoja na Q-learning, mbinu za Monte Carlo, mbinu za mwinuko wa sera, na kujifunza kwa Tofauti ya Muda, na "Deep RL" inahusu matumizi ya mitandao ya neva ya kina katika mbinu hizi.
— Nyaraka za Kujifunza kwa Mashine za AWS

Matumizi ya Kujifunza kwa Kuimarisha
Kujifunza kwa kuimarisha kunatumika katika maeneo mengi ambapo maamuzi mfululizo chini ya hali ya kutokuwa na uhakika ni muhimu. Matumizi muhimu ni pamoja na:
Michezo na Mifano
RL ilijulikana kwa kumiliki michezo na mifano. AlphaGo na AlphaZero za DeepMind walijifunza Go na Chess kwa viwango vya juu zaidi ya binadamu kwa kutumia RL.
- Michezo ya video (Atari, StarCraft)
 - Michezo ya bodi (Go, Chess)
 - Mifano ya fizikia
 - Mifano ya roboti
 
Roboti na Udhibiti
Roboti huru na magari yanayojiendesha ni wakala katika mazingira yanayobadilika yanayojifunza kupitia jaribio na kosa.
- Kushika na kudhibiti vitu
 - Uendeshaji huru
 - Magari yanayojiendesha
 - Uendeshaji wa viwanda
 
Mifumo ya Mapendekezo
RL inaweza kubinafsisha maudhui au matangazo kulingana na mwingiliano wa mtumiaji, ikijifunza kuwasilisha vitu vinavyofaa zaidi kwa muda.
- Ubinafsishaji wa maudhui
 - Uboreshaji wa kulenga matangazo
 - Mapendekezo ya bidhaa
 - Uboreshaji wa ushiriki wa mtumiaji
 
Uboreshaji wa Rasilimali
RL hujivunia katika kuboresha mifumo yenye malengo ya muda mrefu na changamoto za mgawanyo wa rasilimali tata.
- Uboreshaji wa baridi katika vituo vya data
 - Uhifadhi wa nishati katika gridi mahiri
 - Rasilimali za kompyuta za wingu
 - Usimamizi wa mnyororo wa usambazaji
 
Fedha na Biashara
Soko la fedha ni la mfululizo na linalobadilika, likifanya RL kufaa kwa mikakati ya biashara na usimamizi wa pochi.
- Mikakati ya biashara ya algoriti
 - Uboreshaji wa pochi
 - Usimamizi wa hatari
 - Uundaji wa soko
 

Kujifunza kwa Kuimarisha dhidi ya Kujifunza Kingine cha Mashine
Kujifunza kwa kuimarisha ni mojawapo ya mifumo mikuu mitatu ya kujifunza kwa mashine (pamoja na kujifunza kwa usimamizi na kujifunza bila usimamizi), lakini ni tofauti sana kwa mtazamo. Kujifunza kwa usimamizi hufunzwa kwa jozi za pembejeo-toa lebo, wakati kujifunza bila usimamizi hutafuta mifumo katika data isiyo na lebo.
| Sehemu | Kujifunza kwa Usimamizi | Kujifunza Bila Usimamizi | Kujifunza kwa Kuimarisha | 
|---|---|---|---|
| Aina ya Data | Jozi za pembejeo-toa lebo | Data isiyo na lebo | Mfuatano wa hali-vitendo-zawadi | 
| Lengo la Kujifunza | Tabiri matokeo sahihi | Gundua mifumo iliyofichwa | Ongeza zawadi jumla | 
| Aina ya Maoni | Majibu sahihi ya moja kwa moja | Hakuna maoni | Ishara za zawadi/adhabu | 
| Mbinu ya Kujifunza | Jifunza kutoka kwa mifano | Gundua muundo | Uchunguzi wa jaribio na kosa | 
Tofauti na hayo, RL haihitaji mifano iliyo na lebo ya tabia sahihi. Badala yake, hufafanua lengo kupitia ishara ya zawadi na hujifunza kwa jaribio na kosa. Katika RL, "data ya mafunzo" (mfuatano wa hali-vitendo-zawadi) ni mfuatano na hutegemeana, kwa sababu kila kitendo huathiri hali za baadaye.
Kwa ufupi, kujifunza kwa usimamizi hueleza mfano kile cha kutabiri; kujifunza kwa kuimarisha hufundisha wakala jinsi ya kutenda. RL hujifunza kwa "kuimarishwa chanya" (zawadi) badala ya kuonyeshwa majibu sahihi.
— Muhtasari wa Kujifunza kwa Mashine wa IBM
Hii hufanya RL kuwa yenye nguvu hasa kwa kazi zinazohusisha maamuzi na udhibiti. Hata hivyo, pia inamaanisha RL inaweza kuwa changamoto zaidi: bila maoni yaliyo na lebo, wakala lazima agundue vitendo vyema peke yake, mara nyingi ikihitaji uchunguzi mwingi wa mazingira.

Changamoto za Kujifunza kwa Kuimarisha
Kwa nguvu zake, RL inakumbwa na changamoto za vitendo:
Ukosefu wa Ufanisi wa Sampuli
Ubunifu wa Zawadi
Utulivu na Usalama
Ufafanuzi

Hitimisho
Kwa muhtasari, kujifunza kwa kuimarisha ni mfumo huru wa kujifunza
Kwa kuweka matatizo kama kazi za maamuzi mfululizo zenye maoni, RL huruhusu mashine kujifunza tabia tata peke yake, ikiziba pengo kati ya kujifunza kwa data na hatua zinazolenga malengo.