Je, Nini Kujifunza kwa Kuimarisha?

Kujifunza kwa Kuimarisha (RL) ni tawi la ujifunzaji wa mashine ambapo wakala hujifunza kufanya maamuzi kwa kuingiliana na mazingira. Katika RL, lengo la wakala ni kujifunza sera (mkakati) wa kuchagua vitendo vinavyoongeza thawabu iliyokusanywa kwa muda.

Tofauti na ujifunzaji uliosimamiwa, unaohitaji mifano iliyo na lebo, RL hutegemea maoni ya jaribio na kosa: vitendo vinavyotoa matokeo chanya (thawabu) huimarishwa, wakati vitendo vinavyosababisha matokeo hasi (adhabu) huachwa.

Kama Sutton na Barto wanavyosema, RL ni "njia ya kihesabu kuelewa na kuendesha ujifunzaji na uamuzi unaolenga malengo" ambapo wakala hujifunza kupitia kuingiliana moja kwa moja na mazingira yake, bila hitaji la usimamizi wa nje au mfano kamili wa dunia.

Katika matumizi, hii inamaanisha wakala huendelea kuchunguza nafasi ya hali-vitendo, akitazama matokeo ya vitendo vyake, na kurekebisha mkakati wake ili kuboresha thawabu za baadaye.

Dhahiri Muhimu na Vipengele

Kujifunza kwa kuimarisha kunahusisha vipengele kadhaa muhimu. Kwa ujumla, wakala (mwanafunzi au chombo cha kufanya maamuzi) huingiliana na mazingira (mfumo wa nje au eneo la tatizo) kwa kuchukua vitendo katika hatua za wakati zilizotengwa.

Kila hatua wakala hutazama hali ya sasa ya mazingira, huchukua kitendo, kisha hupokea thawabu (ishara ya maoni ya nambari) kutoka kwa mazingira. Kupitia mwingiliano mingi, wakala hujaribu kuongeza jumla ya thawabu zake. Dhahiri muhimu ni:

Wakala: Mwanafunzi huru (mfano programu ya AI au roboti) anayefanya maamuzi.
Mazingira: Dunia au eneo la tatizo ambalo wakala huingiliana nalo. Mazingira hutoa hali ya sasa kwa wakala na kuhesabu thawabu kulingana na kitendo cha wakala.
Kitendo: Uamuzi au hatua inayochukuliwa na wakala kuathiri mazingira. Vitendo tofauti vinaweza kusababisha hali na thawabu tofauti.
Hali: Uwiano wa mazingira kwa wakati fulani (mfano, nafasi ya vipande kwenye ubao wa mchezo au vipimo vya sensa kwenye roboti). Wakala hutumia hali hii kuamua kitendo chake kinachofuata.
Thawabu: Ishara ya maoni ya nambari (chanya, hasi, au sifuri) inayotolewa na mazingira baada ya kila kitendo. Inapima faida ya papo hapo (au gharama) ya kitendo. Lengo la wakala ni kuongeza thawabu inayotarajiwa kukusanywa kwa muda.
Sera: Mkakati wa wakala wa kuchagua vitendo, kawaida ni ramani kutoka hali hadi vitendo. Kupitia ujifunzaji, wakala hujaribu kupata sera bora au karibu bora.
Kazi ya thamani (au kurudi): Makadirio ya thawabu inayotarajiwa ya baadaye (thawabu iliyokusanywa) ambayo wakala atapata kutoka kwa hali fulani (au jozi ya hali-kitendo). Kazi ya thamani husaidia wakala kutathmini matokeo ya muda mrefu ya vitendo.
Mfano (hiari): Katika RL inayotegemea mfano, wakala hujenga mfano wa ndani wa mienendo ya mazingira (jinsi hali zinavyobadilika kutokana na vitendo) na hutumia kupanga. Katika RL isiyotegemea mfano, hakuna mfano kama huo; wakala hujifunza tu kutoka kwa uzoefu wa jaribio na kosa.

Dhahiri Muhimu na Vipengele vya Kujifunza kwa Kuimarisha

Jinsi Kujifunza kwa Kuimarisha Kunavyofanya Kazi

RL mara nyingi huwekwa rasmi kama mchakato wa uamuzi wa Markov (MDP). Kila hatua ya wakati, wakala hutazama hali St na kuchagua kitendo At. Mazingira kisha hubadilika hadi hali mpya St+1 na kutoa thawabu Rt+1 kulingana na kitendo kilichochukuliwa.

Kupitia vipindi vingi, wakala hukusanya uzoefu kwa mfululizo wa hali-vitendo-thawabu. Kwa kuchambua vitendo vilivyotoa thawabu kubwa, wakala huendeleza sera yake polepole.

Muhimu, matatizo ya RL yanahusisha mzozo kati ya uchunguzi na utumiaji. Wakala lazima atumie vitendo bora anavyovijua kupata thawabu, lakini pia achunguze vitendo vipya vinavyoweza kuleta matokeo bora zaidi.

Kwa mfano, wakala wa kujifunza kwa kuimarisha anayeendesha roboti anaweza kuchukua njia salama iliyothibitishwa (utumiaji) lakini mara nyingine ajaribu njia mpya (uchunguzi) ili kugundua njia fupi zaidi. Kusawazisha mzozo huu ni muhimu kupata sera bora.

Mchakato wa kujifunza mara nyingi hufananishwa na mafunzo ya tabia. Kwa mfano, AWS inasema RL "huiga mchakato wa kujifunza kwa jaribio na kosa unaotumiwa na binadamu". Mtoto anaweza kujifunza kuwa kusafisha kunapata sifa wakati kurusha vitu huleta adhabu; vivyo hivyo, wakala wa RL hujifunza vitendo vinavyotoa thawabu kwa kupokea maoni chanya kwa vitendo vyema na maoni hasi kwa vibaya.

Kwa muda, wakala huunda makadirio ya thamani au sera zinazoshikilia mfululizo bora wa vitendo kufikia malengo ya muda mrefu.

Katika matumizi, algoriti za RL hukusanya thawabu kupitia vipindi na lengo ni kuongeza kurudi inayotarajiwa (jumla ya thawabu za baadaye). Hujifunza kupendelea vitendo vinavyoleta thawabu kubwa za baadaye, hata kama vitendo hivyo havileti thawabu kubwa papo hapo. Uwezo huu wa kupanga kwa faida ya muda mrefu (mara nyingine ukikubali madhara ya muda mfupi) hufanya RL kufaa kwa kazi ngumu za maamuzi mfululizo.

Jinsi Kujifunza kwa Kuimarisha Kunavyofanya Kazi

Aina za Algoriti za Kujifunza kwa Kuimarisha

Kuna algoriti nyingi za kutekeleza kujifunza kwa kuimarisha. Kwa ujumla, zinagawanyika katika makundi mawili: zinazotegemea mfano na zisizotegemea mfano.

RL Inayotegemea Mfano: Wakala kwanza hujifunza au anajua mfano wa mienendo ya mazingira (jinsi hali zinavyobadilika na jinsi thawabu zinavyotolewa) kisha anapanga vitendo kwa kuiga matokeo. Kwa mfano, roboti inayopanga ramani ya jengo kutafuta njia fupi zaidi hutumia njia inayotegemea mfano.
RL Isiyotegemea Mfano: Wakala hana mfano wazi wa mazingira na hujifunza tu kwa jaribio na kosa katika mazingira halisi (au yaliyotengenezwa). Badala ya kupanga kwa mfano, huboresha makadirio ya thamani au sera kutoka kwa uzoefu. Algoriti nyingi za RL za kawaida (kama Q-learning au ujifunzaji wa Tofauti ya Muda) ni zisizotegemea mfano.

Ndani ya makundi haya, algoriti hutofautiana jinsi zinavyowakilisha na kuboresha sera au kazi ya thamani. Kwa mfano, Q-learning (njia inayotegemea thamani) hujifunza makadirio ya "Q-values" (kurudi inayotarajiwa) kwa jozi za hali-kitendo na kuchagua kitendo chenye thamani kubwa zaidi.

Njia za mwinuko wa sera huweka sera moja kwa moja na kurekebisha vigezo vyake kwa mwinuko wa mwinuko juu ya thawabu inayotarajiwa. Njia nyingi za hali ya juu (kama Actor-Critic au Trust Region Policy Optimization) huunganisha makadirio ya thamani na uboreshaji wa sera.

Maendeleo makubwa ya hivi karibuni ni Kujifunza kwa Kuimarisha kwa Kina. Hapa, mitandao ya neva ya kina hutumika kama makadirio ya kazi za thamani au sera, kuruhusu RL kushughulikia pembejeo zenye vipimo vingi kama picha. Mafanikio ya DeepMind kwenye michezo ya Atari na michezo ya bodi (kama AlphaGo katika Go) yanatokana na mchanganyiko wa ujifunzaji wa kina na RL. Katika RL ya kina, algoriti kama Deep Q-Networks (DQN) au Deep Policy Gradients huongeza RL kwa kazi ngumu za dunia halisi.

Kwa mfano, AWS inasema algoriti za kawaida za RL ni pamoja na Q-learning, njia za Monte Carlo, njia za mwinuko wa sera, na ujifunzaji wa Tofauti ya Muda, na kwamba "Deep RL" inahusu matumizi ya mitandao ya neva ya kina katika njia hizi.

Matumizi ya Kujifunza kwa Kuimarisha

Kujifunza kwa kuimarisha kunatumika katika nyanja nyingi ambapo maamuzi mfululizo chini ya hali ya kutokuwa na uhakika ni muhimu. Matumizi muhimu ni pamoja na:

Michezo na Mifano: RL imefanikiwa sana katika michezo na simulators. Kwa mfano, AlphaGo na AlphaZero za DeepMind zilijifunza Go na Chess kwa viwango vya juu zaidi kwa kutumia RL. Michezo ya video (Atari, StarCraft) na simulators (fizikia, roboti) ni maeneo mazuri ya majaribio ya RL kwa sababu mazingira ni wazi na majaribio mengi yanawezekana.
Robotics na Udhibiti: Roboti huru na magari yanayojiendesha ni wakala katika mazingira yanayobadilika. Kwa jaribio na kosa, RL inaweza kumfundisha roboti kushika vitu au gari kuendesha trafiki. IBM inasema roboti na magari yanayojiendesha ni mifano bora ya wakala wa RL wanaojifunza kwa kuingiliana na mazingira yao.
Mifumo ya Mapendekezo na Masoko: RL inaweza kubinafsisha maudhui au matangazo kulingana na mwingiliano wa watumiaji. Kwa mfano, mpendekeza wa RL huboresha mapendekezo yake wakati watumiaji wanabonyeza au kuruka vitu, kujifunza kuonyesha matangazo au bidhaa zinazofaa zaidi kwa muda.
Uboreshaji wa Rasilimali: RL ni hodari katika kuboresha mifumo yenye malengo ya muda mrefu. Mifano ni pamoja na kurekebisha baridi ya vituo vya data kupunguza matumizi ya nishati, kudhibiti uhifadhi wa nishati katika gridi mahiri, au kusimamia rasilimali za kompyuta za wingu. AWS inaelezea matumizi kama "uboresha matumizi ya wingu," ambapo wakala wa RL hujifunza kugawa rasilimali kwa ufanisi wa gharama.
Fedha na Biashara: Masoko ya fedha ni ya mfululizo na yanayobadilika. RL imetumika kuboresha mikakati ya biashara, usimamizi wa pochi, na ulinzi kwa kuiga biashara na kujifunza vitendo vinavyoongeza faida chini ya mabadiliko ya soko.

Mifano hii inaonyesha nguvu ya RL katika upangaji wa muda mrefu. Tofauti na njia zinazotabiri matokeo ya papo hapo tu, RL huongeza thawabu zilizokusanywa, na kufanya iwe bora kwa matatizo ambapo vitendo vina matokeo ya kuchelewa.

Matumizi ya Kujifunza kwa Kuimarisha

Kujifunza kwa Kuimarisha dhidi ya Ujifunzaji Mwingine wa Mashine

Kujifunza kwa kuimarisha ni mojawapo ya mifumo mikuu mitatu ya ujifunzaji wa mashine (pamoja na ujifunzaji uliosimamiwa na usio na usimamizi), lakini lina tofauti kubwa katika mtazamo. Ujifunzaji uliosimamiwa hujifunza kwa kutumia mifano iliyo na lebo, wakati ujifunzaji usio na usimamizi hutafuta mifumo katika data isiyo na lebo.

Kinyume chake, RL huhitaji mifano iliyo na lebo ya tabia sahihi. Badala yake, linaelezea lengo kupitia ishara ya thawabu na hujifunza kwa jaribio na kosa. Katika RL, "data ya mafunzo" (mfululizo wa hali-vitendo-thawabu) ni mfululizo na hutegemeana, kwa sababu kila kitendo kinaathiri hali za baadaye.

Kwa maneno rahisi, ujifunzaji uliosimamiwa hueleza mfano nini kutabiri; kujifunza kwa kuimarisha hufundisha wakala jinsi ya kutenda. Kama muhtasari wa IBM unavyosema, RL hujifunza kwa "kuimarishwa chanya" (thawabu) badala ya kuonyeshwa majibu sahihi.

Hii hufanya RL kuwa na nguvu hasa kwa kazi zinazohusisha maamuzi na udhibiti. Hata hivyo, pia inamaanisha RL inaweza kuwa changamoto zaidi: bila maoni ya lebo, wakala lazima agundue vitendo vyema peke yake, mara nyingi ikihitaji uchunguzi mwingi wa mazingira.

Kujifunza kwa Kuimarisha dhidi ya Ujifunzaji Mwingine wa Mashine

Changamoto za Kujifunza kwa Kuimarisha

Licha ya nguvu zake, RL inakumbwa na changamoto za vitendo:

Ukosefu wa Ufanisi wa Sampuli: RL mara nyingi huhitaji uzoefu mwingi sana (majaribio) kujifunza sera bora. Mafunzo katika dunia halisi yanaweza kuwa ghali au polepole (mfano, roboti inaweza kuhitaji majaribio milioni kufanikisha kazi). Kwa sababu hii, mifumo mingi ya RL hujifunza katika simulasi kabla ya kutumika.
Ubunifu wa Thawabu: Kuweka kazi ya thawabu inayofaa ni changamoto. Thawabu isiyochaguliwa vizuri inaweza kusababisha tabia zisizotarajiwa (wakala anaweza "kuchezea" thawabu kwa njia isiyoendana na lengo halisi). Kubuni thawabu zinazoshikilia malengo ya muda mrefu bila njia fupi zisizotarajiwa ni sanaa katika utafiti wa RL.
Utulivu na Usalama: Katika mazingira halisi (roboti, afya, fedha), vitendo hatari vya uchunguzi vinaweza kuwa hatari au ghali. AWS inasema majaribio halisi (mfano, kurusha drone) yanaweza kuwa si vitendo bila simulasi. Kuhakikisha usalama wakati wa kujifunza na kutekeleza ni eneo linaloendelea la utafiti wa RL.
Ufafanuzi: Sera za RL zilizojifunza (hasa mifano ya RL ya kina) zinaweza kuwa ngumu kueleweka. Kuelewa kwanini wakala huchukua vitendo fulani ni vigumu, na kufanya ugunduzi wa hitilafu au kuamini mfumo kuwa changamoto. Ukosefu huu wa ufafanuzi unatajwa kama changamoto ya kutekeleza mifumo tata ya RL.

Kila moja ya changamoto hizi ni mada ya utafiti unaoendelea. Licha ya vizingiti, mafanikio ya vitendo ya RL (katika michezo, roboti, mifumo ya mapendekezo, n.k.) yanaonyesha kuwa inapotekelezwa kwa uangalifu, RL inaweza kufanikisha matokeo ya kuvutia.

>>>Bonyeza kujifunza zaidi kuhusu:

Je, AI ya Kizazi ni Nini?

Neural Network ni nini?

Changamoto za Kujifunza kwa Kuimarisha

Kwa muhtasari, kujifunza kwa kuimarisha ni mfumo huru wa kujifunza ambapo wakala hujifunza kufikia malengo kwa kuingiliana na mazingira yake na kuongeza thawabu iliyokusanywa. Inachanganya mawazo kutoka kwa udhibiti bora, programu ya mabadiliko, na saikolojia ya tabia, na ni msingi wa mafanikio mengi ya kisasa ya AI.

Kwa kuweka matatizo kama kazi za maamuzi mfululizo zenye maoni, RL huruhusu mashine kujifunza tabia ngumu peke yake, ikiziba pengo kati ya ujifunzaji unaotegemea data na hatua zinazolenga malengo.

External References

This article has been compiled with reference to the following external sources: