Nini ni Kujifunza kwa Kuimarisha?

Kujifunza kwa Kuimarisha (RL) ni tawi la kujifunza kwa mashine ambapo wakala hujifunza kufanya maamuzi kwa kuingiliana na mazingira yake. Katika RL, lengo la wakala ni kujifunza sera (mkakati) wa kuchagua vitendo vinavyoongeza zawadi jumla kwa muda.

Kujifunza kwa Kuimarisha (RL) ni tawi la kujifunza kwa mashine ambapo wakala hujifunza kufanya maamuzi kwa kuingiliana na mazingira. Katika RL, lengo la wakala ni kujifunza sera (mkakati) wa kuchagua vitendo vinavyoongeza zawadi jumla kwa muda.

Tofauti na kujifunza kwa usimamizi, ambako mifano iliyo na lebo inahitajika, RL hutegemea maoni ya jaribio na kosa: vitendo vinavyotoa matokeo chanya (zawadi) huimarishwa, wakati vitendo vinavyotoa matokeo hasi (adhabu) huachwa.

RL ni kwa msingi "njia ya kihesabu kuelewa na kuendesha kujifunza na kufanya maamuzi yanayolenga malengo" ambapo wakala hujifunza kutoka kwa mwingiliano wa moja kwa moja na mazingira yake, bila kuhitaji usimamizi wa nje au mfano kamili wa dunia.

— Sutton na Barto, Watafiti wa Kujifunza kwa Kuimarisha

Kwenye vitendo, hii inamaanisha wakala huendelea kuchunguza nafasi ya hali-vitendo, akitazama matokeo ya vitendo vyake, na kurekebisha mkakati wake ili kuboresha zawadi za baadaye.

Dhana Muhimu na Vipengele

Kujifunza kwa kuimarisha kunahusisha vipengele kadhaa vya msingi. Kwa ujumla, wakala (mwanafunzi au chombo cha kufanya maamuzi) huingiliana na mazingira (mfumo wa nje au eneo la tatizo) kwa kuchukua vitendo katika hatua za wakati zilizotengwa.

Kila hatua wakala hutazama hali ya sasa ya mazingira, huchukua kitendo, kisha hupokea zawadi (ishara ya maoni ya nambari) kutoka kwa mazingira. Kupitia mwingiliano mwingi, wakala anatafuta kuongeza jumla ya zawadi yake.

Wakala

Mwanafunzi huru (mfano programu ya AI au roboti) anayefanya maamuzi.

Mazingira

Dunia au eneo la tatizo ambalo wakala huingiliana nalo. Mazingira hutoa hali ya sasa kwa wakala na huhesabu zawadi kulingana na kitendo cha wakala.

Kitendo

Uamuzi au hatua inayochukuliwa na wakala kuathiri mazingira. Vitendo tofauti vinaweza kusababisha hali na zawadi tofauti.

Hali

Uwakilishi wa mazingira kwa wakati fulani (kwa mfano, nafasi ya vipande kwenye ubao wa mchezo au vipimo vya sensa kwenye roboti). Wakala hutumia hali kuamua kitendo chake kinachofuata.

Zawadi

Ishara ya maoni ya nambari (chanya, hasi, au sifuri) inayotolewa na mazingira baada ya kila kitendo. Inapima faida ya papo hapo (au gharama) ya kitendo. Lengo la wakala ni kuongeza zawadi inayotarajiwa jumla kwa muda.

Sera

Mkakati wa wakala wa kuchagua vitendo, kawaida ni ramani kutoka hali hadi vitendo. Kupitia kujifunza, wakala anakusudia kupata sera bora au karibu bora.

Kazi ya Thamani

Makadirio ya zawadi inayotarajiwa ya baadaye (zawadi jumla) ambayo wakala atapata kutoka kwa hali fulani (au jozi ya hali-kitendo). Kazi ya thamani husaidia wakala kutathmini matokeo ya muda mrefu ya vitendo.

Mfano (Hiari)

Katika RL inayotegemea mfano, wakala hujenga mfano wa ndani wa mienendo ya mazingira (jinsi hali zinavyobadilika kutokana na vitendo) na hutumia kupanga. Katika RL isiyotegemea mfano, hakuna mfano kama huo; wakala hujifunza tu kutoka kwa uzoefu wa jaribio na kosa.
Dhana Muhimu na Vipengele Kujifunza kwa Kuimarisha
Dhana muhimu na vipengele vya mfumo wa kujifunza kwa kuimarisha

Jinsi Kujifunza kwa Kuimarisha Kunavyofanya Kazi

RL mara nyingi huundwa kama mchakato wa maamuzi wa Markov (MDP). Kila hatua ya wakati, wakala hutazama hali St na kuchagua kitendo At. Mazingira kisha hubadilika hadi hali mpya St+1 na kutoa zawadi Rt+1 kulingana na kitendo kilichochukuliwa.

Kupitia vipindi vingi, wakala hukusanya uzoefu kwa mfuatano wa hali-vitendo-zawadi. Kwa kuchambua vitendo vilivyosababisha zawadi kubwa, wakala polepole huboresha sera yake.

Uchunguzi dhidi ya Matumizi: Masuala ya RL yanahusisha mzozo muhimu kati ya uchunguzi na matumizi. Wakala lazima atumie vitendo bora anavyojua kupata zawadi, lakini pia achunguze vitendo vipya vinavyoweza kuleta matokeo bora zaidi.

Kwa mfano, wakala wa kujifunza kwa kuimarisha anayeendesha roboti anaweza kawaida kuchukua njia salama iliyothibitishwa (matumizi) lakini wakati mwingine ajaribu njia mpya (uchunguzi) ili kugundua njia ya haraka zaidi. Kusawazisha mzozo huu ni muhimu kupata sera bora.

RL "huiga mchakato wa kujifunza kwa jaribio na kosa unaotumiwa na binadamu". Mtoto anaweza kujifunza kuwa kusafisha kunapata sifa wakati kurusha vitu kunapata lawama; vivyo hivyo, wakala wa RL hujifunza vitendo vinavyotoa zawadi kwa kupokea maoni chanya kwa vitendo vyema na maoni hasi kwa vitendo vibaya.

— Nyaraka za Kujifunza kwa Mashine za AWS

Kupitia muda, wakala huunda makadirio ya thamani au sera zinazoshikilia mfuatano bora wa vitendo kufikia malengo ya muda mrefu.

Kwenye vitendo, algoriti za RL hukusanya zawadi kupitia vipindi na kusudio la kuongeza rudi inayotarajiwa (jumla ya zawadi za baadaye). Hujifunza kupendelea vitendo vinavyopelekea zawadi kubwa za baadaye, hata kama vitendo hivyo havitoi zawadi kubwa papo hapo. Uwezo huu wa kupanga kwa faida ya muda mrefu (wakati mwingine ukikubali madhara ya muda mfupi) hufanya RL kufaa kwa kazi ngumu za maamuzi mfululizo.

Jinsi Kujifunza kwa Kuimarisha Kunavyofanya Kazi
Jinsi kujifunza kwa kuimarisha kunavyofanya kazi kwa vitendo

Aina za Algoriti za Kujifunza kwa Kuimarisha

Kuna algoriti nyingi za kutekeleza kujifunza kwa kuimarisha. Kwa ujumla, zinagawanyika katika makundi mawili: mbinu zinazotegemea mfano na mbinu zisizotegemea mfano.

RL Inayotegemea Mfano

Mbinu ya Kupanga

Wakala kwanza hujifunza au anajua mfano wa mienendo ya mazingira (jinsi hali zinavyobadilika na jinsi zawadi zinavyotolewa) kisha anapanga vitendo kwa kuiga matokeo.

  • Inafanya kazi vizuri na data chache
  • Inaweza kupanga mbele kwa ufanisi
  • Inahitaji mfano sahihi wa mazingira

Mfano: Roboti anayopanga ramani ya jengo kupata njia fupi zaidi anatumia mbinu inayotegemea mfano.

RL Isiyotegemea Mfano

Kujifunza Moja kwa Moja

Wakala hana mfano wazi wa mazingira na hujifunza tu kutoka kwa jaribio na kosa katika mazingira halisi (au yaliyofanyiwa majaribio).

  • Hakuna hitaji la mfano wa mazingira
  • Inafanya kazi na mazingira magumu
  • Inahitaji uzoefu zaidi

Mfano: Algoriti nyingi za RL za kawaida (kama Q-learning au kujifunza kwa Tofauti ya Muda) ni zisizotegemea mfano.

Katikati ya makundi haya, algoriti hutofautiana jinsi zinavyowakilisha na kusasisha sera au kazi ya thamani. Kwa mfano, Q-learning (mbinu inayotegemea thamani) hujifunza makadirio ya "Q-values" (rudi inayotarajiwa) kwa jozi za hali-vitendo na huchagua kitendo chenye thamani kubwa zaidi.

Mbinu za mwinuko wa sera huweka sera moja kwa moja na kurekebisha vigezo vyake kupitia mwinuko wa mwinuko juu ya zawadi inayotarajiwa. Mbinu nyingi za hali ya juu (kama Actor-Critic au Trust Region Policy Optimization) huunganisha makadirio ya thamani na uboreshaji wa sera.

Kujifunza kwa Kuimarisha Kina: Maendeleo makubwa ya hivi karibuni ambapo mitandao ya neva ya kina hutumika kama makadirio ya kazi za thamani au sera, kuruhusu RL kushughulikia pembejeo zenye vipimo vikubwa kama picha. Mafanikio ya DeepMind kwenye michezo ya Atari na michezo ya bodi (kama AlphaGo katika Go) yanatokana na mchanganyiko wa kujifunza kwa kina na RL.

Kwenye RL ya kina, algoriti kama Deep Q-Networks (DQN) au Deep Policy Gradients huongeza RL kwa kazi ngumu za dunia halisi.

Algoriti za kawaida za RL ni pamoja na Q-learning, mbinu za Monte Carlo, mbinu za mwinuko wa sera, na kujifunza kwa Tofauti ya Muda, na "Deep RL" inahusu matumizi ya mitandao ya neva ya kina katika mbinu hizi.

— Nyaraka za Kujifunza kwa Mashine za AWS
Aina za Algoriti za Kujifunza kwa Kuimarisha
Aina za algoriti za kujifunza kwa kuimarisha

Matumizi ya Kujifunza kwa Kuimarisha

Kujifunza kwa kuimarisha kunatumika katika maeneo mengi ambapo maamuzi mfululizo chini ya hali ya kutokuwa na uhakika ni muhimu. Matumizi muhimu ni pamoja na:

Michezo na Mifano

RL ilijulikana kwa kumiliki michezo na mifano. AlphaGo na AlphaZero za DeepMind walijifunza Go na Chess kwa viwango vya juu zaidi ya binadamu kwa kutumia RL.

  • Michezo ya video (Atari, StarCraft)
  • Michezo ya bodi (Go, Chess)
  • Mifano ya fizikia
  • Mifano ya roboti

Roboti na Udhibiti

Roboti huru na magari yanayojiendesha ni wakala katika mazingira yanayobadilika yanayojifunza kupitia jaribio na kosa.

  • Kushika na kudhibiti vitu
  • Uendeshaji huru
  • Magari yanayojiendesha
  • Uendeshaji wa viwanda

Mifumo ya Mapendekezo

RL inaweza kubinafsisha maudhui au matangazo kulingana na mwingiliano wa mtumiaji, ikijifunza kuwasilisha vitu vinavyofaa zaidi kwa muda.

  • Ubinafsishaji wa maudhui
  • Uboreshaji wa kulenga matangazo
  • Mapendekezo ya bidhaa
  • Uboreshaji wa ushiriki wa mtumiaji

Uboreshaji wa Rasilimali

RL hujivunia katika kuboresha mifumo yenye malengo ya muda mrefu na changamoto za mgawanyo wa rasilimali tata.

  • Uboreshaji wa baridi katika vituo vya data
  • Uhifadhi wa nishati katika gridi mahiri
  • Rasilimali za kompyuta za wingu
  • Usimamizi wa mnyororo wa usambazaji

Fedha na Biashara

Soko la fedha ni la mfululizo na linalobadilika, likifanya RL kufaa kwa mikakati ya biashara na usimamizi wa pochi.

  • Mikakati ya biashara ya algoriti
  • Uboreshaji wa pochi
  • Usimamizi wa hatari
  • Uundaji wa soko
Faida ya Mipango ya Muda Mrefu: Matumizi haya yanaonyesha nguvu ya RL katika mpango wa muda mrefu. Tofauti na mbinu zinazotabiri matokeo ya papo hapo tu, RL huongeza wazi zawadi jumla, ikifanya iwe bora kwa matatizo ambapo vitendo vina matokeo ya kuchelewa.
Matumizi ya Kujifunza kwa Kuimarisha
Matumizi ya kujifunza kwa kuimarisha katika sekta mbalimbali

Kujifunza kwa Kuimarisha dhidi ya Kujifunza Kingine cha Mashine

Kujifunza kwa kuimarisha ni mojawapo ya mifumo mikuu mitatu ya kujifunza kwa mashine (pamoja na kujifunza kwa usimamizi na kujifunza bila usimamizi), lakini ni tofauti sana kwa mtazamo. Kujifunza kwa usimamizi hufunzwa kwa jozi za pembejeo-toa lebo, wakati kujifunza bila usimamizi hutafuta mifumo katika data isiyo na lebo.

Sehemu Kujifunza kwa Usimamizi Kujifunza Bila Usimamizi Kujifunza kwa Kuimarisha
Aina ya Data Jozi za pembejeo-toa lebo Data isiyo na lebo Mfuatano wa hali-vitendo-zawadi
Lengo la Kujifunza Tabiri matokeo sahihi Gundua mifumo iliyofichwa Ongeza zawadi jumla
Aina ya Maoni Majibu sahihi ya moja kwa moja Hakuna maoni Ishara za zawadi/adhabu
Mbinu ya Kujifunza Jifunza kutoka kwa mifano Gundua muundo Uchunguzi wa jaribio na kosa

Tofauti na hayo, RL haihitaji mifano iliyo na lebo ya tabia sahihi. Badala yake, hufafanua lengo kupitia ishara ya zawadi na hujifunza kwa jaribio na kosa. Katika RL, "data ya mafunzo" (mfuatano wa hali-vitendo-zawadi) ni mfuatano na hutegemeana, kwa sababu kila kitendo huathiri hali za baadaye.

Kwa ufupi, kujifunza kwa usimamizi hueleza mfano kile cha kutabiri; kujifunza kwa kuimarisha hufundisha wakala jinsi ya kutenda. RL hujifunza kwa "kuimarishwa chanya" (zawadi) badala ya kuonyeshwa majibu sahihi.

— Muhtasari wa Kujifunza kwa Mashine wa IBM

Hii hufanya RL kuwa yenye nguvu hasa kwa kazi zinazohusisha maamuzi na udhibiti. Hata hivyo, pia inamaanisha RL inaweza kuwa changamoto zaidi: bila maoni yaliyo na lebo, wakala lazima agundue vitendo vyema peke yake, mara nyingi ikihitaji uchunguzi mwingi wa mazingira.

Kujifunza kwa Kuimarisha dhidi ya Kujifunza Kingine cha Mashine
Kujifunza kwa kuimarisha dhidi ya mifumo mingine ya kujifunza kwa mashine

Changamoto za Kujifunza kwa Kuimarisha

Kwa nguvu zake, RL inakumbwa na changamoto za vitendo:

Ukosefu wa Ufanisi wa Sampuli

RL mara nyingi inahitaji uzoefu mwingi sana (jaribio) kujifunza sera bora. Mafunzo katika dunia halisi yanaweza kuwa ghali au polepole (kwa mfano, roboti inaweza kuhitaji majaribio milioni ili kumiliki kazi). Kwa sababu hii, mifumo mingi ya RL hufunzwa katika majaribio kabla ya kutumika.

Ubunifu wa Zawadi

Kufafanua kazi ya zawadi inayofaa ni changamoto. Zawadi isiyochaguliwa vizuri inaweza kusababisha tabia zisizotarajiwa (wakala anaweza "kuchezea" zawadi kwa njia isiyoendana na lengo halisi). Kubuni zawadi zinazoshikilia malengo ya muda mrefu bila njia fupi zisizotarajiwa ni sanaa katika utafiti wa RL.

Utulivu na Usalama

Katika mazingira halisi (roboti, afya, fedha), vitendo hatari vya uchunguzi vinaweza kuwa hatari au ghali. Majaribio ya dunia halisi (kama kurusha drone) yanaweza kuwa si vitendo bila majaribio. Kuhakikisha usalama wakati wa kujifunza na utekelezaji ni eneo linaloendelea la utafiti wa RL.

Ufafanuzi

Sera za RL zilizojifunza (hasa mifano ya RL ya kina) zinaweza kuwa ngumu kueleweka. Kuelewa kwanini wakala huchukua vitendo fulani mara nyingi ni vigumu, na kufanya ugunduzi wa hitilafu au kuamini mfumo kuwa changamoto. Ukosefu huu wa ufafanuzi umeelezwa kama changamoto ya utekelezaji kwa mifumo tata ya RL.
Utafiti Unaendelea: Kila moja ya changamoto hizi ni somo la utafiti unaoendelea. Licha ya vizingiti, mafanikio ya vitendo ya RL (katika michezo, roboti, mifumo ya mapendekezo, n.k.) yanaonyesha kuwa inapowekwa kwa uangalifu, RL inaweza kufanikisha matokeo ya kuvutia.
Changamoto za Kujifunza kwa Kuimarisha
Changamoto za utekelezaji wa kujifunza kwa kuimarisha

Hitimisho

Kwa muhtasari, kujifunza kwa kuimarisha ni mfumo huru wa kujifunza

Kwa kuweka matatizo kama kazi za maamuzi mfululizo zenye maoni, RL huruhusu mashine kujifunza tabia tata peke yake, ikiziba pengo kati ya kujifunza kwa data na hatua zinazolenga malengo.

Chunguza makala zaidi zinazohusiana
Marejeo ya Nje
Makala hii imetayarishwa kwa kuzingatia vyanzo vya nje vifuatavyo:
96 makala
Rosie Ha ni mwandishi wa Inviai, mtaalamu wa kushiriki maarifa na suluhisho kuhusu akili bandia. Kwa uzoefu wa kufanya utafiti na kutumia AI katika nyanja mbalimbali kama biashara, ubunifu wa maudhui, na uendeshaji wa kiotomatiki, Rosie Ha huleta makala zinazoweza kueleweka kwa urahisi, za vitendo na zenye kuhamasisha. Dhamira ya Rosie Ha ni kusaidia watu kutumia AI kwa ufanisi ili kuongeza uzalishaji na kupanua uwezo wa ubunifu.
Tafuta