புதுப்பித்தல் கற்றல் என்றால் என்ன?
புதுப்பித்தல் கற்றல் (RL) என்பது ஒரு இயந்திரக் கற்றல் கிளை ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு முடிவுகளை எடுக்க கற்றுக்கொள்கிறார். RL இல், முகவரின் குறிக்கோள் என்பது காலப்போக்கில் மொத்தப் பரிசுகளை அதிகரிக்கும் செயல்களை தேர்ந்தெடுக்கும் கொள்கையை (திட்டமிடல்) கற்றுக்கொள்வதாகும்.
புதுப்பித்தல் கற்றல் (RL) என்பது ஒரு இயந்திரக் கற்றல் கிளை ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு முடிவுகளை எடுக்க கற்றுக்கொள்கிறார். RL இல், முகவரின் குறிக்கோள் என்பது காலப்போக்கில் மொத்த பரிசை அதிகரிக்கும் செயல்களை தேர்ந்தெடுக்கும் கொள்கையை (ஒரு திட்டம்) கற்றுக்கொள்வதாகும்.
குறிப்பிடப்பட்ட எடுத்துக்காட்டுகள் தேவைப்படும் மேற்பார்வை கற்றலுக்கு மாறாக, RL சோதனை-பிழை பின்னூட்டத்தை சார்ந்தது: நேர்மறை விளைவுகளை (பரிசுகள்) உண்டாக்கும் செயல்கள் வலுப்படுத்தப்படுகின்றன, எதிர்மறை விளைவுகளை (தண்டனைகள்) உண்டாக்கும் செயல்கள் தவிர்க்கப்படுகின்றன.
RL என்பது அடிப்படையில் "கோல் நோக்கி கற்றல் மற்றும் முடிவெடுப்பை புரிந்து கொண்டு தானாகச் செயல்படுவதற்கான கணினி அணுகுமுறை" ஆகும், இதில் முகவர் வெளிப்புற மேற்பார்வை அல்லது முழுமையான உலக மாதிரி தேவையின்றி தனது சூழலுடன் நேரடியாக தொடர்பு கொண்டு கற்றுக்கொள்கிறார்.
— Sutton மற்றும் Barto, புதுப்பித்தல் கற்றல் ஆராய்ச்சியாளர்கள்
விளக்கமாக, முகவர் தொடர்ந்து நிலை-செயல் பரப்பை ஆராய்ந்து, தனது செயல்களின் விளைவுகளை கவனித்து, எதிர்கால பரிசுகளை மேம்படுத்த தன் திட்டத்தை சரிசெய்கிறார்.
முக்கியக் கருத்துக்கள் மற்றும் கூறுகள்
புதுப்பித்தல் கற்றல் பல அடிப்படை கூறுகளை உள்ளடக்கியது. பொதுவாக, ஒரு முகவர் (கற்றுக்கொள்ளும் அல்லது முடிவெடுக்கும் அங்கம்) ஒரு சூழல் (வெளிப்புற அமைப்பு அல்லது பிரச்சினை பரப்பு) உடன் தொடர்பு கொண்டு செயல்களை discrete கால இடைவெளிகளில் எடுக்கிறார்.
ஒவ்வொரு கட்டத்திலும் முகவர் சூழலின் தற்போதைய நிலையை கவனித்து, ஒரு செயலை நிறைவேற்றுகிறான், பின்னர் சூழல் அந்த செயலுக்கான பரிசை (எண் வடிவில் பின்னூட்டம்) வழங்குகிறது. பல தொடர்புகளின் மூலம், முகவர் மொத்த (சேர்க்கை) பரிசை அதிகரிக்க முயல்கிறான்.
முகவர்
சூழல்
செயல்
நிலை
பரிசு
கொள்கை
மதிப்பீட்டு செயல்பாடு
மாதிரி (விருப்பமானது)

புதுப்பித்தல் கற்றல் எப்படி செயல்படுகிறது
RL பெரும்பாலும் மார்கோவ் முடிவு செயல்முறை (MDP) என வடிவமைக்கப்படுகிறது. ஒவ்வொரு discrete கால கட்டத்திலும், முகவர் ஒரு நிலை St ஐ கவனித்து, ஒரு செயல் At ஐ தேர்ந்தெடுக்கிறான். பின்னர் சூழல் புதிய நிலை St+1 க்கு மாறி, எடுத்த செயலின் அடிப்படையில் பரிசு Rt+1 ஐ வழங்குகிறது.
பல நிகழ்வுகளில், முகவர் நிலை–செயல்–பரிசு தொடர்களில் அனுபவம் சேர்க்கிறான். எந்த செயல்கள் அதிக பரிசுகளை வழங்கின என்பதை பகுப்பாய்வு செய்து, முகவர் தன் கொள்கையை மெதுவாக மேம்படுத்துகிறான்.
உதாரணமாக, ஒரு புதுப்பித்தல் கற்றல் முகவர் ஒரு ரோபோட்டை கட்டுப்படுத்தும்போது, பொதுவாக நிரூபிக்கப்பட்ட பாதுகாப்பான பாதையை (பயன்பாடு) எடுத்துக் கொள்கிறான், ஆனால் சில நேரங்களில் வேகமான பாதையை கண்டுபிடிக்க புதிய பாதையை (ஆராய்ச்சி) முயற்சிக்கிறான். இந்த சமநிலை சரியான கொள்கையை கண்டுபிடிக்க அவசியம்.
RL "மனிதர்கள் பயன்படுத்தும் சோதனை-பிழை கற்றல் முறையை பின்பற்றுகிறது". ஒரு குழந்தை சுத்தம் செய்தால் பாராட்டப்படுவதை, பொம்மைகள் எறிந்தால் தண்டனை பெறுவதை கற்றுக்கொள்கிறது; அதேபோல், RL முகவர் நல்ல செயல்களுக்கு நேர்மறை பின்னூட்டம், மோசமான செயல்களுக்கு எதிர்மறை பின்னூட்டம் பெறுவதன் மூலம் பரிசுகளை அறிகிறது.
— AWS இயந்திரக் கற்றல் ஆவணம்
காலப்போக்கில், முகவர் மதிப்பீடுகள் அல்லது கொள்கைகளை உருவாக்கி, நீண்டகால இலக்குகளை அடைய சிறந்த செயல்களின் தொடர்களை அடையாளம் காண்கிறான்.
விளக்கமாக, RL ஆல்கொரிதம்கள் நிகழ்வுகளில் பரிசுகளை சேர்த்து, எதிர்பார்க்கப்படும் வருமானத்தை (எதிர்கால பரிசுகளின் தொகை) அதிகரிக்க முயல்கின்றன. அவை உடனடி அதிகபட்ச பரிசை தராத செயல்களையும் நீண்டகால நன்மைக்காக தேர்ந்தெடுக்க கற்றுக்கொள்கின்றன. இந்த நீண்டகால இலாபத்திற்கான திட்டமிடல் திறன் RL ஐ சிக்கலான, தொடர்ச்சியான முடிவெடுப்பு பணிகளுக்கு பொருத்தமாக்குகிறது.

புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்
புதுப்பித்தல் கற்றலை செயல்படுத்த பல ஆல்கொரிதம்கள் உள்ளன. பொதுவாக, அவை இரண்டு வகைகளாக பிரிக்கப்படுகின்றன: மாதிரி அடிப்படையிலான மற்றும் மாதிரி இல்லாத முறைகள்.
திட்டமிடல் அணுகுமுறை
முகவர் முதலில் சூழலின் இயக்கவியல் (நிலைகள் எப்படி மாறுகின்றன மற்றும் பரிசுகள் எப்படி வழங்கப்படுகின்றன) பற்றிய மாதிரியை கற்றுக்கொள்கிறான் அல்லது அறிவான், பின்னர் முடிவுகளை சிமுலேஷன் மூலம் திட்டமிடுகிறான்.
- குறைந்த தரவுடன் திறமையானது
 - முன்னதாக திட்டமிடல் திறன்
 - துல்லியமான சூழல் மாதிரி தேவை
 
உதாரணம்: ஒரு கட்டிடத்தில் குறுகிய பாதையை கண்டுபிடிக்க வரைபடம் உருவாக்கும் ரோபோட் மாதிரி அடிப்படையிலான அணுகுமுறையை பயன்படுத்துகிறது.
நேரடி கற்றல்
முகவருக்கு சூழலின் தெளிவான மாதிரி இல்லை; அவன் உண்மையான (அல்லது சிமுலேஷன்) சூழலில் சோதனை மற்றும் பிழை மூலம் மட்டுமே கற்றுக்கொள்கிறான்.
- சூழல் மாதிரி தேவையில்லை
 - சிக்கலான சூழல்களுடன் வேலை செய்கிறது
 - அதிக அனுபவம் தேவை
 
உதாரணம்: பெரும்பாலான பாரம்பரிய RL ஆல்கொரிதம்கள் (Q-கற்றல் அல்லது காலத்தொடர் கற்றல் போன்றவை) மாதிரி இல்லாதவை.
இந்த வகைகளில், ஆல்கொரிதம்கள் கொள்கை அல்லது மதிப்பீட்டு செயல்பாட்டை எப்படி பிரதிநிதித்துவம் செய்து புதுப்பிக்கின்றன என்பதில் வேறுபடுகின்றன. உதாரணமாக, Q-கற்றல் (மதிப்பீடு அடிப்படையிலான முறை) நிலை-செயல் ஜோடிகளுக்கான "Q மதிப்புகளை" கற்றுக்கொண்டு, அதிக மதிப்புள்ள செயல்களை தேர்ந்தெடுக்கிறது.
கொள்கை-குன்றல் முறைகள் நேரடியாக கொள்கையை அளவிடும் மற்றும் எதிர்பார்க்கப்படும் பரிசில் குன்றல் ஏறுதலின் மூலம் அதன் அளவுருக்களை சரிசெய்கின்றன. பல முன்னேற்றமான முறைகள் (எ.கா., நடிகர்-ஆளுநர் அல்லது நம்பிக்கை மண்டலம் கொள்கை மேம்பாடு) மதிப்பீடு மற்றும் கொள்கை மேம்பாட்டை இணைக்கின்றன.
ஆழ்ந்த RL இல், Deep Q-நெட்வொர்க்கள் (DQN) அல்லது ஆழ்ந்த கொள்கை குன்றல்கள் போன்ற ஆல்கொரிதம்கள் RL ஐ சிக்கலான உண்மையான பணிகளுக்கு விரிவாக்குகின்றன.
பொதுவான RL ஆல்கொரிதம்களில் Q-கற்றல், மொன்டே கார்லோ முறைகள், கொள்கை-குன்றல் முறைகள் மற்றும் காலத்தொடர் கற்றல் அடங்கும்; "ஆழ்ந்த RL" என்பது இந்த முறைகளில் ஆழ்ந்த நரம்பியல் வலைப்பின்னல்களின் பயன்பாட்டைக் குறிக்கிறது.
— AWS இயந்திரக் கற்றல் ஆவணம்

புதுப்பித்தல் கற்றல் பயன்பாடுகள்
புதுப்பித்தல் கற்றல், தொடர்ச்சியான முடிவெடுப்பு மற்றும் அநிச்சயத்திற்குள் செயல்பட வேண்டிய பல துறைகளில் பயன்படுத்தப்படுகிறது. முக்கிய பயன்பாடுகள்:
விளையாட்டுகள் மற்றும் சிமுலேஷன்
RL விளையாட்டுகள் மற்றும் சிமுலேட்டர்களை வெற்றிகரமாக கையாளியுள்ளது. DeepMind இன் AlphaGo மற்றும் AlphaZero RL பயன்படுத்தி Go மற்றும் Chess இல் மனிதர்களை மீறிய திறனை பெற்றுள்ளன.
- வீடியோ விளையாட்டுகள் (அட்டாரி, ஸ்டார்கிராஃப்)
 - பலகை விளையாட்டுகள் (Go, Chess)
 - பொருளியல் சிமுலேஷன்கள்
 - ரோபோட்டிக்ஸ் சிமுலேட்டர்கள்
 
ரோபோட்டிக்ஸ் மற்றும் கட்டுப்பாடு
தானாக இயங்கும் ரோபோக்கள் மற்றும் சுய இயக்கும் வாகனங்கள் சோதனை-பிழை மூலம் கற்றுக்கொண்டு இயக்கப்படுகின்றன.
- பொருள் பிடித்தல் மற்றும் கையாள்தல்
 - தானாக வழிசெலுத்தல்
 - சுய இயக்கும் வாகனங்கள்
 - தொழிற்சாலை தானியங்கி
 
பரிந்துரை அமைப்புகள்
RL பயனர் தொடர்புகளின் அடிப்படையில் உள்ளடக்கம் அல்லது விளம்பரங்களை தனிப்பயனாக்கி, காலப்போக்கில் மிக பொருத்தமான பொருட்களை வழங்க கற்றுக்கொள்கிறது.
- உள்ளடக்கம் தனிப்பயனாக்கல்
 - விளம்பர இலக்கு மேம்பாடு
 - தயாரிப்பு பரிந்துரைகள்
 - பயனர் ஈடுபாடு மேம்பாடு
 
வள மேம்பாடு
நீண்டகால இலக்குகள் மற்றும் சிக்கலான வள ஒதுக்கீடு சவால்களை கொண்ட அமைப்புகளை RL சிறப்பாக மேம்படுத்துகிறது.
- தரவு மைய குளிர்ச்சி மேம்பாடு
 - ஸ்மார்ட் கிரிட் சக்தி சேமிப்பு
 - மேக கணினி வளங்கள்
 - விநியோக சங்கிலி மேலாண்மை
 
நிதி மற்றும் வர்த்தகம்
நிதி சந்தைகள் இயக்கம் மற்றும் தொடர்ச்சியானவை, RL வர்த்தகத் திட்டங்கள் மற்றும் பங்குச் சுருக்க மேலாண்மைக்கு பொருத்தமானது.
- கணினி வர்த்தகத் திட்டங்கள்
 - பங்குச் சுருக்க மேம்பாடு
 - ஆபத்து மேலாண்மை
 - சந்தை உருவாக்கல்
 

புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல்
புதுப்பித்தல் கற்றல் இயந்திரக் கற்றலின் மூன்று முக்கிய முறைகளில் ஒன்றாகும் (மேற்பார்வை மற்றும் மேற்பார்வை இல்லாத கற்றலுடன்), ஆனால் கவனம் வேறுபடுகிறது. மேற்பார்வை கற்றல் குறிச்சொற்கள் கொண்ட உள்ளீடு-வெளியீடு ஜோடிகளில் பயிற்சி பெறுகிறது, மேற்பார்வை இல்லாத கற்றல் குறிச்சொற்கள் இல்லாத தரவில் வடிவமைப்புகளை கண்டறிகிறது.
| அங்கம் | மேற்பார்வை கற்றல் | மேற்பார்வை இல்லாத கற்றல் | புதுப்பித்தல் கற்றல் | 
|---|---|---|---|
| தரவு வகை | குறிச்சொற்கள் கொண்ட உள்ளீடு-வெளியீடு ஜோடிகள் | குறிச்சொற்கள் இல்லாத தரவு | தொடர்ச்சியான நிலை-செயல்-பரிசு தொகுதிகள் | 
| கற்றல் குறிக்கோள் | சரியான வெளியீடுகளை கணிக்க | மறைந்த வடிவமைப்புகளை கண்டறிய | சேர்க்கை பரிசை அதிகரிக்க | 
| பின்னூட்ட வகை | நேரடி சரியான பதில்கள் | பின்னூட்டம் இல்லை | பரிசு/தண்டனை சிக்னல்கள் | 
| கற்றல் முறை | எடுத்துக்காட்டுகளிலிருந்து கற்றல் | கட்டமைப்பை கண்டறிதல் | சோதனை-பிழை ஆராய்ச்சி | 
இதற்கு மாறாக, RL சரியான நடத்தை குறிச்சொற்கள் கொண்ட எடுத்துக்காட்டுகளை தேவையில்லை. அதற்கு பதிலாக, அது குறிக்கோளை பரிசு சிக்னல் மூலம் வரையறுக்கிறது மற்றும் சோதனை-பிழை மூலம் கற்றுக்கொள்கிறது. RL இல், "பயிற்சி தரவு" (நிலை-செயல்-பரிசு தொகுதிகள்) தொடர்ச்சியான மற்றும் பரஸ்பர சார்ந்தவை, ஏனெனில் ஒவ்வொரு செயலும் எதிர்கால நிலைகளுக்கு பாதிப்பை ஏற்படுத்துகிறது.
எளிமையாகச் சொன்னால், மேற்பார்வை கற்றல் ஒரு மாதிரிக்கு என்ன கணிக்க வேண்டும் என்பதை சொல்கிறது; புதுப்பித்தல் கற்றல் ஒரு முகவருக்கு எப்படி செயல்பட வேண்டும் என்பதை கற்றுக்கொடுக்கிறது. RL "நேர்மறை புதுப்பித்தல்" (பரிசு) மூலம் கற்றுக்கொள்கிறது, சரியான பதில்களை காட்டுவதால் அல்ல.
— IBM இயந்திரக் கற்றல் கண்ணோட்டம்
இதனால் RL முடிவெடுப்பு மற்றும் கட்டுப்பாட்டை உள்ளடக்கிய பணிகளுக்கு மிகவும் சக்திவாய்ந்ததாகும். ஆனால், இது RL ஐ சவாலானதாகவும் ஆக்குகிறது: குறிச்சொற்கள் இல்லாத பின்னூட்டம் காரணமாக, முகவர் நல்ல செயல்களை தனக்கே கண்டுபிடிக்க வேண்டும், இது பெரும்பாலும் சூழலை அதிகமாக ஆராய்வதை தேவைப்படுத்துகிறது.

புதுப்பித்தல் கற்றல் சவால்கள்
அதன் சக்தியின்பினும், RL உடன் நடைமுறை சவால்கள் உள்ளன:
மாதிரிகள் குறைவாக செயல்திறன்
பரிசு வடிவமைப்பு
நிலைத்தன்மை மற்றும் பாதுகாப்பு
புரிதல் திறன்

முடிவு
சுருக்கமாக, புதுப்பித்தல் கற்றல் என்பது ஒரு தானாக கற்றல் கட்டமைப்பு ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு குறிக்கோள்களை அடைய கற்றுக்கொள்கிறான் மற்றும் சேர்க்கை பரிசை அதிகரிக்கிறான். இது சிறந்த கட்டுப்பாடு, இயக்கத் திட்டமிடல் மற்றும் நடத்தைக் கலைவியல் கருத்துக்களை இணைத்து, பல நவீன AI முன்னேற்றங்களின் அடித்தளமாக உள்ளது.
பிரச்சினைகளை தொடர்ச்சியான முடிவெடுப்பு பணிகளாக வடிவமைத்து பின்னூட்டத்துடன், RL இயந்திரங்களுக்கு சிக்கலான நடத்தை தனக்கே கற்றுக்கொள்ள உதவுகிறது, தரவு சார்ந்த கற்றலும் குறிக்கோள் நோக்கி செயல்பாடுகளும் இடையேயான இடைவெளியை நிரப்புகிறது.