புதுப்பித்தல் கற்றல் என்றால் என்ன?

புதுப்பித்தல் கற்றல் (RL) என்பது ஒரு இயந்திரக் கற்றல் கிளை ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு முடிவுகளை எடுக்க கற்றுக்கொள்கிறார். RL இல், முகவரின் குறிக்கோள் என்பது காலப்போக்கில் மொத்தப் பரிசுகளை அதிகரிக்கும் செயல்களை தேர்ந்தெடுக்கும் கொள்கையை (திட்டமிடல்) கற்றுக்கொள்வதாகும்.

புதுப்பித்தல் கற்றல் (RL) என்பது ஒரு இயந்திரக் கற்றல் கிளை ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு முடிவுகளை எடுக்க கற்றுக்கொள்கிறார். RL இல், முகவரின் குறிக்கோள் என்பது காலப்போக்கில் மொத்த பரிசை அதிகரிக்கும் செயல்களை தேர்ந்தெடுக்கும் கொள்கையை (ஒரு திட்டம்) கற்றுக்கொள்வதாகும்.

குறிப்பிடப்பட்ட எடுத்துக்காட்டுகள் தேவைப்படும் மேற்பார்வை கற்றலுக்கு மாறாக, RL சோதனை-பிழை பின்னூட்டத்தை சார்ந்தது: நேர்மறை விளைவுகளை (பரிசுகள்) உண்டாக்கும் செயல்கள் வலுப்படுத்தப்படுகின்றன, எதிர்மறை விளைவுகளை (தண்டனைகள்) உண்டாக்கும் செயல்கள் தவிர்க்கப்படுகின்றன.

RL என்பது அடிப்படையில் "கோல் நோக்கி கற்றல் மற்றும் முடிவெடுப்பை புரிந்து கொண்டு தானாகச் செயல்படுவதற்கான கணினி அணுகுமுறை" ஆகும், இதில் முகவர் வெளிப்புற மேற்பார்வை அல்லது முழுமையான உலக மாதிரி தேவையின்றி தனது சூழலுடன் நேரடியாக தொடர்பு கொண்டு கற்றுக்கொள்கிறார்.

— Sutton மற்றும் Barto, புதுப்பித்தல் கற்றல் ஆராய்ச்சியாளர்கள்

விளக்கமாக, முகவர் தொடர்ந்து நிலை-செயல் பரப்பை ஆராய்ந்து, தனது செயல்களின் விளைவுகளை கவனித்து, எதிர்கால பரிசுகளை மேம்படுத்த தன் திட்டத்தை சரிசெய்கிறார்.

உள்ளடக்கங்கள் பட்டியலிடப்பட்டது

முக்கியக் கருத்துக்கள் மற்றும் கூறுகள்

புதுப்பித்தல் கற்றல் பல அடிப்படை கூறுகளை உள்ளடக்கியது. பொதுவாக, ஒரு முகவர் (கற்றுக்கொள்ளும் அல்லது முடிவெடுக்கும் அங்கம்) ஒரு சூழல் (வெளிப்புற அமைப்பு அல்லது பிரச்சினை பரப்பு) உடன் தொடர்பு கொண்டு செயல்களை discrete கால இடைவெளிகளில் எடுக்கிறார்.

ஒவ்வொரு கட்டத்திலும் முகவர் சூழலின் தற்போதைய நிலையை கவனித்து, ஒரு செயலை நிறைவேற்றுகிறான், பின்னர் சூழல் அந்த செயலுக்கான பரிசை (எண் வடிவில் பின்னூட்டம்) வழங்குகிறது. பல தொடர்புகளின் மூலம், முகவர் மொத்த (சேர்க்கை) பரிசை அதிகரிக்க முயல்கிறான்.

முகவர்

தானாக கற்றுக்கொள்ளும் அங்கம் (எ.கா., AI திட்டம் அல்லது ரோபோட்) முடிவுகளை எடுக்கிறது.

சூழல்

முகவர் தொடர்பு கொள்ளும் உலகம் அல்லது பிரச்சினை பரப்பு. சூழல் தற்போதைய நிலையை முகவருக்கு வழங்கி, செயலின் அடிப்படையில் பரிசை கணக்கிடுகிறது.

செயல்

சூழலை பாதிக்க முகவர் எடுக்கும் முடிவு அல்லது நகர்வு. வெவ்வேறு செயல்கள் வெவ்வேறு நிலைகள் மற்றும் பரிசுகளுக்கு வழிவகுக்கும்.

நிலை

குறிப்பிட்ட நேரத்தில் சூழலின் பிரதிநிதித்துவம் (எ.கா., விளையாட்டு பலகையில் துண்டுகளின் நிலை அல்லது ரோபோட்டில் சென்சார் வாசிப்புகள்). முகவர் அடுத்த செயலுக்காக நிலையை பயன்படுத்துகிறான்.

பரிசு

ஒவ்வொரு செயலுக்குப் பிறகு சூழல் வழங்கும் ஒரு அளவீட்டு பின்னூட்டச் சிக்னல் (நேர்மறை, எதிர்மறை அல்லது பூஜ்ஜியம்). இது செயலின் உடனடி நன்மையை (அல்லது செலவை) அளவிடுகிறது. முகவரின் குறிக்கோள் காலப்போக்கில் எதிர்பார்க்கப்படும் சேர்க்கை பரிசை அதிகரிப்பதாகும்.

கொள்கை

செயல்களை தேர்ந்தெடுக்கும் முகவரின் திட்டம், பொதுவாக நிலைகளிலிருந்து செயல்களுக்கு வரைபடம். கற்றலின் மூலம், முகவர் சிறந்த அல்லது அருகிலுள்ள சிறந்த கொள்கையை கண்டுபிடிக்க முயல்கிறான்.

மதிப்பீட்டு செயல்பாடு

ஒரு குறிப்பிட்ட நிலை (அல்லது நிலை-செயல் ஜோடி) இலிருந்து எதிர்கால பரிசின் (சேர்க்கை பரிசு) எதிர்பார்ப்பை மதிப்பிடும். மதிப்பீட்டு செயல்பாடு செயல்களின் நீண்டகால விளைவுகளை மதிப்பிட உதவுகிறது.

மாதிரி (விருப்பமானது)

மாதிரி அடிப்படையிலான RL இல், முகவர் சூழலின் இயக்கவியல் (நிலைகள் செயல்களால் எப்படி மாறுகின்றன) பற்றிய உள்ளக மாதிரியை உருவாக்கி, அதை பயன்படுத்தி திட்டமிடுகிறான். மாதிரி இல்லாத RL இல், முகவர் சோதனை-பிழை அனுபவத்திலிருந்து மட்டுமே கற்றுக்கொள்கிறான்.
புதுப்பித்தல் கற்றல் முக்கியக் கருத்துக்கள் மற்றும் கூறுகள்
புதுப்பித்தல் கற்றல் கட்டமைப்பின் முக்கியக் கருத்துக்கள் மற்றும் கூறுகள்

புதுப்பித்தல் கற்றல் எப்படி செயல்படுகிறது

RL பெரும்பாலும் மார்கோவ் முடிவு செயல்முறை (MDP) என வடிவமைக்கப்படுகிறது. ஒவ்வொரு discrete கால கட்டத்திலும், முகவர் ஒரு நிலை St ஐ கவனித்து, ஒரு செயல் At ஐ தேர்ந்தெடுக்கிறான். பின்னர் சூழல் புதிய நிலை St+1 க்கு மாறி, எடுத்த செயலின் அடிப்படையில் பரிசு Rt+1 ஐ வழங்குகிறது.

பல நிகழ்வுகளில், முகவர் நிலை–செயல்–பரிசு தொடர்களில் அனுபவம் சேர்க்கிறான். எந்த செயல்கள் அதிக பரிசுகளை வழங்கின என்பதை பகுப்பாய்வு செய்து, முகவர் தன் கொள்கையை மெதுவாக மேம்படுத்துகிறான்.

ஆராய்ச்சி மற்றும் பயன்பாடு: RL பிரச்சினைகள் ஆராய்ச்சி மற்றும் பயன்பாடு என்ற முக்கிய சமநிலையை கொண்டுள்ளன. முகவர் பரிசை பெற சிறந்த அறிந்த செயல்களை பயன்படுத்த வேண்டும், ஆனால் கூடுதலான நல்ல விளைவுகளுக்கு வழிவகுக்கும் புதிய செயல்களை ஆராயவும் வேண்டும்.

உதாரணமாக, ஒரு புதுப்பித்தல் கற்றல் முகவர் ஒரு ரோபோட்டை கட்டுப்படுத்தும்போது, பொதுவாக நிரூபிக்கப்பட்ட பாதுகாப்பான பாதையை (பயன்பாடு) எடுத்துக் கொள்கிறான், ஆனால் சில நேரங்களில் வேகமான பாதையை கண்டுபிடிக்க புதிய பாதையை (ஆராய்ச்சி) முயற்சிக்கிறான். இந்த சமநிலை சரியான கொள்கையை கண்டுபிடிக்க அவசியம்.

RL "மனிதர்கள் பயன்படுத்தும் சோதனை-பிழை கற்றல் முறையை பின்பற்றுகிறது". ஒரு குழந்தை சுத்தம் செய்தால் பாராட்டப்படுவதை, பொம்மைகள் எறிந்தால் தண்டனை பெறுவதை கற்றுக்கொள்கிறது; அதேபோல், RL முகவர் நல்ல செயல்களுக்கு நேர்மறை பின்னூட்டம், மோசமான செயல்களுக்கு எதிர்மறை பின்னூட்டம் பெறுவதன் மூலம் பரிசுகளை அறிகிறது.

— AWS இயந்திரக் கற்றல் ஆவணம்

காலப்போக்கில், முகவர் மதிப்பீடுகள் அல்லது கொள்கைகளை உருவாக்கி, நீண்டகால இலக்குகளை அடைய சிறந்த செயல்களின் தொடர்களை அடையாளம் காண்கிறான்.

விளக்கமாக, RL ஆல்கொரிதம்கள் நிகழ்வுகளில் பரிசுகளை சேர்த்து, எதிர்பார்க்கப்படும் வருமானத்தை (எதிர்கால பரிசுகளின் தொகை) அதிகரிக்க முயல்கின்றன. அவை உடனடி அதிகபட்ச பரிசை தராத செயல்களையும் நீண்டகால நன்மைக்காக தேர்ந்தெடுக்க கற்றுக்கொள்கின்றன. இந்த நீண்டகால இலாபத்திற்கான திட்டமிடல் திறன் RL ஐ சிக்கலான, தொடர்ச்சியான முடிவெடுப்பு பணிகளுக்கு பொருத்தமாக்குகிறது.

புதுப்பித்தல் கற்றல் எப்படி செயல்படுகிறது
புதுப்பித்தல் கற்றல் நடைமுறையில் எப்படி செயல்படுகிறது

புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்

புதுப்பித்தல் கற்றலை செயல்படுத்த பல ஆல்கொரிதம்கள் உள்ளன. பொதுவாக, அவை இரண்டு வகைகளாக பிரிக்கப்படுகின்றன: மாதிரி அடிப்படையிலான மற்றும் மாதிரி இல்லாத முறைகள்.

மாதிரி அடிப்படையிலான RL

திட்டமிடல் அணுகுமுறை

முகவர் முதலில் சூழலின் இயக்கவியல் (நிலைகள் எப்படி மாறுகின்றன மற்றும் பரிசுகள் எப்படி வழங்கப்படுகின்றன) பற்றிய மாதிரியை கற்றுக்கொள்கிறான் அல்லது அறிவான், பின்னர் முடிவுகளை சிமுலேஷன் மூலம் திட்டமிடுகிறான்.

  • குறைந்த தரவுடன் திறமையானது
  • முன்னதாக திட்டமிடல் திறன்
  • துல்லியமான சூழல் மாதிரி தேவை

உதாரணம்: ஒரு கட்டிடத்தில் குறுகிய பாதையை கண்டுபிடிக்க வரைபடம் உருவாக்கும் ரோபோட் மாதிரி அடிப்படையிலான அணுகுமுறையை பயன்படுத்துகிறது.

மாதிரி இல்லாத RL

நேரடி கற்றல்

முகவருக்கு சூழலின் தெளிவான மாதிரி இல்லை; அவன் உண்மையான (அல்லது சிமுலேஷன்) சூழலில் சோதனை மற்றும் பிழை மூலம் மட்டுமே கற்றுக்கொள்கிறான்.

  • சூழல் மாதிரி தேவையில்லை
  • சிக்கலான சூழல்களுடன் வேலை செய்கிறது
  • அதிக அனுபவம் தேவை

உதாரணம்: பெரும்பாலான பாரம்பரிய RL ஆல்கொரிதம்கள் (Q-கற்றல் அல்லது காலத்தொடர் கற்றல் போன்றவை) மாதிரி இல்லாதவை.

இந்த வகைகளில், ஆல்கொரிதம்கள் கொள்கை அல்லது மதிப்பீட்டு செயல்பாட்டை எப்படி பிரதிநிதித்துவம் செய்து புதுப்பிக்கின்றன என்பதில் வேறுபடுகின்றன. உதாரணமாக, Q-கற்றல் (மதிப்பீடு அடிப்படையிலான முறை) நிலை-செயல் ஜோடிகளுக்கான "Q மதிப்புகளை" கற்றுக்கொண்டு, அதிக மதிப்புள்ள செயல்களை தேர்ந்தெடுக்கிறது.

கொள்கை-குன்றல் முறைகள் நேரடியாக கொள்கையை அளவிடும் மற்றும் எதிர்பார்க்கப்படும் பரிசில் குன்றல் ஏறுதலின் மூலம் அதன் அளவுருக்களை சரிசெய்கின்றன. பல முன்னேற்றமான முறைகள் (எ.கா., நடிகர்-ஆளுநர் அல்லது நம்பிக்கை மண்டலம் கொள்கை மேம்பாடு) மதிப்பீடு மற்றும் கொள்கை மேம்பாட்டை இணைக்கின்றன.

ஆழ்ந்த புதுப்பித்தல் கற்றல்: மதிப்பீட்டு செயல்பாடுகள் அல்லது கொள்கைகளுக்கான செயல்பாட்டு அணுகுமுறைகளாக ஆழ்ந்த நரம்பியல் வலைப்பின்னல்களை பயன்படுத்தும் முக்கிய சமீபத்திய முன்னேற்றம். இது RL ஐ படங்கள் போன்ற உயர் பரிமாண உள்ளீடுகளை கையாள அனுமதிக்கிறது. DeepMind இன் அட்டாரி மற்றும் பலகை விளையாட்டுகளில் (எ.கா., AlphaGo) வெற்றி ஆழ்ந்த கற்றல் மற்றும் RL ஐ இணைத்ததன் விளைவாகும்.

ஆழ்ந்த RL இல், Deep Q-நெட்வொர்க்கள் (DQN) அல்லது ஆழ்ந்த கொள்கை குன்றல்கள் போன்ற ஆல்கொரிதம்கள் RL ஐ சிக்கலான உண்மையான பணிகளுக்கு விரிவாக்குகின்றன.

பொதுவான RL ஆல்கொரிதம்களில் Q-கற்றல், மொன்டே கார்லோ முறைகள், கொள்கை-குன்றல் முறைகள் மற்றும் காலத்தொடர் கற்றல் அடங்கும்; "ஆழ்ந்த RL" என்பது இந்த முறைகளில் ஆழ்ந்த நரம்பியல் வலைப்பின்னல்களின் பயன்பாட்டைக் குறிக்கிறது.

— AWS இயந்திரக் கற்றல் ஆவணம்
புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்
புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்

புதுப்பித்தல் கற்றல் பயன்பாடுகள்

புதுப்பித்தல் கற்றல், தொடர்ச்சியான முடிவெடுப்பு மற்றும் அநிச்சயத்திற்குள் செயல்பட வேண்டிய பல துறைகளில் பயன்படுத்தப்படுகிறது. முக்கிய பயன்பாடுகள்:

விளையாட்டுகள் மற்றும் சிமுலேஷன்

RL விளையாட்டுகள் மற்றும் சிமுலேட்டர்களை வெற்றிகரமாக கையாளியுள்ளது. DeepMind இன் AlphaGo மற்றும் AlphaZero RL பயன்படுத்தி Go மற்றும் Chess இல் மனிதர்களை மீறிய திறனை பெற்றுள்ளன.

  • வீடியோ விளையாட்டுகள் (அட்டாரி, ஸ்டார்கிராஃப்)
  • பலகை விளையாட்டுகள் (Go, Chess)
  • பொருளியல் சிமுலேஷன்கள்
  • ரோபோட்டிக்ஸ் சிமுலேட்டர்கள்

ரோபோட்டிக்ஸ் மற்றும் கட்டுப்பாடு

தானாக இயங்கும் ரோபோக்கள் மற்றும் சுய இயக்கும் வாகனங்கள் சோதனை-பிழை மூலம் கற்றுக்கொண்டு இயக்கப்படுகின்றன.

  • பொருள் பிடித்தல் மற்றும் கையாள்தல்
  • தானாக வழிசெலுத்தல்
  • சுய இயக்கும் வாகனங்கள்
  • தொழிற்சாலை தானியங்கி

பரிந்துரை அமைப்புகள்

RL பயனர் தொடர்புகளின் அடிப்படையில் உள்ளடக்கம் அல்லது விளம்பரங்களை தனிப்பயனாக்கி, காலப்போக்கில் மிக பொருத்தமான பொருட்களை வழங்க கற்றுக்கொள்கிறது.

  • உள்ளடக்கம் தனிப்பயனாக்கல்
  • விளம்பர இலக்கு மேம்பாடு
  • தயாரிப்பு பரிந்துரைகள்
  • பயனர் ஈடுபாடு மேம்பாடு

வள மேம்பாடு

நீண்டகால இலக்குகள் மற்றும் சிக்கலான வள ஒதுக்கீடு சவால்களை கொண்ட அமைப்புகளை RL சிறப்பாக மேம்படுத்துகிறது.

  • தரவு மைய குளிர்ச்சி மேம்பாடு
  • ஸ்மார்ட் கிரிட் சக்தி சேமிப்பு
  • மேக கணினி வளங்கள்
  • விநியோக சங்கிலி மேலாண்மை

நிதி மற்றும் வர்த்தகம்

நிதி சந்தைகள் இயக்கம் மற்றும் தொடர்ச்சியானவை, RL வர்த்தகத் திட்டங்கள் மற்றும் பங்குச் சுருக்க மேலாண்மைக்கு பொருத்தமானது.

  • கணினி வர்த்தகத் திட்டங்கள்
  • பங்குச் சுருக்க மேம்பாடு
  • ஆபத்து மேலாண்மை
  • சந்தை உருவாக்கல்
நீண்டகால திட்டமிடல் நன்மை: இவை RL இன் நீண்டகால திட்டமிடல் திறனை வெளிப்படுத்துகின்றன. உடனடி விளைவுகளை மட்டும் கணிக்கின்ற முறைகளுக்கு மாறாக, RL சேர்க்கை பரிசுகளை அதிகரிக்க தெளிவாக முயல்கிறது, ஆகவே செயல்களுக்கு தாமதமான விளைவுகள் உள்ள பிரச்சினைகளுக்கு சிறந்தது.
புதுப்பித்தல் கற்றல் பயன்பாடுகள்
தொழில்துறைகளில் புதுப்பித்தல் கற்றல் பயன்பாடுகள்

புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல்

புதுப்பித்தல் கற்றல் இயந்திரக் கற்றலின் மூன்று முக்கிய முறைகளில் ஒன்றாகும் (மேற்பார்வை மற்றும் மேற்பார்வை இல்லாத கற்றலுடன்), ஆனால் கவனம் வேறுபடுகிறது. மேற்பார்வை கற்றல் குறிச்சொற்கள் கொண்ட உள்ளீடு-வெளியீடு ஜோடிகளில் பயிற்சி பெறுகிறது, மேற்பார்வை இல்லாத கற்றல் குறிச்சொற்கள் இல்லாத தரவில் வடிவமைப்புகளை கண்டறிகிறது.

அங்கம் மேற்பார்வை கற்றல் மேற்பார்வை இல்லாத கற்றல் புதுப்பித்தல் கற்றல்
தரவு வகை குறிச்சொற்கள் கொண்ட உள்ளீடு-வெளியீடு ஜோடிகள் குறிச்சொற்கள் இல்லாத தரவு தொடர்ச்சியான நிலை-செயல்-பரிசு தொகுதிகள்
கற்றல் குறிக்கோள் சரியான வெளியீடுகளை கணிக்க மறைந்த வடிவமைப்புகளை கண்டறிய சேர்க்கை பரிசை அதிகரிக்க
பின்னூட்ட வகை நேரடி சரியான பதில்கள் பின்னூட்டம் இல்லை பரிசு/தண்டனை சிக்னல்கள்
கற்றல் முறை எடுத்துக்காட்டுகளிலிருந்து கற்றல் கட்டமைப்பை கண்டறிதல் சோதனை-பிழை ஆராய்ச்சி

இதற்கு மாறாக, RL சரியான நடத்தை குறிச்சொற்கள் கொண்ட எடுத்துக்காட்டுகளை தேவையில்லை. அதற்கு பதிலாக, அது குறிக்கோளை பரிசு சிக்னல் மூலம் வரையறுக்கிறது மற்றும் சோதனை-பிழை மூலம் கற்றுக்கொள்கிறது. RL இல், "பயிற்சி தரவு" (நிலை-செயல்-பரிசு தொகுதிகள்) தொடர்ச்சியான மற்றும் பரஸ்பர சார்ந்தவை, ஏனெனில் ஒவ்வொரு செயலும் எதிர்கால நிலைகளுக்கு பாதிப்பை ஏற்படுத்துகிறது.

எளிமையாகச் சொன்னால், மேற்பார்வை கற்றல் ஒரு மாதிரிக்கு என்ன கணிக்க வேண்டும் என்பதை சொல்கிறது; புதுப்பித்தல் கற்றல் ஒரு முகவருக்கு எப்படி செயல்பட வேண்டும் என்பதை கற்றுக்கொடுக்கிறது. RL "நேர்மறை புதுப்பித்தல்" (பரிசு) மூலம் கற்றுக்கொள்கிறது, சரியான பதில்களை காட்டுவதால் அல்ல.

— IBM இயந்திரக் கற்றல் கண்ணோட்டம்

இதனால் RL முடிவெடுப்பு மற்றும் கட்டுப்பாட்டை உள்ளடக்கிய பணிகளுக்கு மிகவும் சக்திவாய்ந்ததாகும். ஆனால், இது RL ஐ சவாலானதாகவும் ஆக்குகிறது: குறிச்சொற்கள் இல்லாத பின்னூட்டம் காரணமாக, முகவர் நல்ல செயல்களை தனக்கே கண்டுபிடிக்க வேண்டும், இது பெரும்பாலும் சூழலை அதிகமாக ஆராய்வதை தேவைப்படுத்துகிறது.

புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல்
புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல் முறைகள்

புதுப்பித்தல் கற்றல் சவால்கள்

அதன் சக்தியின்பினும், RL உடன் நடைமுறை சவால்கள் உள்ளன:

மாதிரிகள் குறைவாக செயல்திறன்

RL பல நேர்முக அனுபவங்களை (சோதனைகள்) தேவைப்படுத்துகிறது சிறந்த கொள்கைகளை கற்றுக்கொள்ள. உண்மையான உலகில் பயிற்சி செலவானது அல்லது மெதுவானது (எ.கா., ஒரு ரோபோட் ஒரு பணியை கற்றுக்கொள்ள மில்லியன் சோதனைகள் தேவைப்படலாம்). இதனால், பல RL அமைப்புகள் வெளியீட்டிற்கு முன் சிமுலேஷனில் பயிற்சி பெறுகின்றன.

பரிசு வடிவமைப்பு

சரியான பரிசு செயல்பாட்டை வரையறுத்தல் சிக்கலானது. தவறான பரிசு திட்டம் எதிர்பாராத நடத்தை (முகவர் பரிசை "விளையாட" கூடும்) உருவாக்கலாம். நீண்டகால இலக்குகளை சரியாக பிரதிபலிக்கும் பரிசுகளை வடிவமைத்தல் RL ஆராய்ச்சியில் ஒரு கலை.

நிலைத்தன்மை மற்றும் பாதுகாப்பு

உண்மையான உலக சூழல்களில் (ரோபோட்டிக்ஸ், சுகாதாரம், நிதி) பாதுகாப்பற்ற ஆராய்ச்சி செயல்கள் ஆபத்தானவையாகவோ செலவானவையாகவோ இருக்கலாம். உண்மையான உலகில் சோதனை (எ.கா., ட்ரோன் பறக்க) சிமுலேஷன் இல்லாமல் சாத்தியமில்லை. கற்றலும் வெளியீட்டும் போது பாதுகாப்பை உறுதி செய்வது RL ஆராய்ச்சியின் முக்கிய பகுதி.

புரிதல் திறன்

கற்றுக்கொள்ளப்பட்ட RL கொள்கைகள் (மிகவும் ஆழ்ந்த RL மாதிரிகள்) தெளிவற்றவை. முகவர் ஏன் குறிப்பிட்ட செயல்களை எடுத்தான் என்பதை புரிந்துகொள்வது கடினம், இது பிழைத்திருத்தம் அல்லது நம்பகத்தன்மைக்கு சவால். இந்த புரிதல் குறைவு சிக்கலான RL அமைப்புகளின் வெளியீட்டிற்கு சவாலாகும்.
தொடர்ந்து ஆராய்ச்சி: இவ்விரு சவால்கள் அனைத்தும் தொடர்ந்த ஆராய்ச்சிக்குரியவை. சவால்களை மீறி, விளையாட்டுகள், ரோபோட்டிக்ஸ், பரிந்துரை அமைப்புகள் போன்ற துறைகளில் RL நடைமுறை வெற்றிகள் குறிப்பிடத்தக்கவை.
புதுப்பித்தல் கற்றல் சவால்கள்
புதுப்பித்தல் கற்றல் நடைமுறை சவால்கள்

முடிவு

சுருக்கமாக, புதுப்பித்தல் கற்றல் என்பது ஒரு தானாக கற்றல் கட்டமைப்பு ஆகும், இதில் ஒரு முகவர் தனது சூழலுடன் தொடர்பு கொண்டு குறிக்கோள்களை அடைய கற்றுக்கொள்கிறான் மற்றும் சேர்க்கை பரிசை அதிகரிக்கிறான். இது சிறந்த கட்டுப்பாடு, இயக்கத் திட்டமிடல் மற்றும் நடத்தைக் கலைவியல் கருத்துக்களை இணைத்து, பல நவீன AI முன்னேற்றங்களின் அடித்தளமாக உள்ளது.

பிரச்சினைகளை தொடர்ச்சியான முடிவெடுப்பு பணிகளாக வடிவமைத்து பின்னூட்டத்துடன், RL இயந்திரங்களுக்கு சிக்கலான நடத்தை தனக்கே கற்றுக்கொள்ள உதவுகிறது, தரவு சார்ந்த கற்றலும் குறிக்கோள் நோக்கி செயல்பாடுகளும் இடையேயான இடைவெளியை நிரப்புகிறது.

வெளிப்புற குறிப்புகள்
இந்த கட்டுரையை பின்வரும் வெளி ஆதாரங்களின் உதவியுடன் தொகுத்தது:
96 உள்ளடக்க உருவாக்குநர் மற்றும் வலைப்பதிவு பங்களிப்பாளர்.
ரோசி ஹா Inviai இல் எழுத்தாளர் ஆவார், அவர் செயற்கை நுண்ணறிவு தொடர்பான அறிவு மற்றும் தீர்வுகளை பகிர்ந்து கொள்கிறார். வணிகம், உள்ளடக்க உருவாக்கம் மற்றும் தானியங்கி செயலாக்கம் போன்ற பல துறைகளில் AI ஆராய்ச்சி மற்றும் பயன்பாட்டில் அனுபவம் கொண்ட ரோசி ஹா, எளிதில் புரிந்துகொள்ளக்கூடிய, நடைமுறை மற்றும் ஊக்கமளிக்கும் கட்டுரைகளை வழங்குவார். ரோசி ஹாவின் பணி, அனைவரும் AI-யை திறம்பட பயன்படுத்தி உற்பத்தித்திறனை மேம்படுத்தி, படைப்பாற்றலை விரிவுபடுத்த உதவுவதாகும்.
தேடல்