புதுப்பித்தல் கற்றல் (RL) என்பது இயந்திரக் கற்றலின் ஒரு கிளை ஆகும், இதில் முகவர் சுற்றுப்புறத்துடன் தொடர்பு கொண்டு முடிவுகளை எடுக்க கற்றுக்கொள்கிறார். RL இல், முகவரின் நோக்கம் காலப்போக்கில் சேர்க்கப்பட்ட பரிசுகளை அதிகபட்சப்படுத்தும் நடவடிக்கைகளை தேர்ந்தெடுக்கும் கொள்கையை (ஒரு தந்திரம்) கற்றுக்கொள்வதாகும்.

குறிப்பிடப்பட்ட எடுத்துக்காட்டுகள் தேவைப்படும் மேற்பார்வை கற்றலுக்கு மாறாக, RL சோதனை-பிழை பின்னூட்டத்தை சார்ந்தது: நேர்மறை விளைவுகளை (பரிசுகள்) உண்டாக்கும் நடவடிக்கைகள் வலுப்படுத்தப்படுகின்றன, எதிர்மறை விளைவுகளை (தண்டனைகள்) உண்டாக்கும் நடவடிக்கைகள் தவிர்க்கப்படுகின்றன.

சட்டன் மற்றும் பார்டோ விளக்குவதுபோல், RL என்பது அடிப்படையில் “கணினி முறையில் குறிக்கோள் சார்ந்த கற்றல் மற்றும் முடிவெடுப்பை புரிந்து கொண்டு தானாக செயல்படுத்தும் அணுகுமுறை” ஆகும், இதில் முகவர் சுற்றுப்புறத்துடன் நேரடி தொடர்பு கொண்டு கற்றுக்கொள்கிறார், வெளிப்புற மேற்பார்வை அல்லது முழுமையான உலக மாதிரி தேவையில்லை.

வாசிப்பில், முகவர் நிலை-நடவடிக்கை இடைவெளியில் தொடர்ந்து ஆராய்ந்து, தனது நடவடிக்கைகளின் விளைவுகளை கவனித்து, எதிர்கால பரிசுகளை மேம்படுத்த தந்திரத்தை சரிசெய்கிறார்.

முக்கிய கருத்துகள் மற்றும் கூறுகள்

புதுப்பித்தல் கற்றல் பல அடிப்படை கூறுகளை உள்ளடக்கியது. பொதுவாக, ஒரு முகவர் (கற்றவர் அல்லது முடிவெடுக்கும் அங்கம்) ஒரு சுற்றுப்புறத்துடன் (வெளிப்புற அமைப்பு அல்லது பிரச்சினை பரப்பு) இடைவெளி நேரங்களில் நடவடிக்கைகள் எடுத்து தொடர்பு கொள்கிறார்.

ஒவ்வொரு கட்டத்திலும் முகவர் சுற்றுப்புறத்தின் தற்போதைய நிலையை கவனித்து, ஒரு நடவடிக்கையை மேற்கொண்டு, பின்னர் சுற்றுப்புறத்திலிருந்து பரிசு (எண் வடிவில் பின்னூட்டம்) பெறுகிறார். பல இடைமுகங்களின் மூலம், முகவர் தனது மொத்த (சேர்க்கப்பட்ட) பரிசை அதிகரிக்க முயல்கிறார். முக்கிய கருத்துகள்:

  • முகவர்: தன்னாட்சி கற்றவர் (எ.கா., ஒரு செயற்கை நுண்ணறிவு நிரல் அல்லது ரோபோட்) முடிவுகளை எடுக்கிறார்.
  • சுற்றுப்புறம்: முகவர் தொடர்பு கொள்கிற உலகம் அல்லது பிரச்சினை பரப்பு. சுற்றுப்புறம் தற்போதைய நிலையை முகவருக்கு வழங்கி, முகவரின் நடவடிக்கையின் அடிப்படையில் பரிசை கணக்கிடுகிறது.
  • நடவடிக்கை: சுற்றுப்புறத்தை பாதிக்க முகவர் எடுக்கும் முடிவு அல்லது செயல். வெவ்வேறு நடவடிக்கைகள் வெவ்வேறு நிலைகள் மற்றும் பரிசுகளை உருவாக்கலாம்.
  • நிலை: குறிப்பிட்ட நேரத்தில் சுற்றுப்புறத்தின் பிரதிநிதித்துவம் (எ.கா., விளையாட்டு பலகையின் துண்டுகளின் நிலை அல்லது ரோபோட்டின் சென்சார் வாசிப்புகள்). முகவர் அடுத்த நடவடிக்கையை தீர்மானிக்க நிலையை பயன்படுத்துகிறார்.
  • பரிசு: ஒவ்வொரு நடவடிக்கைக்குப் பிறகு சுற்றுப்புறத்தால் வழங்கப்படும் ஒரு அளவீட்டு பின்னூட்டம் (நேர்மறை, எதிர்மறை அல்லது பூஜ்யம்). இது நடவடிக்கையின் உடனடி நன்மை (அல்லது செலவு) அளவிடுகிறது. முகவரின் நோக்கம் காலப்போக்கில் எதிர்பார்க்கப்படும் சேர்க்கப்பட்ட பரிசை அதிகரிப்பதாகும்.
  • கொள்கை: நடவடிக்கைகளை தேர்ந்தெடுக்கும் முகவரின் தந்திரம், பொதுவாக நிலைகளிலிருந்து நடவடிக்கைகளுக்கு வரைபடம். கற்றலின் மூலம், முகவர் சிறந்த அல்லது அருகிலுள்ள சிறந்த கொள்கையை கண்டுபிடிக்க முயல்கிறார்.
  • மதிப்பீட்டு செயல்பாடு (அல்லது வருமானம்): முகவர் ஒரு குறிப்பிட்ட நிலை (அல்லது நிலை-நடவடிக்கை ஜோடி) இலிருந்து எதிர்பார்க்கப்படும் எதிர்கால பரிசின் மதிப்பீடு. மதிப்பீட்டு செயல்பாடு நடவடிக்கைகளின் நீண்டகால விளைவுகளை மதிப்பிட உதவுகிறது.
  • மாதிரி (விருப்பமானது): மாதிரி அடிப்படையிலான RL இல், முகவர் சுற்றுப்புறத்தின் இயக்கவியல் (நிலைகள் நடவடிக்கைகளால் எப்படி மாறுகின்றன) பற்றிய உள்ளக மாதிரியை உருவாக்கி, அதை பயன்படுத்தி திட்டமிடுகிறார். மாதிரி இல்லாத RL இல், எந்த மாதிரியும் உருவாக்கப்படாது; முகவர் சோதனை-பிழை அனுபவத்திலிருந்து மட்டுமே கற்றுக்கொள்கிறார்.

முக்கிய கருத்துகள் மற்றும் கூறுகள் புதுப்பித்தல் கற்றல்

புதுப்பித்தல் கற்றல் எப்படி செயல்படுகிறது

RL பெரும்பாலும் மார்கோவ் முடிவெடுப்பு செயல்முறை (MDP) ஆக வடிவமைக்கப்படுகிறது. ஒவ்வொரு இடைவெளி நேரத்திலும், முகவர் ஒரு நிலை St ஐ கவனித்து, ஒரு நடவடிக்கை At ஐ தேர்ந்தெடுக்கிறார். பின்னர் சுற்றுப்புறம் புதிய நிலை St+1 க்கு மாறி, எடுத்த நடவடிக்கையின் அடிப்படையில் Rt+1 என்ற பரிசை வழங்குகிறது.

பல நிகழ்வுகளில், முகவர் நிலை-நடவடிக்கை-பரிசு தொடர்களில் அனுபவம் சேர்க்கிறார். எந்த நடவடிக்கைகள் அதிக பரிசுகளை வழங்கின என்பதை பகுப்பாய்வு செய்து, முகவர் தனது கொள்கையை மெதுவாக மேம்படுத்துகிறான்.

முக்கியமாக, RL பிரச்சினைகள் ஆராய்ச்சி மற்றும் பயன்பாடு என்ற இரு அம்சங்களுக்கிடையேயான சமநிலையை கொண்டுள்ளன. முகவர் பரிசைப் பெற சிறந்த அறிந்த நடவடிக்கைகளை பயன்படுத்த வேண்டும், ஆனால் கூடுதலான நல்ல விளைவுகளை தரக்கூடிய புதிய நடவடிக்கைகளை ஆராயவும் வேண்டும்.

உதாரணமாக, ஒரு புதுப்பித்தல் கற்றல் முகவர் ஒரு ரோபோட்டை கட்டுப்படுத்தும்போது, பொதுவாக பாதுகாப்பான பாதையை (பயன்பாடு) தேர்ந்தெடுக்கலாம், ஆனால் சில நேரங்களில் வேகமான பாதையை கண்டுபிடிக்க புதிய பாதையை (ஆராய்ச்சி) முயற்சிக்கலாம். இந்த சமநிலை சிறந்த கொள்கையை கண்டுபிடிக்க அவசியம்.

கற்றல் செயல்முறை பெரும்பாலும் நடத்தைக் கற்றலை ஒப்பிடப்படுகிறது. உதாரணமாக, AWS குறிப்பிடுகிறது RL “மனிதர்கள் பயன்படுத்தும் சோதனை-பிழை கற்றல் முறையை பின்பற்றுகிறது”. ஒரு குழந்தை சுத்தம் செய்தால் பாராட்டப்படுவதை கற்றுக்கொள்கிறது, ஆனால் பொம்மைகள் எறிந்தால் தண்டனை பெறுவதை கற்றுக்கொள்கிறது; அதேபோல், RL முகவர் நல்ல நடவடிக்கைகளுக்கு நேர்மறை பின்னூட்டம் பெற்று, மோசமானவற்றுக்கு எதிர்மறை பின்னூட்டம் பெற்று பரிசுகளை பெறும் நடவடிக்கைகளை கற்றுக்கொள்கிறது.

காலப்போக்கில், முகவர் நீண்டகால குறிக்கோள்களை அடைய சிறந்த நடவடிக்கை தொடர்களை பிரதிபலிக்கும் மதிப்பீடுகள் அல்லது கொள்கைகளை உருவாக்குகிறான்.

வாசிப்பில், RL ஆல்கொரிதம்கள் நிகழ்வுகளில் பரிசுகளை சேர்த்து, எதிர்பார்க்கப்படும் வருமானத்தை (எதிர்கால பரிசுகளின் தொகை) அதிகரிக்க முயல்கின்றன. அவை உடனடி அதிகபட்ச பரிசை தராதாலும், எதிர்காலத்தில் அதிக பரிசுகளை தரக்கூடிய நடவடிக்கைகளை முன்னுரிமை அளிக்க கற்றுக்கொள்கின்றன. இந்த நீண்டகால இலாபத்திற்கான திட்டமிடும் திறன் (சில நேரங்களில் குறுகியகால தியாகங்களை ஏற்றுக்கொள்வது) RL ஐ சிக்கலான, தொடர்ச்சியான முடிவெடுப்பு பணிகளுக்கு பொருத்தமாக்குகிறது.

புதுப்பித்தல் கற்றல் எப்படி செயல்படுகிறது

புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்

புதுப்பித்தல் கற்றலை செயல்படுத்த பல ஆல்கொரிதம்கள் உள்ளன. பொதுவாக, அவை இரண்டு வகைகளாக பிரிக்கப்படுகின்றன: மாதிரி அடிப்படையிலான மற்றும் மாதிரி இல்லாத முறைகள்.

  • மாதிரி அடிப்படையிலான RL: முகவர் முதலில் சுற்றுப்புற இயக்கவியல் (நிலைகள் எப்படி மாறுகின்றன மற்றும் பரிசுகள் எப்படி வழங்கப்படுகின்றன) பற்றிய மாதிரியை கற்றுக்கொள்கிறார் அல்லது அறிவார், பின்னர் முடிவுகளை சிமுலேட் செய்து நடவடிக்கைகளை திட்டமிடுகிறார். உதாரணமாக, ஒரு கட்டிடத்தில் குறுகிய பாதையை கண்டுபிடிக்க ரோபோட் வரைபடம் உருவாக்குவது மாதிரி அடிப்படையிலான அணுகுமுறை ஆகும்.

  • மாதிரி இல்லாத RL: முகவருக்கு சுற்றுப்புறத்தின் வெளிப்படையான மாதிரி இல்லை, மற்றும் உண்மையான (அல்லது சிமுலேட்டான) சுற்றுப்புறத்தில் சோதனை-பிழை மூலம் மட்டுமே கற்றுக்கொள்கிறார். மாதிரியுடன் திட்டமிடுவதற்குப் பதிலாக, அனுபவத்திலிருந்து மதிப்பீடுகள் அல்லது கொள்கைகளை படிப்படியாக புதுப்பிக்கிறார். பெரும்பாலான பாரம்பரிய RL ஆல்கொரிதம்கள் (Q-கற்றல் அல்லது காலத்தொடர் கற்றல் போன்றவை) மாதிரி இல்லாதவை.

இந்த வகைகளுக்குள், ஆல்கொரிதம்கள் கொள்கை அல்லது மதிப்பீட்டு செயல்பாட்டை எப்படி பிரதிநிதித்துவம் செய்து புதுப்பிக்கின்றன என்பதில் வேறுபடுகின்றன. உதாரணமாக, Q-கற்றல் (மதிப்பீடு அடிப்படையிலான முறை) நிலை-நடவடிக்கை ஜோடிகளுக்கான “Q-மதிப்புகளை” (எதிர்பார்க்கப்படும் வருமானம்) கற்றுக்கொண்டு, அதிக மதிப்புள்ள நடவடிக்கையை தேர்ந்தெடுக்கிறது.

கொள்கை-ஊக்க முறைகள் நேரடியாக கொள்கையை அளவிடும் மற்றும் எதிர்பார்க்கப்படும் பரிசின் மேல் சரிவை பயன்படுத்தி அதன் அளவுருக்களை சரிசெய்கின்றன. பல முன்னேற்றமான முறைகள் (எ.கா., நடிகர்-ஆளுநர் அல்லது நம்பிக்கை மண்டலம் கொள்கை மேம்பாடு) மதிப்பீடு மற்றும் கொள்கை மேம்பாட்டை இணைக்கின்றன.

சமீபத்திய முக்கிய முன்னேற்றம் ஆழ்ந்த புதுப்பித்தல் கற்றல். இதில், ஆழ்ந்த நரம்பியல் வலைப்பின்னல்கள் மதிப்பீட்டு செயல்பாடுகள் அல்லது கொள்கைகளுக்கான செயல்பாட்டு நிகர்ப்பாளர்களாக செயல்படுகின்றன, இது RL ஐ படங்கள் போன்ற உயர் பரிமாண உள்ளீடுகளை கையாள அனுமதிக்கிறது. DeepMind இன் அட்டாரி விளையாட்டுகள் மற்றும் பலகை விளையாட்டுகளில் (எ.கா., AlphaGo) வெற்றி ஆழ்ந்த கற்றல் மற்றும் RL ஐ இணைத்ததன் மூலம் வந்தது. ஆழ்ந்த RL இல், Deep Q-நெட்வொர்க்கள் (DQN) அல்லது ஆழ்ந்த கொள்கை-ஊக்க முறை போன்ற ஆல்கொரிதம்கள் RL ஐ சிக்கலான உண்மையான பணிகளுக்கு விரிவாக்குகின்றன.

உதாரணமாக, AWS குறிப்பிடுகிறது பொதுவான RL ஆல்கொரிதம்களில் Q-கற்றல், மொன்டே கார்லோ முறைகள், கொள்கை-ஊக்க முறைகள் மற்றும் காலத்தொடர் கற்றல் உள்ளன, மேலும் “ஆழ்ந்த RL” என்பது இந்த முறைகளில் ஆழ்ந்த நரம்பியல் வலைப்பின்னல்களின் பயன்பாட்டைக் குறிக்கிறது.

புதுப்பித்தல் கற்றல் ஆல்கொரிதம்களின் வகைகள்

புதுப்பித்தல் கற்றலின் பயன்பாடுகள்

புதுப்பித்தல் கற்றல், தொடர்ச்சியான முடிவெடுப்பு மற்றும் அநிச்சயத்திற்குள் செயல்பட வேண்டிய பல துறைகளில் பயன்படுத்தப்படுகிறது. முக்கிய பயன்பாடுகள்:

  • விளையாட்டுகள் மற்றும் சிமுலேஷன்: RL விளையாட்டுகள் மற்றும் சிமுலேட்டர்களை வெற்றிகரமாக கையாளியுள்ளது. உதாரணமாக, DeepMind இன் AlphaGo மற்றும் AlphaZero RL பயன்படுத்தி கோ மற்றும் சதுரங்கத்தில் மனிதர்களுக்கு மேல் திறனை பெற்றுள்ளன. வீடியோ விளையாட்டுகள் (அட்டாரி, ஸ்டார்கிராஃப்) மற்றும் சிமுலேஷன்கள் (பொருளியல், ரோபோட்டிக்ஸ் சிமுலேட்டர்கள்) RL சோதனை நிலைகளாகும், ஏனெனில் சுற்றுப்புறம் நன்கு வரையறுக்கப்பட்டு பல முயற்சிகள் சாத்தியமாகும்.
  • ரோபோட்டிக்ஸ் மற்றும் கட்டுப்பாடு: தன்னாட்சி ரோபோட்டுகள் மற்றும் சுய இயக்கக் கார்கள் இயக்கமுள்ள சுற்றுப்புறங்களில் முகவர்களாக இருக்கின்றன. சோதனை-பிழை மூலம், RL ஒரு ரோபோட்டுக்கு பொருட்களை பிடிக்க கற்றுக்கொடுக்கலாம் அல்லது காரை போக்குவரத்தைக் கட்டுப்படுத்த கற்றுக்கொடுக்கலாம். IBM குறிப்பிடுகிறது, ரோபோட்டுகள் மற்றும் சுய இயக்கக் கார்கள் RL முகவர்களின் சிறந்த உதாரணங்கள்.
  • பரிந்துரை அமைப்புகள் மற்றும் சந்தைப்படுத்தல்: RL பயனர் தொடர்புகளின் அடிப்படையில் உள்ளடக்கம் அல்லது விளம்பரங்களை தனிப்பயனாக்க முடியும். உதாரணமாக, RL அடிப்படையிலான பரிந்துரை அமைப்பு பயனர்கள் கிளிக் செய்யும் அல்லது தவிர்க்கும் பொருட்களைப் பார்த்து பரிந்துரைகளை புதுப்பித்து, காலப்போக்கில் மிக பொருத்தமான விளம்பரங்கள் அல்லது பொருட்களை வழங்க கற்றுக்கொள்கிறது.
  • வள வளமைப்பு: RL நீண்டகால குறிக்கோள்களுடன் அமைப்புகளை மேம்படுத்த சிறந்தது. உதாரணமாக, தரவு மைய குளிரூட்டலை குறைத்து சக்தி பயன்பாட்டை குறைத்தல், ஸ்மார்ட் கிரிட் சக்தி சேமிப்பு கட்டுப்பாடு, அல்லது மேக கணினி வளங்களை நிர்வகித்தல். AWS “மேக செலவு மேம்பாடு” போன்ற பயன்பாடுகளை குறிப்பிடுகிறது, இதில் RL முகவர் சிறந்த செலவு திறனை அடைய கணினி வளங்களை ஒதுக்க கற்றுக்கொள்கிறது.
  • நிதி மற்றும் வர்த்தகம்: நிதி சந்தைகள் இயக்கமுள்ள மற்றும் தொடர்ச்சியானவை. RL வர்த்தக தந்திரங்கள், பங்குச் சுருக்கம் மற்றும் பாதுகாப்பு ஆகியவற்றை மேம்படுத்த ஆராயப்பட்டுள்ளது, வர்த்தகங்களை சிமுலேட் செய்து எந்த நடவடிக்கைகள் அதிக வருமானம் தருகின்றன என்பதை கற்றுக்கொள்கிறது.

இந்த உதாரணங்கள் RL இன் நீண்டகால திட்டமிடல் திறனை வெளிப்படுத்துகின்றன. உடனடி விளைவுகளை மட்டும் கணிக்கின்ற முறைகளுக்கு மாறாக, RL சேர்க்கப்பட்ட பரிசுகளை அதிகரிக்க முற்படுகிறது, ஆகவே நடவடிக்கைகளுக்கு தாமதமான விளைவுகள் உள்ள பிரச்சினைகளுக்கு மிகவும் பொருத்தமானது.

புதுப்பித்தல் கற்றலின் பயன்பாடுகள்

புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல் முறைகள்

புதுப்பித்தல் கற்றல் இயந்திரக் கற்றலின் மூன்று முக்கிய முறைகளில் ஒன்றாகும் (மேற்பார்வை மற்றும் மேற்பார்வையற்ற கற்றலுடன்), ஆனால் கவனிப்பில் வேறுபடுகிறது. மேற்பார்வை கற்றல் குறிச்சொற்கள் கொண்ட உள்ளீடு-வெளியீடு ஜோடிகளைக் கொண்டு பயிற்சி பெறுகிறது, மேற்பார்வையற்ற கற்றல் குறிச்சொற்கள் இல்லாத தரவுகளில் மாதிரிகளை கண்டறிகிறது.

மாறாக, RL சரியான நடத்தை குறிச்சொற்கள் தேவையில்லை. அதற்கு பதிலாக, பரிசு சிக்னல் மூலம் குறிக்கோளை வரையறுத்து, சோதனை-பிழை மூலம் கற்றுக்கொள்கிறது. RL இல் “பயிற்சி தரவு” (நிலை-நடவடிக்கை-பரிசு தொகுதிகள்) தொடர்ச்சியான மற்றும் பரஸ்பர சார்ந்தவை, ஏனெனில் ஒவ்வொரு நடவடிக்கையும் எதிர்கால நிலைகளை பாதிக்கிறது.

எளிமையாகச் சொன்னால், மேற்பார்வை கற்றல் ஒரு மாதிரிக்கு என்ன கணிக்க வேண்டும் என்பதை கூறுகிறது; புதுப்பித்தல் கற்றல் ஒரு முகவருக்கு எப்படி செயல்பட வேண்டும் என்பதை கற்றுக்கொடுக்கிறது. IBM இன் பார்வைபடி, RL “நேர்மறை புதுப்பித்தல்” (பரிசு) மூலம் கற்றுக்கொள்கிறது, சரியான பதில்களை காட்டுவதால் அல்ல.

இதனால் RL முடிவெடுப்பு மற்றும் கட்டுப்பாடு பணிகளுக்கு மிகவும் சக்திவாய்ந்ததாகும். ஆனால், குறிச்சொற்கள் இல்லாத பின்னூட்டம் காரணமாக, முகவர் நல்ல நடவடிக்கைகளை தனக்கே கண்டுபிடிக்க வேண்டும், இது சுற்றுப்புறத்தை அதிகமாக ஆராய்வதை தேவைப்படுத்துகிறது.

புதுப்பித்தல் கற்றல் மற்றும் பிற இயந்திரக் கற்றல் முறைகள்

புதுப்பித்தல் கற்றலின் சவால்கள்

அதன் சக்தியின்பினும், RL க்கு நடைமுறை சவால்கள் உள்ளன:

  • மாதிரிப் பயிற்சி குறைவு: RL பல பெரிய அளவிலான அனுபவங்களை (சோதனைகள்) தேவையாக்கிறது சிறந்த கொள்கைகளை கற்றுக்கொள்ள. உண்மையான உலகில் பயிற்சி செலவானது அல்லது மெதுவானது (எ.கா., ஒரு ரோபோட் ஒரு பணியை கற்றுக்கொள்ள மில்லியன் சோதனைகள் தேவைப்படலாம்). இதனால், பல RL அமைப்புகள் வெளியீட்டிற்கு முன் சிமுலேஷனில் பயிற்சி பெறுகின்றன.
  • பரிசு வடிவமைப்பு: பொருத்தமான பரிசு செயல்பாட்டை வரையறுத்தல் சிக்கலானது. தவறான பரிசு திட்டம் எதிர்பாராத நடத்தை (முகவர் உண்மையான குறிக்கோளுடன் பொருந்தாதவாறு பரிசை “விளையாடலாம்”) உருவாக்கும். நீண்டகால குறிக்கோள்களை பிடிக்கும், தவறான சுருக்கங்கள் இல்லாத பரிசுகளை வடிவமைத்தல் RL ஆராய்ச்சியில் ஒரு கலை.
  • நிலைத்தன்மை மற்றும் பாதுகாப்பு: உண்மையான உலக சூழல்களில் (ரோபோட்டிக்ஸ், சுகாதாரம், நிதி) பாதுகாப்பற்ற ஆராய்ச்சி நடவடிக்கைகள் ஆபத்தானவையாகவோ அல்லது செலவானவையாகவோ இருக்கலாம். AWS குறிப்பிடுகிறது உண்மையான உலக பரிசோதனை (எ.கா., ட்ரோன் பறக்க) சிமுலேஷன் இல்லாமல் நடைமுறைப்படுத்த முடியாது. கற்றலும் வெளியீட்டும் போது பாதுகாப்பை உறுதி செய்வது RL ஆராய்ச்சியின் முக்கிய பகுதி.
  • புரிதல் சிக்கல்: கற்றுக்கொள்ளப்பட்ட RL கொள்கைகள் (சிறப்பாக ஆழ்ந்த RL மாதிரிகள்) தெளிவற்றவை. முகவர் ஏன் குறிப்பிட்ட நடவடிக்கைகளை எடுத்தார் என்பதை புரிந்துகொள்வது கடினம், இது அமைப்பை பிழைத்திருத்த அல்லது நம்புவதற்கு சிரமம். இந்த புரிதல் குறைவு சிக்கலான RL அமைப்புகளுக்கான வெளியீட்டு சவால் ஆகும்.

இந்த சவால்கள் ஒவ்வொன்றும் தொடர்ச்சியான ஆராய்ச்சிக்குரிய பொருள். தடைகள் இருந்தாலும், RL இன் நடைமுறை வெற்றிகள் (விளையாட்டுகள், ரோபோட்டிக்ஸ், பரிந்துரை அமைப்புகள் போன்றவை) கவனமாக பயன்படுத்தினால் RL சிறந்த முடிவுகளை தரக்கூடியது என்பதை காட்டுகின்றன.

>>>மேலும் அறிய கிளிக் செய்யவும்:

உற்பத்தி செயற்கை நுண்ணறிவு (Generative AI) என்றால் என்ன?

நியூரல் நெட்வொர்க் என்றால் என்ன?

புதுப்பித்தல் கற்றலின் சவால்கள்


சுருக்கமாக, புதுப்பித்தல் கற்றல் என்பது தன்னாட்சி கற்றல் கட்டமைப்பு ஆகும், இதில் ஒரு முகவர் சுற்றுப்புறத்துடன் தொடர்பு கொண்டு குறிக்கோள்களை அடைய கற்றுக்கொள்கிறார் மற்றும் சேர்க்கப்பட்ட பரிசை அதிகரிக்கிறார். இது சிறந்த கட்டுப்பாடு, இயக்கத் திட்டமிடல் மற்றும் நடத்தைக் கலைவியல் கருத்துக்களை இணைத்து, பல நவீன செயற்கை நுண்ணறிவு முன்னேற்றங்களின் அடித்தளமாக உள்ளது.

பிரச்சினைகளை தொடர்ச்சியான முடிவெடுப்பு பணிகளாக வடிவமைத்து பின்னூட்டத்துடன், RL இயந்திரங்களுக்கு சிக்கலான நடத்தை தனக்கே கற்றுக்கொள்ள உதவுகிறது, தரவு சார்ந்த கற்றலும் குறிக்கோள் சார்ந்த செயல்பாடுகளுக்கு இடையேயான இடைவெளியை நிரப்புகிறது.

External References
This article has been compiled with reference to the following external sources: