रिइन्फोर्समेंट लर्निंग क्या है?
रिइन्फोर्समेंट लर्निंग (RL) मशीन लर्निंग की एक शाखा है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके निर्णय लेना सीखता है। RL में, एजेंट का लक्ष्य एक नीति (रणनीति) सीखना होता है जो समय के साथ संचयी पुरस्कारों को अधिकतम करे।
रिइन्फोर्समेंट लर्निंग (RL) मशीन लर्निंग की एक शाखा है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके निर्णय लेना सीखता है। RL में, एजेंट का लक्ष्य एक नीति (एक रणनीति) सीखना होता है जो समय के साथ संचयी पुरस्कार को अधिकतम करे।
सुपरवाइज्ड लर्निंग के विपरीत, जिसमें लेबल वाले उदाहरणों की आवश्यकता होती है, RL ट्रायल-एंड-एरर फीडबैक पर निर्भर करता है: वे क्रियाएं जो सकारात्मक परिणाम (पुरस्कार) देती हैं उन्हें मजबूत किया जाता है, जबकि नकारात्मक परिणाम (सजा) देने वाली क्रियाओं से बचा जाता है।
RL मूलतः "लक्ष्य-उन्मुख सीखने और निर्णय लेने को समझने और स्वचालित करने के लिए एक कम्प्यूटेशनल दृष्टिकोण" है जहाँ एजेंट सीधे अपने पर्यावरण के साथ इंटरैक्ट करके सीखता है, बिना बाहरी पर्यवेक्षण या पूरी दुनिया के मॉडल की आवश्यकता के।
— Sutton और Barto, रिइन्फोर्समेंट लर्निंग शोधकर्ता
व्यवहार में, इसका मतलब है कि एजेंट लगातार स्थिति-क्रिया स्थान का अन्वेषण करता है, अपनी क्रियाओं के परिणामों का अवलोकन करता है, और भविष्य के पुरस्कारों को बेहतर बनाने के लिए अपनी रणनीति समायोजित करता है।
मुख्य अवधारणाएँ और घटक
रिइन्फोर्समेंट लर्निंग में कई मूल तत्व शामिल होते हैं। सामान्य शब्दों में, एक एजेंट (सीखने वाला या निर्णय लेने वाली इकाई) पर्यावरण (बाहरी प्रणाली या समस्या क्षेत्र) के साथ क्रियाएं लेकर इंटरैक्ट करता है।
प्रत्येक चरण में एजेंट पर्यावरण की वर्तमान स्थिति देखता है, एक क्रिया करता है, और फिर पर्यावरण से एक पुरस्कार (संख्यात्मक फीडबैक संकेत) प्राप्त करता है। कई ऐसे इंटरैक्शन के बाद, एजेंट अपने कुल (संचयी) पुरस्कार को अधिकतम करने का प्रयास करता है।
एजेंट
पर्यावरण
क्रिया
स्थिति
पुरस्कार
नीति
मूल्य फ़ंक्शन
मॉडल (वैकल्पिक)

रिइन्फोर्समेंट लर्निंग कैसे काम करता है
RL को अक्सर मार्कोव निर्णय प्रक्रिया (MDP) के रूप में औपचारिक किया जाता है। प्रत्येक डिस्क्रीट समय चरण में, एजेंट एक स्थिति St देखता है और एक क्रिया At चुनता है। इसके बाद पर्यावरण एक नई स्थिति St+1 में स्थानांतरित होता है और लिए गए क्रिया के आधार पर एक पुरस्कार Rt+1 जारी करता है।
कई एपिसोड के दौरान, एजेंट स्थिति-क्रिया-पुरस्कार अनुक्रमों के रूप में अनुभव जमा करता है। यह विश्लेषण करके कि कौन सी क्रियाएं उच्च पुरस्कारों की ओर ले गईं, एजेंट धीरे-धीरे अपनी नीति में सुधार करता है।
उदाहरण के लिए, एक रिइन्फोर्समेंट लर्निंग एजेंट जो एक रोबोट को नियंत्रित करता है, आमतौर पर एक सुरक्षित प्रमाणित मार्ग (शोषण) ले सकता है लेकिन कभी-कभी एक नया मार्ग (अन्वेषण) आज़माता है ताकि संभवतः तेज़ मार्ग खोज सके। इस संतुलन को बनाए रखना इष्टतम नीति खोजने के लिए आवश्यक है।
RL "ट्रायल-एंड-एरर सीखने की प्रक्रिया की नकल करता है जिसका उपयोग मनुष्य करते हैं"। एक बच्चा सीख सकता है कि सफाई करने पर प्रशंसा मिलती है जबकि खिलौने फेंकने पर डांट मिलती है; इसी तरह, एक RL एजेंट सीखता है कि कौन सी क्रियाएं पुरस्कार देती हैं सकारात्मक फीडबैक से अच्छी क्रियाओं के लिए और नकारात्मक फीडबैक से खराब क्रियाओं के लिए।
— AWS मशीन लर्निंग दस्तावेज़ीकरण
समय के साथ, एजेंट मूल्य अनुमानों या नीतियों का निर्माण करता है जो दीर्घकालिक लक्ष्यों को प्राप्त करने के लिए सर्वोत्तम क्रियाओं के अनुक्रम को पकड़ती हैं।
व्यवहार में, RL एल्गोरिदम एपिसोड के दौरान पुरस्कार जमा करते हैं और अपेक्षित रिटर्न (भविष्य के पुरस्कारों का योग) को अधिकतम करने का लक्ष्य रखते हैं। वे उन क्रियाओं को प्राथमिकता देना सीखते हैं जो उच्च भविष्य के पुरस्कारों की ओर ले जाती हैं, भले ही वे क्रियाएं तत्काल सबसे अधिक पुरस्कार न दें। दीर्घकालिक लाभ के लिए योजना बनाने की यह क्षमता (कभी-कभी अल्पकालिक बलिदान स्वीकार करते हुए) RL को जटिल, अनुक्रमिक निर्णय कार्यों के लिए उपयुक्त बनाती है।

रिइन्फोर्समेंट लर्निंग एल्गोरिदम के प्रकार
रिइन्फोर्समेंट लर्निंग को लागू करने के लिए कई एल्गोरिदम हैं। व्यापक रूप से, वे दो वर्गों में आते हैं: मॉडल-आधारित और मॉडल-फ्री विधियाँ।
योजना बनाने का दृष्टिकोण
एजेंट पहले पर्यावरण की गतिशीलता का मॉडल सीखता है या जानता है (कैसे स्थितियां बदलती हैं और पुरस्कार कैसे दिए जाते हैं) और फिर परिणामों का अनुकरण करके क्रियाओं की योजना बनाता है।
- सीमित डेटा के साथ कुशल
 - प्रभावी रूप से आगे की योजना बना सकता है
 - सटीक पर्यावरण मॉडल की आवश्यकता
 
उदाहरण: एक रोबोट जो सबसे छोटा मार्ग खोजने के लिए एक भवन का नक्शा बनाता है, मॉडल-आधारित दृष्टिकोण का उपयोग कर रहा है।
प्रत्यक्ष सीखना
एजेंट के पास पर्यावरण का कोई स्पष्ट मॉडल नहीं होता और वह केवल वास्तविक (या सिम्युलेटेड) पर्यावरण में ट्रायल और एरर से सीखता है।
- पर्यावरण मॉडल की आवश्यकता नहीं
 - जटिल पर्यावरणों के साथ काम करता है
 - अधिक अनुभव की आवश्यकता
 
उदाहरण: अधिकांश क्लासिक RL एल्गोरिदम (जैसे Q-लर्निंग या टेम्पोरल-डिफरेंस लर्निंग) मॉडल-फ्री होते हैं।
इन वर्गों के भीतर, एल्गोरिदम नीति या मूल्य फ़ंक्शन को कैसे प्रस्तुत और अपडेट करते हैं, इसमें भिन्नता होती है। उदाहरण के लिए, Q-लर्निंग (एक मूल्य-आधारित विधि) स्थिति-क्रिया जोड़ों के लिए "Q-मूल्यों" (अपेक्षित रिटर्न) का अनुमान सीखती है और सबसे उच्च मूल्य वाली क्रिया चुनती है।
नीति-ग्रेडिएंट विधियाँ सीधे नीति को पैरामीटराइज़ करती हैं और अपेक्षित पुरस्कार पर ग्रेडिएंट आरोहण के माध्यम से इसके पैरामीटर समायोजित करती हैं। कई उन्नत विधियाँ (जैसे एक्टोर-क्रिटिक या ट्रस्ट रीजन नीति ऑप्टिमाइजेशन) मूल्य अनुमान और नीति अनुकूलन को संयोजित करती हैं।
डीप RL में, एल्गोरिदम जैसे डीप Q-नेटवर्क्स (DQN) या डीप नीति ग्रेडिएंट्स RL को जटिल वास्तविक दुनिया के कार्यों तक स्केल करते हैं।
सामान्य RL एल्गोरिदम में Q-लर्निंग, मोंटे कार्लो विधियाँ, नीति-ग्रेडिएंट विधियाँ, और टेम्पोरल-डिफरेंस लर्निंग शामिल हैं, और "डीप RL" इन विधियों में डीप न्यूरल नेटवर्क के उपयोग को संदर्भित करता है।
— AWS मशीन लर्निंग दस्तावेज़ीकरण

रिइन्फोर्समेंट लर्निंग के अनुप्रयोग
रिइन्फोर्समेंट लर्निंग कई क्षेत्रों में लागू होता है जहाँ अनिश्चितता के तहत अनुक्रमिक निर्णय लेना महत्वपूर्ण होता है। प्रमुख अनुप्रयोगों में शामिल हैं:
खेल और सिमुलेशन
RL ने प्रसिद्ध रूप से खेलों और सिमुलेटरों में महारत हासिल की है। DeepMind का AlphaGo और AlphaZero RL का उपयोग करके गो और शतरंज में सुपरह्यूमन स्तर पर पहुँचे।
- वीडियो गेम्स (अटारी, स्टारक्राफ्ट)
 - बोर्ड गेम्स (गो, शतरंज)
 - भौतिकी सिमुलेशन
 - रोबोटिक्स सिमुलेटर
 
रोबोटिक्स और नियंत्रण
स्वायत्त रोबोट और सेल्फ-ड्राइविंग कारें गतिशील पर्यावरणों में ट्रायल और एरर के माध्यम से सीखने वाले एजेंट हैं।
- वस्तु पकड़ना और संचालन
 - स्वायत्त नेविगेशन
 - सेल्फ-ड्राइविंग वाहन
 - औद्योगिक स्वचालन
 
सिफारिश प्रणाली
RL उपयोगकर्ता इंटरैक्शन के आधार पर सामग्री या विज्ञापन को व्यक्तिगत बना सकता है, समय के साथ सबसे प्रासंगिक आइटम प्रस्तुत करना सीखता है।
- सामग्री व्यक्तिगतकरण
 - विज्ञापन लक्ष्यीकरण अनुकूलन
 - उत्पाद सिफारिशें
 - उपयोगकर्ता सहभागिता अनुकूलन
 
संसाधन अनुकूलन
RL लंबी अवधि के उद्देश्यों और जटिल संसाधन आवंटन चुनौतियों वाले सिस्टम को अनुकूलित करने में उत्कृष्ट है।
- डेटा सेंटर कूलिंग अनुकूलन
 - स्मार्ट ग्रिड ऊर्जा भंडारण
 - क्लाउड कंप्यूटिंग संसाधन
 - सप्लाई चेन प्रबंधन
 
वित्त और ट्रेडिंग
वित्तीय बाजार गतिशील और अनुक्रमिक होते हैं, जिससे RL ट्रेडिंग रणनीतियों और पोर्टफोलियो प्रबंधन के लिए उपयुक्त होता है।
- एल्गोरिदमिक ट्रेडिंग रणनीतियाँ
 - पोर्टफोलियो अनुकूलन
 - जोखिम प्रबंधन
 - मार्केट मेकिंग
 

रिइन्फोर्समेंट लर्निंग बनाम अन्य मशीन लर्निंग
रिइन्फोर्समेंट लर्निंग मशीन लर्निंग के तीन प्रमुख प्रतिमानों में से एक है (सुपरवाइज्ड और अनसुपरवाइज्ड लर्निंग के साथ), लेकिन इसका फोकस काफी अलग है। सुपरवाइज्ड लर्निंग लेबल वाले इनपुट-आउटपुट जोड़ों पर प्रशिक्षण देता है, जबकि अनसुपरवाइज्ड लर्निंग बिना लेबल वाले डेटा में पैटर्न खोजता है।
| पहलू | सुपरवाइज्ड लर्निंग | अनसुपरवाइज्ड लर्निंग | रिइन्फोर्समेंट लर्निंग | 
|---|---|---|---|
| डेटा प्रकार | लेबल वाले इनपुट-आउटपुट जोड़े | बिना लेबल वाला डेटा | अनुक्रमिक स्थिति-क्रिया-पुरस्कार ट्यूपल | 
| सीखने का लक्ष्य | सही आउटपुट की भविष्यवाणी | छिपे पैटर्न खोजना | संचयी पुरस्कार को अधिकतम करना | 
| फीडबैक प्रकार | प्रत्यक्ष सही उत्तर | कोई फीडबैक नहीं | पुरस्कार/सजा संकेत | 
| सीखने की विधि | उदाहरणों से सीखना | संरचना की खोज | ट्रायल-एंड-एरर अन्वेषण | 
इसके विपरीत, RL को सही व्यवहार के लेबल वाले उदाहरणों की आवश्यकता नहीं होती। इसके बजाय, यह पुरस्कार संकेत के माध्यम से एक लक्ष्य परिभाषित करता है और ट्रायल और एरर से सीखता है। RL में, "प्रशिक्षण डेटा" (स्थिति-क्रिया-पुरस्कार ट्यूपल) अनुक्रमिक और परस्पर निर्भर होते हैं, क्योंकि प्रत्येक क्रिया भविष्य की स्थितियों को प्रभावित करती है।
सरल शब्दों में, सुपरवाइज्ड लर्निंग एक मॉडल को बताता है कि क्या भविष्यवाणी करनी है; रिइन्फोर्समेंट लर्निंग एक एजेंट को सिखाता है कि कैसे कार्य करना है। RL "सकारात्मक सुदृढीकरण" (पुरस्कार) द्वारा सीखता है बजाय सही उत्तर दिखाए जाने के।
— IBM मशीन लर्निंग अवलोकन
यह RL को विशेष रूप से निर्णय लेने और नियंत्रण वाले कार्यों के लिए शक्तिशाली बनाता है। हालांकि, इसका मतलब यह भी है कि RL अधिक चुनौतीपूर्ण हो सकता है: बिना लेबल वाले फीडबैक के, एजेंट को स्वयं अच्छे क्रियाओं की खोज करनी होती है, जिसके लिए अक्सर पर्यावरण का व्यापक अन्वेषण आवश्यक होता है।

रिइन्फोर्समेंट लर्निंग की चुनौतियाँ
अपनी शक्ति के बावजूद, RL के साथ व्यावहारिक चुनौतियाँ आती हैं:
नमूना अक्षमता
पुरस्कार डिजाइन
स्थिरता और सुरक्षा
व्याख्यात्मकता

निष्कर्ष
संक्षेप में, रिइन्फोर्समेंट लर्निंग एक स्वायत्त सीखने का फ्रेमवर्क है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके और संचयी पुरस्कार को अधिकतम करके लक्ष्य प्राप्त करना सीखता है। यह इष्टतम नियंत्रण, डायनामिक प्रोग्रामिंग, और व्यवहार मनोविज्ञान के विचारों को जोड़ता है, और यह कई आधुनिक AI सफलताओं की नींव है।
समस्याओं को अनुक्रमिक निर्णय लेने के कार्यों के रूप में फ्रेम करके और फीडबैक के साथ, RL मशीनों को जटिल व्यवहार स्वयं सीखने में सक्षम बनाता है, डेटा-चालित सीखने और लक्ष्य-उन्मुख क्रिया के बीच की खाई को पाटता है।