रिइन्फोर्समेंट लर्निंग क्या है?

रिइन्फोर्समेंट लर्निंग (RL) मशीन लर्निंग की एक शाखा है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके निर्णय लेना सीखता है। RL में, एजेंट का लक्ष्य एक नीति (रणनीति) सीखना होता है जो समय के साथ संचयी पुरस्कारों को अधिकतम करे।

रिइन्फोर्समेंट लर्निंग (RL) मशीन लर्निंग की एक शाखा है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके निर्णय लेना सीखता है। RL में, एजेंट का लक्ष्य एक नीति (एक रणनीति) सीखना होता है जो समय के साथ संचयी पुरस्कार को अधिकतम करे।

सुपरवाइज्ड लर्निंग के विपरीत, जिसमें लेबल वाले उदाहरणों की आवश्यकता होती है, RL ट्रायल-एंड-एरर फीडबैक पर निर्भर करता है: वे क्रियाएं जो सकारात्मक परिणाम (पुरस्कार) देती हैं उन्हें मजबूत किया जाता है, जबकि नकारात्मक परिणाम (सजा) देने वाली क्रियाओं से बचा जाता है।

RL मूलतः "लक्ष्य-उन्मुख सीखने और निर्णय लेने को समझने और स्वचालित करने के लिए एक कम्प्यूटेशनल दृष्टिकोण" है जहाँ एजेंट सीधे अपने पर्यावरण के साथ इंटरैक्ट करके सीखता है, बिना बाहरी पर्यवेक्षण या पूरी दुनिया के मॉडल की आवश्यकता के।

— Sutton और Barto, रिइन्फोर्समेंट लर्निंग शोधकर्ता

व्यवहार में, इसका मतलब है कि एजेंट लगातार स्थिति-क्रिया स्थान का अन्वेषण करता है, अपनी क्रियाओं के परिणामों का अवलोकन करता है, और भविष्य के पुरस्कारों को बेहतर बनाने के लिए अपनी रणनीति समायोजित करता है।

अनुक्रमणिका

मुख्य अवधारणाएँ और घटक

रिइन्फोर्समेंट लर्निंग में कई मूल तत्व शामिल होते हैं। सामान्य शब्दों में, एक एजेंट (सीखने वाला या निर्णय लेने वाली इकाई) पर्यावरण (बाहरी प्रणाली या समस्या क्षेत्र) के साथ क्रियाएं लेकर इंटरैक्ट करता है।

प्रत्येक चरण में एजेंट पर्यावरण की वर्तमान स्थिति देखता है, एक क्रिया करता है, और फिर पर्यावरण से एक पुरस्कार (संख्यात्मक फीडबैक संकेत) प्राप्त करता है। कई ऐसे इंटरैक्शन के बाद, एजेंट अपने कुल (संचयी) पुरस्कार को अधिकतम करने का प्रयास करता है।

एजेंट

स्वायत्त सीखने वाला (जैसे AI प्रोग्राम या रोबोट) जो निर्णय लेता है।

पर्यावरण

वह दुनिया या समस्या क्षेत्र जिसके साथ एजेंट इंटरैक्ट करता है। पर्यावरण एजेंट को वर्तमान स्थिति प्रदान करता है और एजेंट की क्रिया के आधार पर पुरस्कार की गणना करता है।

क्रिया

पर्यावरण को प्रभावित करने के लिए एजेंट द्वारा लिया गया निर्णय या कदम। विभिन्न क्रियाएं विभिन्न स्थितियों और पुरस्कारों की ओर ले जा सकती हैं।

स्थिति

पर्यावरण का एक प्रतिनिधित्व किसी दिए गए समय पर (उदाहरण के लिए, खेल बोर्ड पर टुकड़ों की स्थिति या रोबोट में सेंसर रीडिंग)। एजेंट अपनी अगली क्रिया तय करने के लिए स्थिति का उपयोग करता है।

पुरस्कार

एक स्केलर फीडबैक संकेत (सकारात्मक, नकारात्मक, या शून्य) जो प्रत्येक क्रिया के बाद पर्यावरण द्वारा दिया जाता है। यह क्रिया के तत्काल लाभ (या लागत) को मापता है। एजेंट का लक्ष्य समय के साथ अपेक्षित संचयी पुरस्कार को अधिकतम करना है।

नीति

एजेंट की क्रियाओं को चुनने की रणनीति, जो आमतौर पर स्थितियों से क्रियाओं का मैपिंग होती है। सीखने के माध्यम से, एजेंट एक इष्टतम या लगभग इष्टतम नीति खोजने का प्रयास करता है।

मूल्य फ़ंक्शन

एक अनुमानित अपेक्षित भविष्य का पुरस्कार (संचयी पुरस्कार) जो एजेंट किसी दिए गए स्थिति (या स्थिति-क्रिया जोड़ी) से प्राप्त करेगा। मूल्य फ़ंक्शन एजेंट को क्रियाओं के दीर्घकालिक परिणामों का मूल्यांकन करने में मदद करता है।

मॉडल (वैकल्पिक)

मॉडल-आधारित RL में, एजेंट पर्यावरण की गतिशीलता (क्रियाओं के आधार पर स्थितियों का परिवर्तन) का आंतरिक मॉडल बनाता है और इसका उपयोग योजना बनाने के लिए करता है। मॉडल-फ्री RL में, ऐसा कोई मॉडल नहीं बनाया जाता; एजेंट केवल ट्रायल-एंड-एरर अनुभव से सीखता है।
मुख्य अवधारणाएँ और घटक रिइन्फोर्समेंट लर्निंग
रिइन्फोर्समेंट लर्निंग फ्रेमवर्क के मुख्य अवधारणाएँ और घटक

रिइन्फोर्समेंट लर्निंग कैसे काम करता है

RL को अक्सर मार्कोव निर्णय प्रक्रिया (MDP) के रूप में औपचारिक किया जाता है। प्रत्येक डिस्क्रीट समय चरण में, एजेंट एक स्थिति St देखता है और एक क्रिया At चुनता है। इसके बाद पर्यावरण एक नई स्थिति St+1 में स्थानांतरित होता है और लिए गए क्रिया के आधार पर एक पुरस्कार Rt+1 जारी करता है।

कई एपिसोड के दौरान, एजेंट स्थिति-क्रिया-पुरस्कार अनुक्रमों के रूप में अनुभव जमा करता है। यह विश्लेषण करके कि कौन सी क्रियाएं उच्च पुरस्कारों की ओर ले गईं, एजेंट धीरे-धीरे अपनी नीति में सुधार करता है।

अन्वेषण बनाम शोषण: RL समस्याओं में अन्वेषण और शोषण के बीच एक महत्वपूर्ण संतुलन होता है। एजेंट को पुरस्कार पाने के लिए ज्ञात सर्वोत्तम क्रियाओं का शोषण करना होता है, लेकिन साथ ही नए क्रियाओं का अन्वेषण भी करना होता है जो बेहतर परिणाम दे सकते हैं।

उदाहरण के लिए, एक रिइन्फोर्समेंट लर्निंग एजेंट जो एक रोबोट को नियंत्रित करता है, आमतौर पर एक सुरक्षित प्रमाणित मार्ग (शोषण) ले सकता है लेकिन कभी-कभी एक नया मार्ग (अन्वेषण) आज़माता है ताकि संभवतः तेज़ मार्ग खोज सके। इस संतुलन को बनाए रखना इष्टतम नीति खोजने के लिए आवश्यक है।

RL "ट्रायल-एंड-एरर सीखने की प्रक्रिया की नकल करता है जिसका उपयोग मनुष्य करते हैं"। एक बच्चा सीख सकता है कि सफाई करने पर प्रशंसा मिलती है जबकि खिलौने फेंकने पर डांट मिलती है; इसी तरह, एक RL एजेंट सीखता है कि कौन सी क्रियाएं पुरस्कार देती हैं सकारात्मक फीडबैक से अच्छी क्रियाओं के लिए और नकारात्मक फीडबैक से खराब क्रियाओं के लिए।

— AWS मशीन लर्निंग दस्तावेज़ीकरण

समय के साथ, एजेंट मूल्य अनुमानों या नीतियों का निर्माण करता है जो दीर्घकालिक लक्ष्यों को प्राप्त करने के लिए सर्वोत्तम क्रियाओं के अनुक्रम को पकड़ती हैं।

व्यवहार में, RL एल्गोरिदम एपिसोड के दौरान पुरस्कार जमा करते हैं और अपेक्षित रिटर्न (भविष्य के पुरस्कारों का योग) को अधिकतम करने का लक्ष्य रखते हैं। वे उन क्रियाओं को प्राथमिकता देना सीखते हैं जो उच्च भविष्य के पुरस्कारों की ओर ले जाती हैं, भले ही वे क्रियाएं तत्काल सबसे अधिक पुरस्कार न दें। दीर्घकालिक लाभ के लिए योजना बनाने की यह क्षमता (कभी-कभी अल्पकालिक बलिदान स्वीकार करते हुए) RL को जटिल, अनुक्रमिक निर्णय कार्यों के लिए उपयुक्त बनाती है।

रिइन्फोर्समेंट लर्निंग कैसे काम करता है
व्यवहार में रिइन्फोर्समेंट लर्निंग कैसे काम करता है

रिइन्फोर्समेंट लर्निंग एल्गोरिदम के प्रकार

रिइन्फोर्समेंट लर्निंग को लागू करने के लिए कई एल्गोरिदम हैं। व्यापक रूप से, वे दो वर्गों में आते हैं: मॉडल-आधारित और मॉडल-फ्री विधियाँ।

मॉडल-आधारित RL

योजना बनाने का दृष्टिकोण

एजेंट पहले पर्यावरण की गतिशीलता का मॉडल सीखता है या जानता है (कैसे स्थितियां बदलती हैं और पुरस्कार कैसे दिए जाते हैं) और फिर परिणामों का अनुकरण करके क्रियाओं की योजना बनाता है।

  • सीमित डेटा के साथ कुशल
  • प्रभावी रूप से आगे की योजना बना सकता है
  • सटीक पर्यावरण मॉडल की आवश्यकता

उदाहरण: एक रोबोट जो सबसे छोटा मार्ग खोजने के लिए एक भवन का नक्शा बनाता है, मॉडल-आधारित दृष्टिकोण का उपयोग कर रहा है।

मॉडल-फ्री RL

प्रत्यक्ष सीखना

एजेंट के पास पर्यावरण का कोई स्पष्ट मॉडल नहीं होता और वह केवल वास्तविक (या सिम्युलेटेड) पर्यावरण में ट्रायल और एरर से सीखता है।

  • पर्यावरण मॉडल की आवश्यकता नहीं
  • जटिल पर्यावरणों के साथ काम करता है
  • अधिक अनुभव की आवश्यकता

उदाहरण: अधिकांश क्लासिक RL एल्गोरिदम (जैसे Q-लर्निंग या टेम्पोरल-डिफरेंस लर्निंग) मॉडल-फ्री होते हैं।

इन वर्गों के भीतर, एल्गोरिदम नीति या मूल्य फ़ंक्शन को कैसे प्रस्तुत और अपडेट करते हैं, इसमें भिन्नता होती है। उदाहरण के लिए, Q-लर्निंग (एक मूल्य-आधारित विधि) स्थिति-क्रिया जोड़ों के लिए "Q-मूल्यों" (अपेक्षित रिटर्न) का अनुमान सीखती है और सबसे उच्च मूल्य वाली क्रिया चुनती है।

नीति-ग्रेडिएंट विधियाँ सीधे नीति को पैरामीटराइज़ करती हैं और अपेक्षित पुरस्कार पर ग्रेडिएंट आरोहण के माध्यम से इसके पैरामीटर समायोजित करती हैं। कई उन्नत विधियाँ (जैसे एक्टोर-क्रिटिक या ट्रस्ट रीजन नीति ऑप्टिमाइजेशन) मूल्य अनुमान और नीति अनुकूलन को संयोजित करती हैं।

डीप रिइन्फोर्समेंट लर्निंग: एक प्रमुख हालिया विकास जहां डीप न्यूरल नेटवर्क मूल्य फ़ंक्शन या नीतियों के लिए फ़ंक्शन अप्रोक्षिमेटर के रूप में कार्य करते हैं, जिससे RL उच्च-आयामी इनपुट जैसे छवियों को संभाल सकता है। DeepMind की सफलता अटारी गेम्स और बोर्ड गेम्स (जैसे AlphaGo) में डीप लर्निंग और RL के संयोजन से आई है।

डीप RL में, एल्गोरिदम जैसे डीप Q-नेटवर्क्स (DQN) या डीप नीति ग्रेडिएंट्स RL को जटिल वास्तविक दुनिया के कार्यों तक स्केल करते हैं।

सामान्य RL एल्गोरिदम में Q-लर्निंग, मोंटे कार्लो विधियाँ, नीति-ग्रेडिएंट विधियाँ, और टेम्पोरल-डिफरेंस लर्निंग शामिल हैं, और "डीप RL" इन विधियों में डीप न्यूरल नेटवर्क के उपयोग को संदर्भित करता है।

— AWS मशीन लर्निंग दस्तावेज़ीकरण
रिइन्फोर्समेंट लर्निंग एल्गोरिदम के प्रकार
रिइन्फोर्समेंट लर्निंग एल्गोरिदम के प्रकार

रिइन्फोर्समेंट लर्निंग के अनुप्रयोग

रिइन्फोर्समेंट लर्निंग कई क्षेत्रों में लागू होता है जहाँ अनिश्चितता के तहत अनुक्रमिक निर्णय लेना महत्वपूर्ण होता है। प्रमुख अनुप्रयोगों में शामिल हैं:

खेल और सिमुलेशन

RL ने प्रसिद्ध रूप से खेलों और सिमुलेटरों में महारत हासिल की है। DeepMind का AlphaGo और AlphaZero RL का उपयोग करके गो और शतरंज में सुपरह्यूमन स्तर पर पहुँचे।

  • वीडियो गेम्स (अटारी, स्टारक्राफ्ट)
  • बोर्ड गेम्स (गो, शतरंज)
  • भौतिकी सिमुलेशन
  • रोबोटिक्स सिमुलेटर

रोबोटिक्स और नियंत्रण

स्वायत्त रोबोट और सेल्फ-ड्राइविंग कारें गतिशील पर्यावरणों में ट्रायल और एरर के माध्यम से सीखने वाले एजेंट हैं।

  • वस्तु पकड़ना और संचालन
  • स्वायत्त नेविगेशन
  • सेल्फ-ड्राइविंग वाहन
  • औद्योगिक स्वचालन

सिफारिश प्रणाली

RL उपयोगकर्ता इंटरैक्शन के आधार पर सामग्री या विज्ञापन को व्यक्तिगत बना सकता है, समय के साथ सबसे प्रासंगिक आइटम प्रस्तुत करना सीखता है।

  • सामग्री व्यक्तिगतकरण
  • विज्ञापन लक्ष्यीकरण अनुकूलन
  • उत्पाद सिफारिशें
  • उपयोगकर्ता सहभागिता अनुकूलन

संसाधन अनुकूलन

RL लंबी अवधि के उद्देश्यों और जटिल संसाधन आवंटन चुनौतियों वाले सिस्टम को अनुकूलित करने में उत्कृष्ट है।

  • डेटा सेंटर कूलिंग अनुकूलन
  • स्मार्ट ग्रिड ऊर्जा भंडारण
  • क्लाउड कंप्यूटिंग संसाधन
  • सप्लाई चेन प्रबंधन

वित्त और ट्रेडिंग

वित्तीय बाजार गतिशील और अनुक्रमिक होते हैं, जिससे RL ट्रेडिंग रणनीतियों और पोर्टफोलियो प्रबंधन के लिए उपयुक्त होता है।

  • एल्गोरिदमिक ट्रेडिंग रणनीतियाँ
  • पोर्टफोलियो अनुकूलन
  • जोखिम प्रबंधन
  • मार्केट मेकिंग
दीर्घकालिक योजना का लाभ: ये अनुप्रयोग RL की दीर्घकालिक योजना में ताकत को उजागर करते हैं। केवल तत्काल परिणामों की भविष्यवाणी करने वाली विधियों के विपरीत, RL स्पष्ट रूप से संचयी पुरस्कार को अधिकतम करता है, जिससे यह उन समस्याओं के लिए उपयुक्त होता है जहाँ क्रियाओं के परिणाम विलंबित होते हैं।
रिइन्फोर्समेंट लर्निंग के अनुप्रयोग
उद्योगों में रिइन्फोर्समेंट लर्निंग के अनुप्रयोग

रिइन्फोर्समेंट लर्निंग बनाम अन्य मशीन लर्निंग

रिइन्फोर्समेंट लर्निंग मशीन लर्निंग के तीन प्रमुख प्रतिमानों में से एक है (सुपरवाइज्ड और अनसुपरवाइज्ड लर्निंग के साथ), लेकिन इसका फोकस काफी अलग है। सुपरवाइज्ड लर्निंग लेबल वाले इनपुट-आउटपुट जोड़ों पर प्रशिक्षण देता है, जबकि अनसुपरवाइज्ड लर्निंग बिना लेबल वाले डेटा में पैटर्न खोजता है।

पहलू सुपरवाइज्ड लर्निंग अनसुपरवाइज्ड लर्निंग रिइन्फोर्समेंट लर्निंग
डेटा प्रकार लेबल वाले इनपुट-आउटपुट जोड़े बिना लेबल वाला डेटा अनुक्रमिक स्थिति-क्रिया-पुरस्कार ट्यूपल
सीखने का लक्ष्य सही आउटपुट की भविष्यवाणी छिपे पैटर्न खोजना संचयी पुरस्कार को अधिकतम करना
फीडबैक प्रकार प्रत्यक्ष सही उत्तर कोई फीडबैक नहीं पुरस्कार/सजा संकेत
सीखने की विधि उदाहरणों से सीखना संरचना की खोज ट्रायल-एंड-एरर अन्वेषण

इसके विपरीत, RL को सही व्यवहार के लेबल वाले उदाहरणों की आवश्यकता नहीं होती। इसके बजाय, यह पुरस्कार संकेत के माध्यम से एक लक्ष्य परिभाषित करता है और ट्रायल और एरर से सीखता है। RL में, "प्रशिक्षण डेटा" (स्थिति-क्रिया-पुरस्कार ट्यूपल) अनुक्रमिक और परस्पर निर्भर होते हैं, क्योंकि प्रत्येक क्रिया भविष्य की स्थितियों को प्रभावित करती है।

सरल शब्दों में, सुपरवाइज्ड लर्निंग एक मॉडल को बताता है कि क्या भविष्यवाणी करनी है; रिइन्फोर्समेंट लर्निंग एक एजेंट को सिखाता है कि कैसे कार्य करना है। RL "सकारात्मक सुदृढीकरण" (पुरस्कार) द्वारा सीखता है बजाय सही उत्तर दिखाए जाने के।

— IBM मशीन लर्निंग अवलोकन

यह RL को विशेष रूप से निर्णय लेने और नियंत्रण वाले कार्यों के लिए शक्तिशाली बनाता है। हालांकि, इसका मतलब यह भी है कि RL अधिक चुनौतीपूर्ण हो सकता है: बिना लेबल वाले फीडबैक के, एजेंट को स्वयं अच्छे क्रियाओं की खोज करनी होती है, जिसके लिए अक्सर पर्यावरण का व्यापक अन्वेषण आवश्यक होता है।

रिइन्फोर्समेंट लर्निंग बनाम अन्य मशीन लर्निंग
रिइन्फोर्समेंट लर्निंग बनाम अन्य मशीन लर्निंग प्रतिमान

रिइन्फोर्समेंट लर्निंग की चुनौतियाँ

अपनी शक्ति के बावजूद, RL के साथ व्यावहारिक चुनौतियाँ आती हैं:

नमूना अक्षमता

RL को प्रभावी नीतियां सीखने के लिए अक्सर विशाल अनुभव (ट्रायल) की आवश्यकता होती है। वास्तविक दुनिया में प्रशिक्षण महंगा या धीमा हो सकता है (उदाहरण के लिए, एक रोबोट को किसी कार्य में महारत हासिल करने के लिए लाखों ट्रायल की आवश्यकता हो सकती है)। इस कारण से, कई RL सिस्टम तैनाती से पहले सिमुलेशन में प्रशिक्षित किए जाते हैं।

पुरस्कार डिजाइन

उपयुक्त पुरस्कार फ़ंक्शन परिभाषित करना जटिल है। गलत चुना गया पुरस्कार अनपेक्षित व्यवहारों को जन्म दे सकता है (एजेंट पुरस्कार को इस तरह "गेम" कर सकता है जो वास्तविक लक्ष्य से मेल नहीं खाता)। दीर्घकालिक उद्देश्यों को पकड़ने वाले पुरस्कार डिजाइन करना बिना अनपेक्षित शॉर्टकट के RL अनुसंधान में एक कला है।

स्थिरता और सुरक्षा

वास्तविक दुनिया की सेटिंग्स (रोबोटिक्स, स्वास्थ्य सेवा, वित्त) में असुरक्षित अन्वेषणात्मक क्रियाएं खतरनाक या महंगी हो सकती हैं। वास्तविक दुनिया में प्रयोग (जैसे ड्रोन उड़ाना) सिमुलेशन के बिना व्यावहारिक नहीं हो सकता। सीखने और तैनाती के दौरान सुरक्षा सुनिश्चित करना RL अनुसंधान का सक्रिय क्षेत्र है।

व्याख्यात्मकता

सीखी गई RL नीतियां (विशेषकर डीप RL मॉडल) अस्पष्ट हो सकती हैं। यह समझना कि एजेंट क्यों कुछ क्रियाएं करता है अक्सर कठिन होता है, जिससे सिस्टम को डिबग या भरोसा करना मुश्किल हो जाता है। जटिल RL सिस्टम के लिए यह व्याख्यात्मकता की कमी एक तैनाती चुनौती के रूप में देखी जाती है।
चल रहा अनुसंधान: इन चुनौतियों में से प्रत्येक पर निरंतर अनुसंधान हो रहा है। बाधाओं के बावजूद, RL की व्यावहारिक सफलताएं (खेल, रोबोटिक्स, सिफारिश प्रणाली आदि में) दिखाती हैं कि सावधानीपूर्वक लागू करने पर RL प्रभावशाली परिणाम प्राप्त कर सकता है।
रिइन्फोर्समेंट लर्निंग की चुनौतियाँ
रिइन्फोर्समेंट लर्निंग कार्यान्वयन की चुनौतियाँ

निष्कर्ष

संक्षेप में, रिइन्फोर्समेंट लर्निंग एक स्वायत्त सीखने का फ्रेमवर्क है जिसमें एक एजेंट अपने पर्यावरण के साथ इंटरैक्ट करके और संचयी पुरस्कार को अधिकतम करके लक्ष्य प्राप्त करना सीखता है। यह इष्टतम नियंत्रण, डायनामिक प्रोग्रामिंग, और व्यवहार मनोविज्ञान के विचारों को जोड़ता है, और यह कई आधुनिक AI सफलताओं की नींव है।

समस्याओं को अनुक्रमिक निर्णय लेने के कार्यों के रूप में फ्रेम करके और फीडबैक के साथ, RL मशीनों को जटिल व्यवहार स्वयं सीखने में सक्षम बनाता है, डेटा-चालित सीखने और लक्ष्य-उन्मुख क्रिया के बीच की खाई को पाटता है।

बाहरी संदर्भ
इस लेख को निम्नलिखित बाहरी स्रोतों के संदर्भ में संकलित किया गया है।
96 लेख
रोज़ी हा Inviai की लेखिका हैं, जो कृत्रिम बुद्धिमत्ता से संबंधित ज्ञान और समाधान साझा करती हैं। व्यवसाय, सामग्री निर्माण और स्वचालन जैसे कई क्षेत्रों में AI के अनुसंधान और अनुप्रयोग के अनुभव के साथ, रोज़ी हा सरल, व्यावहारिक और प्रेरणादायक लेख प्रस्तुत करती हैं। रोज़ी हा का मिशन है कि वे सभी को AI का प्रभावी उपयोग करके उत्पादकता बढ़ाने और रचनात्मक क्षमता का विस्तार करने में मदद करें।
खोजें