রিইনফোর্সমেন্ট লার্নিং (RL) হল মেশিন লার্নিং-এর একটি শাখা যেখানে একটি এজেন্ট পরিবেশের সাথে ইন্টারঅ্যাক্ট করে সিদ্ধান্ত নেওয়া শেখে। RL-এ, এজেন্টের লক্ষ্য হল একটি নীতি (একটি কৌশল) শেখা যা সময়ের সাথে সঞ্চিত পুরস্কার সর্বাধিক করে এমন ক্রিয়াগুলো নির্বাচন করে।
সুপারভাইজড লার্নিংয়ের বিপরীতে, যা লেবেলযুক্ত উদাহরণের উপর নির্ভর করে, RL ট্রায়াল-এন্ড-এরর ফিডব্যাক এর উপর নির্ভর করে: ইতিবাচক ফলাফল (পুরস্কার) দেয় এমন ক্রিয়াগুলোকে উৎসাহিত করা হয়, আর নেতিবাচক ফলাফল (শাস্তি) দেয় এমনগুলো এড়ানো হয়।
সাটন এবং বার্টো ব্যাখ্যা করেছেন, RL মূলত “লক্ষ্যনির্দেশিত শেখা এবং সিদ্ধান্ত গ্রহণকে স্বয়ংক্রিয় করার একটি গণনামূলক পদ্ধতি” যেখানে এজেন্ট তার পরিবেশের সাথে সরাসরি ইন্টারঅ্যাকশন থেকে শেখে, বাইরের তত্ত্বাবধান বা সম্পূর্ণ বিশ্বের মডেল ছাড়াই।
প্রায়োগিকভাবে, এর অর্থ হল এজেন্ট অবিরত স্টেট-অ্যাকশন স্পেস অন্বেষণ করে, তার ক্রিয়ার ফলাফল পর্যবেক্ষণ করে এবং ভবিষ্যতের পুরস্কার উন্নত করতে কৌশল সমন্বয় করে।
মূল ধারণা ও উপাদানসমূহ
রিইনফোর্সমেন্ট লার্নিংয়ে কয়েকটি মূল উপাদান থাকে। সাধারণভাবে, একটি এজেন্ট (শিক্ষার্থী বা সিদ্ধান্ত গ্রহণকারী সত্তা) একটি পরিবেশের (বাহ্যিক সিস্টেম বা সমস্যা ক্ষেত্র) সাথে নির্দিষ্ট সময়ে ক্রিয়া গ্রহণ করে ইন্টারঅ্যাক্ট করে।
প্রতিটি ধাপে এজেন্ট পরিবেশের বর্তমান অবস্থা পর্যবেক্ষণ করে, একটি ক্রিয়া সম্পাদন করে, এবং পরিবেশ থেকে একটি পুরস্কার (সংখ্যাগত প্রতিক্রিয়া সংকেত) পায়। বহুবার এই ইন্টারঅ্যাকশনের মাধ্যমে, এজেন্ট তার মোট (সঞ্চিত) পুরস্কার সর্বাধিক করার চেষ্টা করে। মূল ধারণাগুলো হলো:
- এজেন্ট: স্বায়ত্তশাসিত শিক্ষার্থী (যেমন একটি AI প্রোগ্রাম বা রোবট) যা সিদ্ধান্ত নেয়।
- পরিবেশ: পৃথিবী বা সমস্যা ক্ষেত্র যার সাথে এজেন্ট ইন্টারঅ্যাক্ট করে। পরিবেশ এজেন্টকে বর্তমান অবস্থা প্রদান করে এবং এজেন্টের ক্রিয়ার ভিত্তিতে পুরস্কার নির্ধারণ করে।
- ক্রিয়া: পরিবেশকে প্রভাবিত করার জন্য এজেন্টের নেওয়া সিদ্ধান্ত বা পদক্ষেপ। বিভিন্ন ক্রিয়া বিভিন্ন অবস্থা এবং পুরস্কারে নিয়ে যেতে পারে।
- অবস্থা: নির্দিষ্ট সময়ে পরিবেশের প্রতিনিধিত্ব (যেমন, একটি গেম বোর্ডে টুকরোগুলোর অবস্থান বা রোবটের সেন্সর রিডিং)। এজেন্ট তার পরবর্তী ক্রিয়া নির্ধারণে অবস্থার ব্যবহার করে।
- পুরস্কার: প্রতিটি ক্রিয়ার পর পরিবেশ থেকে প্রাপ্ত একটি স্কেলার প্রতিক্রিয়া সংকেত (ইতিবাচক, নেতিবাচক বা শূন্য)। এটি ক্রিয়ার তাৎক্ষণিক লাভ (বা ক্ষতি) পরিমাপ করে। এজেন্টের লক্ষ্য হল সময়ের সাথে প্রত্যাশিত সঞ্চিত পুরস্কার সর্বাধিক করা।
- নীতি: এজেন্টের ক্রিয়া নির্বাচন করার কৌশল, সাধারণত অবস্থাগুলো থেকে ক্রিয়াগুলোর ম্যাপিং। শেখার মাধ্যমে, এজেন্ট একটি সর্বোত্তম বা প্রায় সর্বোত্তম নীতি খুঁজে পেতে চায়।
- মান ফাংশন (বা রিটার্ন): একটি নির্দিষ্ট অবস্থা (বা অবস্থা-ক্রিয়া জোড়া) থেকে এজেন্ট যে প্রত্যাশিত ভবিষ্যৎ পুরস্কার (সঞ্চিত পুরস্কার) পাবে তার একটি অনুমান। মান ফাংশন এজেন্টকে ক্রিয়ার দীর্ঘমেয়াদী পরিণতি মূল্যায়নে সাহায্য করে।
- মডেল (ঐচ্ছিক): মডেল-ভিত্তিক RL-এ, এজেন্ট পরিবেশের গতিবিদ্যার একটি অভ্যন্তরীণ মডেল তৈরি করে (কিভাবে অবস্থা পরিবর্তিত হয় এবং পুরস্কার নির্ধারিত হয়) এবং তা ব্যবহার করে পরিকল্পনা করে। মডেল-ফ্রি RL-এ, কোনো মডেল তৈরি হয় না; এজেন্ট শুধুমাত্র ট্রায়াল-এন্ড-এরর অভিজ্ঞতা থেকে শেখে।
রিইনফোর্সমেন্ট লার্নিং কীভাবে কাজ করে
RL প্রায়শই মারকভ ডিসিশন প্রসেস (MDP) হিসেবে ফরমালাইজ করা হয়। প্রতিটি নির্দিষ্ট সময়ে, এজেন্ট একটি অবস্থা St পর্যবেক্ষণ করে এবং একটি ক্রিয়া At নির্বাচন করে। এরপর পরিবেশ নতুন অবস্থা St+1-এ চলে যায় এবং নেওয়া ক্রিয়ার ভিত্তিতে একটি পুরস্কার Rt+1 প্রদান করে।
অনেক পর্বের মাধ্যমে, এজেন্ট অবস্থা-ক্রিয়া-পুরস্কার সিকোয়েন্সে অভিজ্ঞতা সঞ্চয় করে। কোন ক্রিয়াগুলো বেশি পুরস্কার দেয় তা বিশ্লেষণ করে, এজেন্ট ধীরে ধীরে তার নীতি উন্নত করে।
গুরুত্বপূর্ণভাবে, RL সমস্যাগুলোতে অন্বেষণ এবং শোষণ এর মধ্যে একটি সমঝোতা থাকে। এজেন্টকে সর্বোত্তম পরিচিত ক্রিয়াগুলো শোষণ করতে হয় পুরস্কার পেতে, কিন্তু একই সাথে নতুন ক্রিয়াগুলো অন্বেষণ করতেও হয় যা হয়তো আরও ভালো ফলাফল দিতে পারে।
উদাহরণস্বরূপ, একটি রোবট নিয়ন্ত্রণকারী RL এজেন্ট সাধারণত একটি প্রমাণিত নিরাপদ পথ (শোষণ) অনুসরণ করতে পারে, কিন্তু মাঝে মাঝে একটি নতুন পথ (অন্বেষণ) চেষ্টা করে দ্রুততম পথ আবিষ্কার করার সম্ভাবনা রাখে। এই সমঝোতা বজায় রাখা সর্বোত্তম নীতি খুঁজে পাওয়ার জন্য অপরিহার্য।
শেখার প্রক্রিয়াটি প্রায়ই আচরণগত শর্তাকরণের সাথে তুলনা করা হয়। উদাহরণস্বরূপ, AWS উল্লেখ করে যে RL “মানুষের ট্রায়াল-এন্ড-এরর শেখার প্রক্রিয়াকে অনুকরণ করে”। একটি শিশু শিখতে পারে যে পরিষ্কার করার জন্য প্রশংসা পায়, আর খেলনা ফেলে দিলে ডাণ্ডা পায়; অনুরূপভাবে, একটি RL এজেন্ট ভাল ক্রিয়ার জন্য ইতিবাচক প্রতিক্রিয়া এবং খারাপ ক্রিয়ার জন্য নেতিবাচক প্রতিক্রিয়া পেয়ে শেখে কোন ক্রিয়াগুলো পুরস্কার দেয়।
সময়ের সাথে, এজেন্ট মান অনুমান বা নীতি তৈরি করে যা দীর্ঘমেয়াদী লক্ষ্য অর্জনের জন্য সেরা ক্রিয়ার ক্রম ধারণ করে।
প্রায়োগিকভাবে, RL অ্যালগরিদমগুলো পর্বের মাধ্যমে পুরস্কার সঞ্চয় করে এবং প্রত্যাশিত রিটার্ন (ভবিষ্যতের পুরস্কারের যোগফল) সর্বাধিক করার লক্ষ্য রাখে। তারা এমন ক্রিয়াগুলো পছন্দ করতে শেখে যা উচ্চ ভবিষ্যৎ পুরস্কার দেয়, যদিও তাৎক্ষণিক পুরস্কার সর্বোচ্চ নাও হতে পারে। দীর্ঘমেয়াদী লাভের জন্য পরিকল্পনা করার এই ক্ষমতা (যা মাঝে মাঝে স্বল্পমেয়াদী ত্যাগ গ্রহণ করে) RL-কে জটিল, ধারাবাহিক সিদ্ধান্ত গ্রহণের কাজের জন্য উপযুক্ত করে তোলে।
রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমের প্রকারভেদ
রিইনফোর্সমেন্ট লার্নিং বাস্তবায়নের জন্য অনেক অ্যালগরিদম রয়েছে। সাধারণভাবে, এগুলো দুই শ্রেণিতে বিভক্ত: মডেল-ভিত্তিক এবং মডেল-ফ্রি পদ্ধতি।
-
মডেল-ভিত্তিক RL: এজেন্ট প্রথমে পরিবেশের গতিবিদ্যার একটি মডেল শেখে বা জানে (কিভাবে অবস্থা পরিবর্তিত হয় এবং পুরস্কার নির্ধারিত হয়) এবং তারপর ফলাফল সিমুলেট করে ক্রিয়া পরিকল্পনা করে। উদাহরণস্বরূপ, একটি রোবট একটি ভবনের মানচিত্র তৈরি করে সবচেয়ে ছোট পথ খুঁজে বের করার জন্য মডেল-ভিত্তিক পদ্ধতি ব্যবহার করে।
-
মডেল-ফ্রি RL: এজেন্টের পরিবেশের কোনো স্পষ্ট মডেল নেই এবং এটি শুধুমাত্র বাস্তব (বা সিমুলেটেড) পরিবেশে ট্রায়াল-এন্ড-এরর থেকে শেখে। মডেল দিয়ে পরিকল্পনা করার পরিবর্তে, এটি অভিজ্ঞতা থেকে মান অনুমান বা নীতি ধাপে ধাপে আপডেট করে। বেশিরভাগ ক্লাসিক RL অ্যালগরিদম (যেমন Q-লার্নিং বা টেম্পোরাল-ডিফারেন্স লার্নিং) মডেল-ফ্রি।
এই শ্রেণিগুলোর মধ্যে, অ্যালগরিদমগুলো নীতি বা মান ফাংশন কিভাবে উপস্থাপন এবং আপডেট করে তার দিক থেকে আলাদা। উদাহরণস্বরূপ, Q-লার্নিং (একটি মান-ভিত্তিক পদ্ধতি) অবস্থা-ক্রিয়া জোড়ার জন্য “Q-মূল্য” (প্রত্যাশিত রিটার্ন) শেখে এবং সর্বোচ্চ মানের ক্রিয়া নির্বাচন করে।
নীতি-গ্রেডিয়েন্ট পদ্ধতিগুলো সরাসরি নীতির প্যারামিটার নির্ধারণ করে এবং প্রত্যাশিত পুরস্কারের উপর গ্রেডিয়েন্ট অ্যাসেন্টের মাধ্যমে প্যারামিটার সমন্বয় করে। অনেক উন্নত পদ্ধতি (যেমন অ্যাক্টর-ক্রিটিক বা ট্রাস্ট রিজিয়ন পলিসি অপটিমাইজেশন) মান অনুমান এবং নীতি অপ্টিমাইজেশন একত্রিত করে।
একটি বড় সাম্প্রতিক উন্নতি হল ডিপ রিইনফোর্সমেন্ট লার্নিং। এখানে, ডিপ নিউরাল নেটওয়ার্ক মান ফাংশন বা নীতির জন্য ফাংশন অ্যাপ্রক্সিমেটর হিসেবে কাজ করে, যা RL-কে উচ্চমাত্রিক ইনপুট যেমন ছবি পরিচালনা করতে সক্ষম করে। ডিপমাইন্ডের অ্যাটারি গেম এবং বোর্ড গেমে (যেমন আলফাগো) সাফল্য ডিপ লার্নিং এবং RL-এর সংমিশ্রণ থেকে এসেছে। ডিপ RL-এ, ডিপ Q-নেটওয়ার্ক (DQN) বা ডিপ পলিসি গ্রেডিয়েন্টসের মতো অ্যালগরিদম জটিল বাস্তব বিশ্বের কাজের জন্য RL-কে স্কেল করে।
উদাহরণস্বরূপ, AWS উল্লেখ করে যে সাধারণ RL অ্যালগরিদমগুলোর মধ্যে রয়েছে Q-লার্নিং, মন্টে কার্লো পদ্ধতি, নীতি-গ্রেডিয়েন্ট পদ্ধতি এবং টেম্পোরাল-ডিফারেন্স লার্নিং, এবং “ডিপ RL” বলতে এই পদ্ধতিগুলিতে ডিপ নিউরাল নেটওয়ার্ক ব্যবহারের কথা বোঝায়।
রিইনফোর্সমেন্ট লার্নিংয়ের প্রয়োগসমূহ
রিইনফোর্সমেন্ট লার্নিং অনেক ক্ষেত্রে প্রয়োগ করা হয় যেখানে অনিশ্চয়তার মধ্যে ধারাবাহিক সিদ্ধান্ত গ্রহণ গুরুত্বপূর্ণ। প্রধান প্রয়োগগুলো হলো:
- গেমস এবং সিমুলেশন: RL বিখ্যাতভাবে গেমস এবং সিমুলেটরগুলোতে দক্ষতা অর্জন করেছে। উদাহরণস্বরূপ, ডিপমাইন্ডের আলফাগো এবং আলফাজিরো RL ব্যবহার করে গো এবং দাবায় অতিমানবীয় দক্ষতা অর্জন করেছে। ভিডিও গেমস (অ্যাটারি, স্টারক্রাফট) এবং সিমুলেশন (ফিজিক্স, রোবোটিক্স সিমুলেটর) প্রাকৃতিক RL পরীক্ষামাঠ কারণ পরিবেশ সুসংজ্ঞায়িত এবং বহু ট্রায়াল সম্ভব।
- রোবোটিক্স এবং নিয়ন্ত্রণ: স্বয়ংক্রিয় রোবট এবং স্বচালিত গাড়ি গতিশীল পরিবেশে এজেন্ট। ট্রায়াল-এন্ড-এরর মাধ্যমে, RL একটি রোবটকে বস্তু ধরতে বা একটি গাড়িকে ট্রাফিক নেভিগেট করতে শেখাতে পারে। IBM উল্লেখ করে যে রোবট এবং স্বচালিত গাড়ি পরিবেশের সাথে ইন্টারঅ্যাক্ট করে শেখার প্রধান উদাহরণ।
- রেকমেন্ডেশন সিস্টেম এবং মার্কেটিং: RL ব্যবহারকারীর ইন্টারঅ্যাকশনের ভিত্তিতে কন্টেন্ট বা বিজ্ঞাপন ব্যক্তিগতকরণ করতে পারে। উদাহরণস্বরূপ, একটি RL-ভিত্তিক রেকমেন্ডার ব্যবহারকারীরা আইটেম ক্লিক বা স্কিপ করার সাথে সাথে তার প্রস্তাব আপডেট করে, সময়ের সাথে সবচেয়ে প্রাসঙ্গিক বিজ্ঞাপন বা পণ্য উপস্থাপন শেখে।
- সম্পদ অপ্টিমাইজেশন: RL দীর্ঘমেয়াদী লক্ষ্য সহ সিস্টেম অপ্টিমাইজেশনে দক্ষ। উদাহরণস্বরূপ, ডেটা-সেন্টার কুলিং সামঞ্জস্য করে শক্তি ব্যবহার কমানো, স্মার্ট-গ্রিড এনার্জি স্টোরেজ নিয়ন্ত্রণ, বা ক্লাউড কম্পিউটিং সম্পদ ব্যবস্থাপনা। AWS “ক্লাউড খরচ অপ্টিমাইজেশন” এর মতো ব্যবহার ক্ষেত্র বর্ণনা করে, যেখানে একটি RL এজেন্ট সর্বোত্তম খরচ দক্ষতার জন্য কম্পিউট সম্পদ বরাদ্দ শেখে।
- আর্থিক এবং ট্রেডিং: আর্থিক বাজার গতিশীল এবং ধারাবাহিক। RL ট্রেডিং কৌশল, পোর্টফোলিও ব্যবস্থাপনা, এবং হেজিং অপ্টিমাইজ করতে ব্যবহৃত হয়েছে, যেখানে ট্রেড সিমুলেট করে এবং কোন ক্রিয়াগুলো বাজার পরিবর্তনের মধ্যে সর্বোচ্চ রিটার্ন দেয় তা শেখে।
এই উদাহরণগুলো RL-এর দীর্ঘমেয়াদী পরিকল্পনা ক্ষমতা তুলে ধরে। যাৎক্ষণিক ফলাফল পূর্বাভাস দেয় এমন পদ্ধতির বিপরীতে, RL স্পষ্টভাবে সঞ্চিত পুরস্কার সর্বাধিক করে, যা এমন সমস্যার জন্য উপযুক্ত যেখানে ক্রিয়ার ফলাফল বিলম্বিত হয়।
রিইনফোর্সমেন্ট লার্নিং বনাম অন্যান্য মেশিন লার্নিং
রিইনফোর্সমেন্ট লার্নিং মেশিন লার্নিংয়ের তিনটি প্রধান প্যারাডাইমের একটি (সুপারভাইজড এবং আনসুপারভাইজড লার্নিংয়ের পাশাপাশি), তবে এর ফোকাস সম্পূর্ণ আলাদা। সুপারভাইজড লার্নিং লেবেলযুক্ত ইনপুট-আউটপুট জোড়ার উপর প্রশিক্ষণ দেয়, আর আনসুপারভাইজড লার্নিং লেবেলবিহীন ডেটায় প্যাটার্ন খুঁজে বের করে।
এর বিপরীতে, RL-এ সঠিক আচরণের লেবেলযুক্ত উদাহরণ প্রয়োজন হয় না। বরং এটি পুরস্কার সংকেতের মাধ্যমে একটি লক্ষ্য নির্ধারণ করে এবং ট্রায়াল-এন্ড-এরর দ্বারা শেখে। RL-এ “প্রশিক্ষণ ডেটা” (অবস্থা-ক্রিয়া-পুরস্কার টুপল) ক্রমাগত এবং আন্তঃনির্ভর, কারণ প্রতিটি ক্রিয়া ভবিষ্যতের অবস্থাকে প্রভাবিত করে।
সরলভাবে বললে, সুপারভাইজড লার্নিং একটি মডেলকে বলে কি পূর্বাভাস দিতে হবে; রিইনফোর্সমেন্ট লার্নিং একটি এজেন্টকে শেখায় কিভাবে কাজ করতে হবে। IBM-এর ওভারভিউ অনুসারে, RL “ইতিবাচক রিইনফোর্সমেন্ট” (পুরস্কার) দ্বারা শেখে, সঠিক উত্তর দেখানোর মাধ্যমে নয়।
এটি RL-কে বিশেষভাবে শক্তিশালী করে এমন কাজের জন্য যা সিদ্ধান্ত গ্রহণ এবং নিয়ন্ত্রণ জড়িত। তবে এর মানে RL কিছুটা চ্যালেঞ্জিংও হতে পারে: লেবেলযুক্ত ফিডব্যাক ছাড়া, এজেন্টকে নিজে থেকেই ভাল ক্রিয়া আবিষ্কার করতে হয়, যা প্রায়ই পরিবেশের ব্যাপক অন্বেষণ প্রয়োজন।
রিইনফোর্সমেন্ট লার্নিংয়ের চ্যালেঞ্জসমূহ
এর শক্তি সত্ত্বেও, RL-এর কিছু ব্যবহারিক চ্যালেঞ্জ রয়েছে:
- নমুনা অকার্যকারিতা: RL কার্যকর নীতি শেখার জন্য প্রায়শই বৃহৎ পরিমাণ অভিজ্ঞতা (ট্রায়াল) প্রয়োজন। বাস্তব জগতে প্রশিক্ষণ ব্যয়বহুল বা ধীর হতে পারে (যেমন, একটি রোবটকে একটি কাজে দক্ষ হতে মিলিয়ন ট্রায়াল দরকার হতে পারে)। এজন্য অনেক RL সিস্টেম সিমুলেশনে প্রশিক্ষিত হয় বাস্তবায়নের আগে।
- পুরস্কার ডিজাইন: উপযুক্ত পুরস্কার ফাংশন নির্ধারণ করা জটিল। ভুলভাবে নির্বাচিত পুরস্কার অনিচ্ছাকৃত আচরণ সৃষ্টি করতে পারে (এজেন্ট পুরস্কার “গেম” করতে পারে যা প্রকৃত লক্ষ্য থেকে বিচ্যুত)। দীর্ঘমেয়াদী লক্ষ্য ধারণ করে এমন পুরস্কার ডিজাইন করা RL গবেষণার একটি শিল্প।
- স্থিতিশীলতা এবং নিরাপত্তা: বাস্তব পরিবেশে (রোবোটিক্স, স্বাস্থ্যসেবা, অর্থনীতি) অনিরাপদ অনুসন্ধানমূলক ক্রিয়া বিপজ্জনক বা ব্যয়বহুল হতে পারে। AWS উল্লেখ করে যে বাস্তব পরীক্ষণ (যেমন ড্রোন উড়ানো) সিমুলেশন ছাড়া প্রায়শই সম্ভব নয়। শেখার এবং বাস্তবায়নের সময় নিরাপত্তা নিশ্চিত করা RL গবেষণার একটি সক্রিয় ক্ষেত্র।
- ব্যাখ্যাযোগ্যতা: শেখা RL নীতিগুলো (বিশেষ করে ডিপ RL মডেল) অস্পষ্ট হতে পারে। কেন একটি এজেন্ট নির্দিষ্ট ক্রিয়া নেয় তা বোঝা প্রায়ই কঠিন, যা সিস্টেম ডিবাগ বা বিশ্বাসযোগ্যতা কঠিন করে তোলে। এই ব্যাখ্যাযোগ্যতার অভাব জটিল RL সিস্টেমের বাস্তবায়নের একটি চ্যালেঞ্জ।
এই প্রতিটি চ্যালেঞ্জ চলমান গবেষণার বিষয়। বাধা সত্ত্বেও, RL-এর ব্যবহারিক সাফল্য (গেমস, রোবোটিক্স, রেকমেন্ডার সিস্টেম ইত্যাদি) প্রমাণ করে যে যত্নসহকারে প্রয়োগ করলে RL চমৎকার ফলাফল দিতে পারে।
>>>আরও জানতে ক্লিক করুন:
সংক্ষেপে, রিইনফোর্সমেন্ট লার্নিং একটি স্বায়ত্তশাসিত শেখার কাঠামো যেখানে একটি এজেন্ট তার পরিবেশের সাথে ইন্টারঅ্যাক্ট করে এবং সঞ্চিত পুরস্কার সর্বাধিক করে লক্ষ্য অর্জন শেখে। এটি অপ্টিমাল কন্ট্রোল, ডায়নামিক প্রোগ্রামিং, এবং আচরণগত মনোবিজ্ঞানের ধারণাগুলো একত্রিত করে, এবং আধুনিক AI-এর অনেক অগ্রগতির ভিত্তি।
সমস্যাগুলোকে ধারাবাহিক সিদ্ধান্ত গ্রহণের কাজ হিসেবে ফ্রেম করে এবং ফিডব্যাক প্রদান করে, RL মেশিনগুলোকে জটিল আচরণ স্বয়ংক্রিয়ভাবে শেখার সুযোগ দেয়, ডেটা-চালিত শেখা এবং লক্ষ্যনির্দেশিত কর্মের মধ্যে সেতুবন্ধন তৈরি করে।