ری انفورسمنٹ لرننگ کیا ہے؟

ری انفورسمنٹ لرننگ (RL) مشین لرننگ کی ایک شاخ ہے جس میں ایک ایجنٹ اپنے ماحول کے ساتھ تعامل کرکے فیصلے کرنا سیکھتا ہے۔ RL میں، ایجنٹ کا مقصد ایک پالیسی (حکمت عملی) سیکھنا ہوتا ہے جو وقت کے ساتھ مجموعی انعامات کو زیادہ سے زیادہ کرے۔

ری انفورسمنٹ لرننگ (RL) مشین لرننگ کی ایک شاخ ہے جس میں ایک ایجنٹ اپنے ماحول کے ساتھ تعامل کرکے فیصلے کرنا سیکھتا ہے۔ RL میں، ایجنٹ کا مقصد ایک پالیسی (حکمت عملی) سیکھنا ہوتا ہے جو وقت کے ساتھ مجموعی انعام کو زیادہ سے زیادہ کرے۔

سپروائزڈ لرننگ کے برعکس، جس میں لیبل شدہ مثالوں کی ضرورت ہوتی ہے، RL آزمائش اور غلطی کی رائے پر انحصار کرتا ہے: وہ اعمال جو مثبت نتائج (انعامات) دیتے ہیں، مضبوط کیے جاتے ہیں، جبکہ منفی نتائج (سزا) دینے والے اعمال سے پرہیز کیا جاتا ہے۔

RL بنیادی طور پر "ایک حسابی طریقہ ہے جو مقصد پر مبنی سیکھنے اور فیصلہ سازی کو سمجھنے اور خودکار بنانے کے لیے ہے" جہاں ایجنٹ اپنے ماحول کے ساتھ براہ راست تعامل سے سیکھتا ہے، بغیر کسی بیرونی نگرانی یا دنیا کے مکمل ماڈل کی ضرورت کے۔

— سٹن اور بارٹو، ری انفورسمنٹ لرننگ کے محققین

عملی طور پر، اس کا مطلب ہے کہ ایجنٹ مسلسل حالت-عمل کی جگہ کو دریافت کرتا ہے، اپنے اعمال کے نتائج کا مشاہدہ کرتا ہے، اور مستقبل کے انعامات کو بہتر بنانے کے لیے اپنی حکمت عملی کو ایڈجسٹ کرتا ہے۔

اہم تصورات اور اجزاء

ری انفورسمنٹ لرننگ میں کئی بنیادی عناصر شامل ہوتے ہیں۔ عمومی طور پر، ایک ایجنٹ (سیکھنے والا یا فیصلہ ساز) ایک ماحول (بیرونی نظام یا مسئلہ کا دائرہ) کے ساتھ تعامل کرتا ہے اور اعمال لیتا ہے جو مخصوص وقت کے وقفوں پر ہوتے ہیں۔

ہر قدم پر، ایجنٹ ماحول کی موجودہ حالت کا مشاہدہ کرتا ہے، ایک عمل انجام دیتا ہے، اور پھر ماحول سے انعام (عددی رائے کا اشارہ) حاصل کرتا ہے۔ ان متعدد تعاملات کے دوران، ایجنٹ اپنے کل (مجموعی) انعام کو زیادہ سے زیادہ کرنے کی کوشش کرتا ہے۔

ایجنٹ

خود مختار سیکھنے والا (مثلاً AI پروگرام یا روبوٹ) جو فیصلے کرتا ہے۔

ماحول

وہ دنیا یا مسئلہ کا دائرہ جس کے ساتھ ایجنٹ تعامل کرتا ہے۔ ماحول ایجنٹ کو موجودہ حالت فراہم کرتا ہے اور ایجنٹ کے عمل کی بنیاد پر انعام کا حساب لگاتا ہے۔

عمل

ایجنٹ کی طرف سے ماحول پر اثر انداز ہونے کے لیے لیا گیا فیصلہ یا حرکت۔ مختلف اعمال مختلف حالتوں اور انعامات کی طرف لے جا سکتے ہیں۔

حالت

کسی مخصوص وقت پر ماحول کی نمائندگی (مثلاً کھیل کے بورڈ پر ٹکڑوں کی پوزیشن یا روبوٹ میں سینسر کی ریڈنگز)۔ ایجنٹ اپنی اگلی حرکت کا فیصلہ کرنے کے لیے حالت استعمال کرتا ہے۔

انعام

ایک عددی رائے کا اشارہ (مثبت، منفی، یا صفر) جو ہر عمل کے بعد ماحول کی طرف سے دیا جاتا ہے۔ یہ عمل کے فوری فائدے (یا نقصان) کو ماپتا ہے۔ ایجنٹ کا مقصد وقت کے ساتھ متوقع مجموعی انعام کو زیادہ سے زیادہ کرنا ہے۔

پالیسی

ایجنٹ کی حکمت عملی جو اعمال کے انتخاب کے لیے ہوتی ہے، عام طور پر حالتوں سے اعمال کی میپنگ۔ سیکھنے کے ذریعے، ایجنٹ ایک بہترین یا قریب بہترین پالیسی تلاش کرنے کی کوشش کرتا ہے۔

ویلیو فنکشن

متوقع مستقبل کے انعام (مجموعی انعام) کا اندازہ جو ایجنٹ کسی مخصوص حالت (یا حالت-عمل جوڑے) سے حاصل کرے گا۔ ویلیو فنکشن ایجنٹ کو اعمال کے طویل مدتی نتائج کا اندازہ لگانے میں مدد دیتا ہے۔

ماڈل (اختیاری)

ماڈل پر مبنی RL میں، ایجنٹ ماحول کی حرکیات (کیسے حالتیں اعمال کی بنیاد پر تبدیل ہوتی ہیں) کا داخلی ماڈل بناتا ہے اور منصوبہ بندی کے لیے اسے استعمال کرتا ہے۔ ماڈل فری RL میں، کوئی ماڈل نہیں بنایا جاتا؛ ایجنٹ صرف آزمائش اور غلطی سے سیکھتا ہے۔
ری انفورسمنٹ لرننگ کے اہم تصورات اور اجزاء
ری انفورسمنٹ لرننگ کے فریم ورک کے اہم تصورات اور اجزاء

ری انفورسمنٹ لرننگ کیسے کام کرتی ہے

RL کو اکثر مارکوف فیصلہ سازی کا عمل (MDP) کے طور پر رسمی شکل دی جاتی ہے۔ ہر مخصوص وقت پر، ایجنٹ ایک حالت St کا مشاہدہ کرتا ہے اور ایک عمل At منتخب کرتا ہے۔ پھر ماحول نئی حالت St+1 میں منتقل ہوتا ہے اور عمل کی بنیاد پر انعام Rt+1 دیتا ہے۔

کئی اقساط کے دوران، ایجنٹ حالت-عمل-انعام سلسلوں کی شکل میں تجربہ جمع کرتا ہے۔ یہ تجزیہ کرکے کہ کون سے اعمال زیادہ انعامات دیتے ہیں، ایجنٹ اپنی پالیسی کو بتدریج بہتر بناتا ہے۔

تلاش بمقابلہ استحصال: RL مسائل میں تلاش اور استحصال کے درمیان ایک اہم توازن ہوتا ہے۔ ایجنٹ کو ان اعمال کا استحصال کرنا ہوتا ہے جو سب سے بہتر معلوم ہوتے ہیں تاکہ انعام حاصل کرے، لیکن ساتھ ہی نئے اعمال کی تلاش بھی کرنی ہوتی ہے جو ممکنہ طور پر بہتر نتائج دے سکتے ہیں۔

مثال کے طور پر، ایک ری انفورسمنٹ لرننگ ایجنٹ جو روبوٹ کو کنٹرول کرتا ہے، عام طور پر ایک ثابت شدہ محفوظ راستہ (استحصال) اختیار کر سکتا ہے لیکن کبھی کبھار نیا راستہ (تلاش) آزما سکتا ہے تاکہ ممکنہ طور پر تیز تر راستہ دریافت کرے۔ اس توازن کو برقرار رکھنا بہترین پالیسی تلاش کرنے کے لیے ضروری ہے۔

RL "انسانوں کے آزمائش اور غلطی کے سیکھنے کے عمل کی نقل کرتا ہے"۔ ایک بچہ سیکھ سکتا ہے کہ صفائی کرنے پر تعریف ملتی ہے جبکہ کھلونے پھینکنے پر ڈانٹ پڑتی ہے؛ اسی طرح، RL ایجنٹ اچھے اعمال کے لیے مثبت اور برے اعمال کے لیے منفی رائے حاصل کرکے سیکھتا ہے۔

— AWS مشین لرننگ دستاویزات

وقت کے ساتھ، ایجنٹ ویلیو اندازے یا پالیسیاں بناتا ہے جو طویل مدتی مقاصد کے حصول کے لیے بہترین اعمال کے سلسلے کو ظاہر کرتی ہیں۔

عملی طور پر، RL الگورتھمز اقساط کے دوران انعامات جمع کرتے ہیں اور متوقع واپسی (مستقبل کے انعامات کا مجموعہ) کو زیادہ سے زیادہ کرنے کی کوشش کرتے ہیں۔ وہ ایسے اعمال کو ترجیح دیتے ہیں جو مستقبل میں زیادہ انعامات دیں، چاہے وہ فوری انعام سب سے زیادہ نہ دیں۔ طویل مدتی فائدے کے لیے منصوبہ بندی کرنے کی یہ صلاحیت RL کو پیچیدہ، تسلسل والے فیصلہ سازی کے کاموں کے لیے موزوں بناتی ہے۔

ری انفورسمنٹ لرننگ کیسے کام کرتی ہے
عملی طور پر ری انفورسمنٹ لرننگ کیسے کام کرتی ہے

ری انفورسمنٹ لرننگ الگورتھمز کی اقسام

ری انفورسمنٹ لرننگ کو نافذ کرنے کے لیے کئی الگورتھمز موجود ہیں۔ عمومی طور پر، یہ دو اقسام میں تقسیم ہوتے ہیں: ماڈل پر مبنی اور ماڈل فری طریقے۔

ماڈل پر مبنی RL

منصوبہ بندی کا طریقہ

ایجنٹ پہلے ماحول کی حرکیات کا ماڈل سیکھتا یا جانتا ہے (کیسے حالتیں تبدیل ہوتی ہیں اور انعامات دیے جاتے ہیں) اور پھر نتائج کی نقل کر کے اعمال کی منصوبہ بندی کرتا ہے۔

  • محدود ڈیٹا کے ساتھ مؤثر
  • مؤثر منصوبہ بندی کر سکتا ہے
  • درست ماحول کا ماڈل درکار

مثال: ایک روبوٹ جو عمارت کا نقشہ بنا کر سب سے چھوٹا راستہ تلاش کرتا ہے، ماڈل پر مبنی طریقہ استعمال کر رہا ہے۔

ماڈل فری RL

براہ راست سیکھنا

ایجنٹ کے پاس ماحول کا کوئی واضح ماڈل نہیں ہوتا اور وہ صرف حقیقی (یا مشابہ) ماحول میں آزمائش اور غلطی سے سیکھتا ہے۔

  • ماحول کا ماڈل درکار نہیں
  • پیچیدہ ماحول کے ساتھ کام کرتا ہے
  • زیادہ تجربے کی ضرورت

مثال: زیادہ تر کلاسیکی RL الگورتھمز (جیسے Q-learning یا Temporal-Difference لرننگ) ماڈل فری ہوتے ہیں۔

ان زمروں کے اندر، الگورتھمز اس بات میں مختلف ہوتے ہیں کہ وہ پالیسی یا ویلیو فنکشن کو کیسے ظاہر اور اپ ڈیٹ کرتے ہیں۔ مثال کے طور پر، Q-learning (ویلیو بیسڈ طریقہ) حالت-عمل جوڑوں کے لیے "Q-ویلیوز" (متوقع واپسی) کا اندازہ سیکھتا ہے اور سب سے زیادہ ویلیو والے عمل کو منتخب کرتا ہے۔

پالیسی-گریڈینٹ طریقے براہ راست پالیسی کو پیرامیٹرائز کرتے ہیں اور متوقع انعام پر گریڈینٹ اسینٹ کے ذریعے اس کے پیرامیٹرز کو ایڈجسٹ کرتے ہیں۔ کئی جدید طریقے (جیسے Actor-Critic یا Trust Region Policy Optimization) ویلیو اندازہ اور پالیسی کی اصلاح کو یکجا کرتے ہیں۔

ڈیپ ری انفورسمنٹ لرننگ: ایک اہم حالیہ پیش رفت جہاں گہرے نیورل نیٹ ورکس ویلیو فنکشنز یا پالیسیاں کے لیے فنکشن اپروکسی میٹر کے طور پر کام کرتے ہیں، جس سے RL کو تصویریں جیسے اعلیٰ جہتی ان پٹس سنبھالنے کی صلاحیت ملتی ہے۔ DeepMind کی کامیابیاں جیسے Atari گیمز اور بورڈ گیمز (مثلاً AlphaGo) گہرے لرننگ اور RL کے امتزاج سے حاصل ہوئی ہیں۔

ڈیپ RL میں، الگورتھمز جیسے Deep Q-Networks (DQN) یا Deep Policy Gradients RL کو پیچیدہ حقیقی دنیا کے کاموں تک بڑھاتے ہیں۔

عام RL الگورتھمز میں Q-learning، Monte Carlo طریقے، پالیسی-گریڈینٹ طریقے، اور Temporal-Difference لرننگ شامل ہیں، اور "ڈیپ RL" ان طریقوں میں گہرے نیورل نیٹ ورکس کے استعمال کو ظاہر کرتا ہے۔

— AWS مشین لرننگ دستاویزات
ری انفورسمنٹ لرننگ الگورتھمز کی اقسام
ری انفورسمنٹ لرننگ الگورتھمز کی اقسام

ری انفورسمنٹ لرننگ کی درخواستیں

ری انفورسمنٹ لرننگ کئی شعبوں میں استعمال ہوتی ہے جہاں غیر یقینی صورتحال میں تسلسل کے ساتھ فیصلہ سازی اہم ہوتی ہے۔ اہم درخواستیں شامل ہیں:

گیمز اور سیمولیشن

RL نے مشہور طور پر گیمز اور سیمولیٹرز میں مہارت حاصل کی ہے۔ DeepMind کا AlphaGo اور AlphaZero RL کا استعمال کرتے ہوئے گو اور شطرنج میں انسان سے بہتر سطح پر سیکھا۔

  • ویڈیو گیمز (Atari، StarCraft)
  • بورڈ گیمز (گو، شطرنج)
  • فزکس سیمولیشنز
  • روبوٹکس سیمولیٹرز

روبوٹکس اور کنٹرول

خود مختار روبوٹس اور خود چلنے والی گاڑیاں متحرک ماحول میں آزمائش اور غلطی کے ذریعے سیکھنے والے ایجنٹس ہیں۔

  • اشیاء کو پکڑنا اور قابو پانا
  • خود مختار نیویگیشن
  • خود چلنے والی گاڑیاں
  • صنعتی خود کاری

تجویزی نظام

RL صارف کے تعاملات کی بنیاد پر مواد یا اشتہارات کو ذاتی نوعیت دے سکتا ہے، وقت کے ساتھ سب سے متعلقہ اشیاء پیش کرنا سیکھتا ہے۔

  • مواد کی ذاتی نوعیت
  • اشتہارات کی ہدف بندی کی اصلاح
  • مصنوعات کی سفارشات
  • صارف کی مصروفیت کی بہتری

وسائل کی اصلاح

RL ایسے نظاموں کی اصلاح میں مہارت رکھتا ہے جن کے طویل مدتی مقاصد اور پیچیدہ وسائل کی تقسیم کے چیلنجز ہوتے ہیں۔

  • ڈیٹا سینٹر کی کولنگ کی اصلاح
  • سمارٹ گرڈ توانائی ذخیرہ
  • کلاؤڈ کمپیوٹنگ وسائل
  • سپلائی چین مینجمنٹ

مالیات اور تجارت

مالیاتی بازار متحرک اور تسلسل والے ہوتے ہیں، جس سے RL تجارتی حکمت عملیوں اور پورٹ فولیو مینجمنٹ کے لیے موزوں ہے۔

  • الگورتھمک تجارتی حکمت عملیاں
  • پورٹ فولیو کی اصلاح
  • خطرے کا انتظام
  • مارکیٹ میکنگ
طویل مدتی منصوبہ بندی کا فائدہ: یہ درخواستیں RL کی طویل مدتی منصوبہ بندی میں طاقت کو ظاہر کرتی ہیں۔ وہ طریقے جو صرف فوری نتائج کی پیش گوئی کرتے ہیں، کے برعکس، RL واضح طور پر مجموعی انعامات کو زیادہ سے زیادہ کرتا ہے، جس سے وہ ایسے مسائل کے لیے موزوں ہوتا ہے جہاں اعمال کے نتائج میں تاخیر ہوتی ہے۔
ری انفورسمنٹ لرننگ کی درخواستیں
صنعتوں میں ری انفورسمنٹ لرننگ کی درخواستیں

ری انفورسمنٹ لرننگ بمقابلہ دیگر مشین لرننگ

ری انفورسمنٹ لرننگ مشین لرننگ کے تین بڑے طریقوں میں سے ایک ہے (سپروائزڈ اور انسپروائزڈ لرننگ کے ساتھ)، لیکن اس کا فوکس کافی مختلف ہے۔ سپروائزڈ لرننگ لیبل شدہ ان پٹ-آؤٹ پٹ جوڑوں پر تربیت دیتی ہے، جبکہ انسپروائزڈ لرننگ بغیر لیبل کے ڈیٹا میں پیٹرنز تلاش کرتی ہے۔

پہلو سپروائزڈ لرننگ انسپروائزڈ لرننگ ری انفورسمنٹ لرننگ
ڈیٹا کی قسم لیبل شدہ ان پٹ-آؤٹ پٹ جوڑے بغیر لیبل کا ڈیٹا تسلسل والے حالت-عمل-انعام کے جوڑے
سیکھنے کا مقصد صحیح آؤٹ پٹ کی پیش گوئی چھپے ہوئے پیٹرنز تلاش کرنا مجموعی انعام کو زیادہ سے زیادہ کرنا
رائے کی قسم براہ راست صحیح جوابات کوئی رائے نہیں انعام/سزا کے اشارے
سیکھنے کا طریقہ مثالوں سے سیکھنا ساخت دریافت کرنا آزمائش اور غلطی کی تلاش

اس کے برعکس، RL کو صحیح رویے کی لیبل شدہ مثالوں کی ضرورت نہیں ہوتی۔ اس کے بجائے، یہ انعام کے اشارے کے ذریعے ایک مقصد متعین کرتا ہے اور آزمائش اور غلطی سے سیکھتا ہے۔ RL میں "تربیتی ڈیٹا" (حالت-عمل-انعام کے جوڑے) تسلسل والے اور باہم منحصر ہوتے ہیں، کیونکہ ہر عمل مستقبل کی حالتوں کو متاثر کرتا ہے۔

سادہ الفاظ میں، سپروائزڈ لرننگ ماڈل کو بتاتی ہے کہ کیا پیش گوئی کرنی ہے؛ ری انفورسمنٹ لرننگ ایجنٹ کو سکھاتی ہے کہ کیسے عمل کرنا ہے۔ RL "مثبت تقویت" (انعام) کے ذریعے سیکھتا ہے نہ کہ صحیح جوابات دکھا کر۔

— IBM مشین لرننگ کا جائزہ

یہ RL کو خاص طور پر ایسے کاموں کے لیے طاقتور بناتا ہے جن میں فیصلہ سازی اور کنٹرول شامل ہوتا ہے۔ تاہم، اس کا مطلب یہ بھی ہے کہ RL زیادہ چیلنجنگ ہو سکتا ہے: بغیر لیبل شدہ رائے کے، ایجنٹ کو خود اچھے اعمال دریافت کرنے ہوتے ہیں، جس کے لیے اکثر ماحول کی وسیع تلاش کی ضرورت ہوتی ہے۔

ری انفورسمنٹ لرننگ بمقابلہ دیگر مشین لرننگ
ری انفورسمنٹ لرننگ بمقابلہ دیگر مشین لرننگ کے طریقے

ری انفورسمنٹ لرننگ کے چیلنجز

اپنی طاقت کے باوجود، RL کے عملی چیلنجز بھی ہیں:

نمونہ کی غیر مؤثریت

RL کو مؤثر پالیسیاں سیکھنے کے لیے بہت زیادہ تجربے (آزمائشیں) کی ضرورت ہوتی ہے۔ حقیقی دنیا میں تربیت مہنگی یا سست ہو سکتی ہے (مثلاً، روبوٹ کو کسی کام میں مہارت حاصل کرنے کے لیے لاکھوں آزمائشوں کی ضرورت ہو سکتی ہے)۔ اسی وجہ سے، بہت سے RL نظام تعیناتی سے پہلے سیمولیشن میں تربیت پاتے ہیں۔

انعام کی تشکیل

مناسب انعامی فنکشن کی تعریف مشکل ہوتی ہے۔ غلط منتخب کردہ انعام غیر متوقع رویے پیدا کر سکتا ہے (ایجنٹ انعام کو ایسے طریقے سے "چالاکی" سے حاصل کر سکتا ہے جو اصل مقصد سے میل نہ کھاتا ہو)۔ طویل مدتی مقاصد کو بغیر غیر متوقع شارٹ کٹس کے پکڑنا RL تحقیق میں ایک فن ہے۔

استحکام اور حفاظت

حقیقی دنیا کے ماحول (روبوٹکس، صحت کی دیکھ بھال، مالیات) میں غیر محفوظ تلاش کرنے والے اعمال خطرناک یا مہنگے ہو سکتے ہیں۔ حقیقی دنیا میں تجربہ کرنا (مثلاً ڈرون اڑانا) سیمولیشن کے بغیر عملی نہیں ہو سکتا۔ سیکھنے اور تعیناتی کے دوران حفاظت کو یقینی بنانا RL تحقیق کا ایک فعال شعبہ ہے۔

تشریح پذیری

سیکھے گئے RL پالیسیاں (خاص طور پر ڈیپ RL ماڈلز) اکثر غیر واضح ہوتی ہیں۔ یہ سمجھنا مشکل ہوتا ہے کہ ایجنٹ مخصوص اعمال کیوں لیتا ہے، جس سے نظام کی خرابی تلاش کرنا یا اس پر اعتماد کرنا مشکل ہو جاتا ہے۔ پیچیدہ RL نظاموں کے لیے یہ تشریح پذیری کی کمی ایک تعیناتی کا چیلنج ہے۔
جاری تحقیق: ان میں سے ہر چیلنج پر تحقیق جاری ہے۔ مشکلات کے باوجود، RL کی عملی کامیابیاں (گیمز، روبوٹکس، تجویز کنندہ نظام وغیرہ میں) ظاہر کرتی ہیں کہ احتیاط سے استعمال کرنے پر RL شاندار نتائج حاصل کر سکتا ہے۔
ری انفورسمنٹ لرننگ کے چیلنجز
ری انفورسمنٹ لرننگ کے نفاذ کے چیلنجز

نتیجہ

خلاصہ یہ کہ، ری انفورسمنٹ لرننگ ایک خود مختار سیکھنے کا فریم ورک ہے جس میں ایک ایجنٹ اپنے ماحول کے ساتھ تعامل کرکے مقاصد حاصل کرنا اور مجموعی انعام کو زیادہ سے زیادہ کرنا سیکھتا ہے۔ یہ بہترین کنٹرول، متحرک پروگرامنگ، اور رویے کی نفسیات کے نظریات کو یکجا کرتا ہے، اور جدید AI کی کئی کامیابیوں کی بنیاد ہے۔

مسائل کو تسلسل والے فیصلہ سازی کے کاموں کے طور پر فریم کرکے اور رائے کے ساتھ، RL مشینوں کو پیچیدہ رویے خود سیکھنے کے قابل بناتا ہے، ڈیٹا پر مبنی سیکھنے اور مقصد پر مبنی عمل کے درمیان پل بناتا ہے۔

مزید متعلقہ مضامین دریافت کریں
خارجی حوالہ جات
یہ مضمون درج ذیل خارجی ذرائع کے حوالے سے مرتب کیا گیا ہے:
96 مضامین
روزی ہا Inviai کی مصنفہ ہیں، جو مصنوعی ذہانت کے بارے میں معلومات اور حل فراہم کرنے میں مہارت رکھتی ہیں۔ تحقیق اور AI کو کاروبار، مواد کی تخلیق اور خودکار نظامات جیسے مختلف شعبوں میں نافذ کرنے کے تجربے کے ساتھ، روزی ہا آسان فہم، عملی اور متاثر کن مضامین پیش کرتی ہیں۔ روزی ہا کا مشن ہے کہ وہ ہر فرد کو AI کے مؤثر استعمال میں مدد دیں تاکہ پیداواریت میں اضافہ اور تخلیقی صلاحیتوں کو وسعت دی جا سکے۔
تلاش کریں