Pembelajaran Penguatan (RL) adalah cabang pembelajaran mesin di mana agen belajar membuat keputusan dengan berinteraksi dengan persekitaran. Dalam RL, matlamat agen adalah untuk mempelajari polisi (strategi) bagi memilih tindakan yang memaksimumkan ganjaran terkumpul dari masa ke masa.
Berbeza dengan pembelajaran terawasi yang memerlukan contoh berlabel, RL bergantung pada maklum balas cuba dan salah: tindakan yang menghasilkan hasil positif (ganjaran) diperkuatkan, manakala tindakan yang membawa hasil negatif (hukuman) dielakkan.
Seperti yang dijelaskan oleh Sutton dan Barto, RL pada dasarnya adalah "pendekatan pengkomputeran untuk memahami dan mengautomasikan pembelajaran dan pembuatan keputusan berorientasikan matlamat" di mana agen belajar melalui interaksi langsung dengan persekitarannya, tanpa memerlukan pengawasan luaran atau model lengkap dunia.
Dalam praktiknya, ini bermakna agen sentiasa meneroka ruang keadaan-tindakan, memerhati hasil tindakannya, dan menyesuaikan strateginya untuk meningkatkan ganjaran masa depan.
Konsep dan Komponen Utama
Pembelajaran penguatan melibatkan beberapa elemen teras. Secara umum, agen (pembelajar atau entiti pembuat keputusan) berinteraksi dengan persekitaran (sistem luaran atau ruang masalah) dengan mengambil tindakan pada langkah masa diskret.
Pada setiap langkah, agen memerhati keadaan semasa persekitaran, melaksanakan tindakan, dan kemudian menerima ganjaran (isyarat maklum balas berangka) dari persekitaran. Melalui banyak interaksi sebegini, agen berusaha memaksimumkan jumlah ganjaran terkumpul. Konsep utama termasuk:
- Agen: Pembelajar autonomi (contohnya program AI atau robot) yang membuat keputusan.
- Persekitaran: Dunia atau domain masalah yang berinteraksi dengan agen. Persekitaran menyediakan keadaan semasa kepada agen dan mengira ganjaran berdasarkan tindakan agen.
- Tindakan: Keputusan atau langkah yang diambil oleh agen untuk mempengaruhi persekitaran. Tindakan berbeza boleh membawa kepada keadaan dan ganjaran yang berbeza.
- Keadaan: Representasi persekitaran pada masa tertentu (contohnya, kedudukan kepingan pada papan permainan atau bacaan sensor pada robot). Agen menggunakan keadaan untuk menentukan tindakan seterusnya.
- Ganjaran: Isyarat maklum balas skalar (positif, negatif, atau sifar) yang diberikan oleh persekitaran selepas setiap tindakan. Ia mengukur manfaat segera (atau kos) tindakan tersebut. Matlamat agen adalah memaksimumkan ganjaran terkumpul yang dijangka dari masa ke masa.
- Polisi: Strategi agen untuk memilih tindakan, biasanya pemetaan dari keadaan ke tindakan. Melalui pembelajaran, agen berusaha mencari polisi yang optimum atau hampir optimum.
- Fungsi nilai (atau pulangan): Anggaran ganjaran masa depan yang dijangka (ganjaran terkumpul) yang akan diperoleh agen dari keadaan tertentu (atau pasangan keadaan-tindakan). Fungsi nilai membantu agen menilai akibat jangka panjang tindakan.
- Model (pilihan): Dalam RL berasaskan model, agen membina model dalaman dinamik persekitaran (bagaimana keadaan berubah berdasarkan tindakan) dan menggunakannya untuk merancang. Dalam RL tanpa model, tiada model sebegini dibina; agen belajar semata-mata dari pengalaman cuba dan salah.
Bagaimana Pembelajaran Penguatan Berfungsi
RL sering diformalkan sebagai proses keputusan Markov (MDP). Pada setiap langkah masa diskret, agen memerhati keadaan St dan memilih tindakan At. Persekitaran kemudian beralih ke keadaan baru St+1 dan mengeluarkan ganjaran Rt+1 berdasarkan tindakan yang diambil.
Melalui banyak episod, agen mengumpul pengalaman dalam bentuk urutan keadaan-tindakan-ganjaran. Dengan menganalisis tindakan yang membawa ganjaran lebih tinggi, agen secara beransur-ansur memperbaiki polisi.
Penting untuk diketahui, masalah RL melibatkan pertukaran antara penerokaan dan pemanfaatan. Agen mesti memanfaatkan tindakan terbaik yang diketahui untuk mendapatkan ganjaran, tetapi juga meneroka tindakan baru yang mungkin membawa hasil lebih baik.
Contohnya, agen pembelajaran penguatan yang mengawal robot mungkin biasanya mengambil laluan yang terbukti selamat (pemanfaatan) tetapi kadangkala mencuba laluan baru (penerokaan) untuk berpotensi menemui laluan lebih cepat. Mengimbangi pertukaran ini penting untuk mencari polisi optimum.
Proses pembelajaran ini sering disamakan dengan pengkondisian tingkah laku. Sebagai contoh, AWS menyatakan bahawa RL "meniru proses pembelajaran cuba dan salah yang digunakan manusia". Seorang kanak-kanak mungkin belajar bahawa membersihkan mendapat pujian manakala membaling mainan mendapat teguran; begitu juga, agen RL belajar tindakan mana yang memberi ganjaran dengan menerima maklum balas positif untuk tindakan baik dan maklum balas negatif untuk tindakan buruk.
Dari masa ke masa, agen membina anggaran nilai atau polisi yang menangkap urutan tindakan terbaik untuk mencapai matlamat jangka panjang.
Dalam praktik, algoritma RL mengumpul ganjaran sepanjang episod dan bertujuan memaksimumkan pulangan yang dijangka (jumlah ganjaran masa depan). Mereka belajar memilih tindakan yang membawa ganjaran masa depan tinggi, walaupun tindakan tersebut mungkin tidak memberikan ganjaran segera tertinggi. Keupayaan merancang untuk keuntungan jangka panjang (kadang-kadang menerima pengorbanan jangka pendek) menjadikan RL sesuai untuk tugas keputusan berurutan yang kompleks.
Jenis Algoritma Pembelajaran Penguatan
Terdapat banyak algoritma untuk melaksanakan pembelajaran penguatan. Secara umum, ia terbahagi kepada dua kelas: berasaskan model dan tanpa model.
-
RL berasaskan model: Agen terlebih dahulu mempelajari atau mengetahui model dinamik persekitaran (bagaimana keadaan berubah dan bagaimana ganjaran diberikan) dan kemudian merancang tindakan dengan mensimulasikan hasil. Contohnya, robot yang memetakan bangunan untuk mencari laluan terpendek menggunakan pendekatan berasaskan model.
-
RL tanpa model: Agen tidak mempunyai model eksplisit persekitaran dan belajar semata-mata dari cuba dan salah dalam persekitaran sebenar (atau simulasi). Daripada merancang dengan model, ia mengemas kini anggaran nilai atau polisi secara beransur-ansur berdasarkan pengalaman. Kebanyakan algoritma RL klasik (seperti Q-learning atau pembelajaran Perbezaan Masa) adalah tanpa model.
Dalam kategori ini, algoritma berbeza dari segi cara mereka mewakili dan mengemas kini polisi atau fungsi nilai. Contohnya, Q-learning (kaedah berasaskan nilai) mempelajari anggaran "nilai Q" (pulangan dijangka) untuk pasangan keadaan-tindakan dan memilih tindakan dengan nilai tertinggi.
Kaedah kecerunan polisi secara langsung memparametrikan polisi dan melaraskan parameternya melalui kenaikan kecerunan pada ganjaran dijangka. Banyak kaedah maju (seperti Actor-Critic atau Pengoptimuman Polisi Kawasan Amanah) menggabungkan anggaran nilai dan pengoptimuman polisi.
Perkembangan utama terkini ialah Pembelajaran Penguatan Mendalam. Di sini, rangkaian neural mendalam berfungsi sebagai penganggar fungsi untuk fungsi nilai atau polisi, membolehkan RL mengendalikan input berdimensi tinggi seperti imej. Kejayaan DeepMind dalam permainan Atari dan permainan papan (contohnya AlphaGo dalam Go) datang dari gabungan pembelajaran mendalam dengan RL. Dalam RL mendalam, algoritma seperti Deep Q-Networks (DQN) atau Kecerunan Polisi Mendalam mengembangkan RL ke tugas dunia nyata yang kompleks.
Contohnya, AWS menyatakan bahawa algoritma RL biasa termasuk Q-learning, kaedah Monte Carlo, kaedah kecerunan polisi, dan pembelajaran Perbezaan Masa, dan bahawa "Deep RL" merujuk kepada penggunaan rangkaian neural mendalam dalam kaedah ini.
Aplikasi Pembelajaran Penguatan
Pembelajaran penguatan digunakan dalam banyak domain di mana pembuatan keputusan berurutan di bawah ketidakpastian adalah penting. Aplikasi utama termasuk:
- Permainan dan Simulasi: RL terkenal menguasai permainan dan simulator. Contohnya, AlphaGo dan AlphaZero DeepMind mempelajari Go dan Catur pada tahap supermanusia menggunakan RL. Permainan video (Atari, StarCraft) dan simulasi (fizik, simulator robotik) adalah medan ujian RL semula jadi kerana persekitaran yang jelas dan banyak percubaan boleh dilakukan.
- Robotik dan Kawalan: Robot autonomi dan kereta pandu sendiri adalah agen dalam persekitaran dinamik. Melalui cuba dan salah, RL boleh mengajar robot memegang objek atau kereta menavigasi trafik. IBM menyatakan bahawa robot dan kereta pandu sendiri adalah contoh utama agen RL yang belajar melalui interaksi dengan persekitaran mereka.
- Sistem Cadangan dan Pemasaran: RL boleh mempersonalisasi kandungan atau iklan berdasarkan interaksi pengguna. Contohnya, sistem cadangan berasaskan RL mengemas kini saranan apabila pengguna mengklik atau melangkau item, belajar untuk menyampaikan iklan atau produk paling relevan dari masa ke masa.
- Pengoptimuman Sumber: RL cemerlang dalam mengoptimumkan sistem dengan matlamat jangka panjang. Contohnya termasuk menyesuaikan penyejukan pusat data untuk meminimumkan penggunaan tenaga, mengawal penyimpanan tenaga grid pintar, atau mengurus sumber pengkomputeran awan. AWS menerangkan kes penggunaan seperti "pengoptimuman perbelanjaan awan," di mana agen RL belajar mengagihkan sumber pengkomputeran untuk kecekapan kos terbaik.
- Kewangan dan Perdagangan: Pasaran kewangan adalah dinamik dan berurutan. RL telah diterokai untuk mengoptimumkan strategi perdagangan, pengurusan portfolio, dan lindung nilai dengan mensimulasikan perdagangan dan belajar tindakan mana yang memaksimumkan pulangan di bawah perubahan pasaran.
Contoh-contoh ini menonjolkan kekuatan RL dalam perancangan jangka panjang. Berbeza dengan kaedah yang hanya meramalkan hasil segera, RL secara eksplisit memaksimumkan ganjaran terkumpul, menjadikannya sesuai untuk masalah di mana tindakan mempunyai akibat yang tertunda.
Pembelajaran Penguatan vs. Pembelajaran Mesin Lain
Pembelajaran penguatan adalah salah satu daripada tiga paradigma utama pembelajaran mesin (bersama pembelajaran terawasi dan tidak terawasi), tetapi ia berbeza dari segi fokus. Pembelajaran terawasi melatih pada pasangan input-output berlabel, manakala pembelajaran tidak terawasi mencari corak dalam data tanpa label.
Sebaliknya, RL tidak memerlukan contoh berlabel bagi tingkah laku yang betul. Sebaliknya, ia mentakrifkan matlamat melalui isyarat ganjaran dan belajar melalui cuba dan salah. Dalam RL, "data latihan" (tuple keadaan-tindakan-ganjaran) adalah bersiri dan saling bergantung, kerana setiap tindakan mempengaruhi keadaan masa depan.
Secara ringkas, pembelajaran terawasi memberitahu model apa yang perlu diramalkan; pembelajaran penguatan mengajar agen bagaimana bertindak. Seperti yang dinyatakan dalam tinjauan IBM, RL belajar melalui "penguatan positif" (ganjaran) dan bukannya dengan menunjukkan jawapan yang betul.
Ini menjadikan RL sangat berkuasa untuk tugas yang melibatkan pembuatan keputusan dan kawalan. Namun, ia juga bermakna RL boleh menjadi lebih mencabar: tanpa maklum balas berlabel, agen mesti menemui tindakan baik sendiri, yang sering memerlukan banyak penerokaan persekitaran.
Cabaran Pembelajaran Penguatan
Walaupun berkuasa, RL mempunyai cabaran praktikal:
- Ketidakcekapan Sampel: RL sering memerlukan jumlah pengalaman yang sangat besar (percubaan) untuk mempelajari polisi yang berkesan. Latihan dalam dunia sebenar boleh mahal atau perlahan (contohnya, robot mungkin memerlukan jutaan percubaan untuk menguasai tugas). Oleh itu, banyak sistem RL dilatih dalam simulasi sebelum digunakan.
- Reka Bentuk Ganjaran: Menentukan fungsi ganjaran yang sesuai adalah sukar. Ganjaran yang dipilih dengan buruk boleh membawa kepada tingkah laku yang tidak diingini (agen mungkin "memanipulasi" ganjaran dengan cara yang tidak selari dengan matlamat sebenar). Mereka bentuk ganjaran yang menangkap matlamat jangka panjang tanpa jalan pintas yang tidak diingini adalah seni dalam penyelidikan RL.
- Kestabilan dan Keselamatan: Dalam persekitaran dunia sebenar (robotik, penjagaan kesihatan, kewangan), tindakan penerokaan yang tidak selamat boleh berbahaya atau mahal. AWS menyatakan bahawa eksperimen dunia sebenar (contohnya menerbangkan dron) mungkin tidak praktikal tanpa simulasi. Memastikan keselamatan semasa pembelajaran dan penggunaan adalah bidang penyelidikan RL yang aktif.
- Kebolehfahaman: Polisi RL yang dipelajari (terutamanya model RL mendalam) boleh menjadi sukar difahami. Memahami mengapa agen mengambil tindakan tertentu sering sukar, menjadikan sukar untuk membaiki atau mempercayai sistem. Kekurangan kebolehfahaman ini dikenalpasti sebagai cabaran penggunaan untuk sistem RL yang kompleks.
Setiap cabaran ini menjadi subjek penyelidikan berterusan. Walaupun terdapat halangan, kejayaan praktikal RL (dalam permainan, robotik, sistem cadangan, dan lain-lain) menunjukkan bahawa apabila digunakan dengan berhati-hati, RL boleh mencapai hasil yang mengagumkan.
>>>Klik untuk mengetahui lebih lanjut tentang:
Kesimpulannya, pembelajaran penguatan adalah rangka kerja pembelajaran autonomi di mana agen belajar mencapai matlamat dengan berinteraksi dengan persekitarannya dan memaksimumkan ganjaran terkumpul. Ia menggabungkan idea daripada kawalan optimum, pengaturcaraan dinamik, dan psikologi tingkah laku, dan merupakan asas banyak pencapaian AI moden.
Dengan merangka masalah sebagai tugas pembuatan keputusan berurutan dengan maklum balas, RL membolehkan mesin mempelajari tingkah laku kompleks secara sendiri, merapatkan jurang antara pembelajaran berasaskan data dan tindakan berorientasikan matlamat.