Apakah Pembelajaran Penguatan?

Pembelajaran Penguatan (RL) adalah cabang pembelajaran mesin di mana agen belajar membuat keputusan dengan berinteraksi dengan persekitarannya. Dalam RL, matlamat agen adalah untuk mempelajari polisi (strategi) bagi memilih tindakan yang memaksimumkan ganjaran terkumpul dari masa ke masa.

Pembelajaran Penguatan (RL) adalah cabang pembelajaran mesin di mana agen belajar membuat keputusan dengan berinteraksi dengan persekitaran. Dalam RL, matlamat agen adalah untuk mempelajari polisi (strategi) bagi memilih tindakan yang memaksimumkan ganjaran terkumpul dari masa ke masa.

Berbeza dengan pembelajaran terawasi, yang memerlukan contoh berlabel, RL bergantung pada maklum balas cuba-dan-silap: tindakan yang menghasilkan hasil positif (ganjaran) diperkuatkan, manakala yang menghasilkan keputusan negatif (hukuman) dielakkan.

RL pada dasarnya adalah "pendekatan pengkomputeran untuk memahami dan mengautomasikan pembelajaran dan pembuatan keputusan berorientasikan matlamat" di mana agen belajar dari interaksi langsung dengan persekitarannya, tanpa memerlukan pengawasan luaran atau model lengkap dunia.
— Sutton dan Barto, Penyelidik Pembelajaran Penguatan

Dalam praktiknya, ini bermakna agen sentiasa meneroka ruang keadaan-tindakan, memerhati hasil tindakannya, dan menyesuaikan strateginya untuk meningkatkan ganjaran masa depan.

Konsep dan Komponen Utama

Pembelajaran penguatan melibatkan beberapa elemen teras. Secara umum, agen (pembelajar atau entiti pembuat keputusan) berinteraksi dengan persekitaran (sistem luaran atau ruang masalah) dengan mengambil tindakan pada langkah masa diskret.

Pada setiap langkah, agen memerhati keadaan semasa persekitaran, melaksanakan tindakan, dan kemudian menerima ganjaran (isyarat maklum balas berangka) dari persekitaran. Melalui banyak interaksi sebegini, agen berusaha memaksimumkan jumlah ganjarannya (terkumpul).

Agen

Pembelajar autonomi (contoh: program AI atau robot) yang membuat keputusan.

Persekitaran

Dunia atau domain masalah yang berinteraksi dengan agen. Persekitaran menyediakan keadaan semasa kepada agen dan mengira ganjaran berdasarkan tindakan agen.

Tindakan

Keputusan atau langkah yang diambil oleh agen untuk mempengaruhi persekitaran. Tindakan berbeza boleh membawa kepada keadaan dan ganjaran yang berbeza.

Keadaan

Perwakilan persekitaran pada masa tertentu (contohnya, kedudukan kepingan pada papan permainan atau bacaan sensor dalam robot). Agen menggunakan keadaan untuk menentukan tindakan seterusnya.

Ganjaran

Isyarat maklum balas skalar (positif, negatif, atau sifar) yang diberikan oleh persekitaran selepas setiap tindakan. Ia mengukur manfaat segera (atau kos) tindakan tersebut. Matlamat agen adalah memaksimumkan ganjaran terkumpul yang dijangka dari masa ke masa.

Polisi

Strategi agen untuk memilih tindakan, biasanya pemetaan dari keadaan ke tindakan. Melalui pembelajaran, agen berusaha mencari polisi yang optimum atau hampir optimum.

Fungsi Nilai

Anggaran ganjaran masa depan yang dijangka (ganjaran terkumpul) yang akan diperoleh agen dari keadaan tertentu (atau pasangan keadaan-tindakan). Fungsi nilai membantu agen menilai akibat jangka panjang tindakan.

Model (Pilihan)

Dalam RL berasaskan model, agen membina model dalaman dinamik persekitaran (bagaimana keadaan berubah berdasarkan tindakan) dan menggunakannya untuk merancang. Dalam RL tanpa model, tiada model sebegini dibina; agen belajar semata-mata dari pengalaman cuba-dan-silap.

Konsep dan Komponen Utama Pembelajaran Penguatan

Konsep dan komponen utama rangka kerja pembelajaran penguatan

Cara Kerja Pembelajaran Penguatan

RL sering diformalkan sebagai proses keputusan Markov (MDP). Pada setiap langkah masa diskret, agen memerhati keadaan St dan memilih tindakan At. Persekitaran kemudian beralih ke keadaan baru St+1 dan mengeluarkan ganjaran Rt+1 berdasarkan tindakan yang diambil.

Melalui banyak episod, agen mengumpul pengalaman dalam bentuk urutan keadaan–tindakan–ganjaran. Dengan menganalisis tindakan yang membawa kepada ganjaran lebih tinggi, agen secara beransur-ansur memperbaiki polisi.

Eksplorasi vs. Eksploitasi: Masalah RL melibatkan pertukaran penting antara eksplorasi dan eksploitasi. Agen mesti mengeksploitasi tindakan terbaik yang diketahui untuk mendapatkan ganjaran, tetapi juga meneroka tindakan baru yang mungkin membawa hasil lebih baik.

Contohnya, agen pembelajaran penguatan yang mengawal robot mungkin biasanya mengambil laluan selamat yang terbukti (eksploitasi) tetapi kadang-kadang mencuba laluan baru (eksplorasi) untuk berpotensi menemui laluan lebih cepat. Mengimbangi pertukaran ini penting untuk mencari polisi optimum.

RL "meniru proses pembelajaran cuba-dan-silap yang digunakan manusia". Seorang kanak-kanak mungkin belajar bahawa membersihkan mendapat pujian manakala membaling mainan mendapat teguran; begitu juga, agen RL belajar tindakan mana yang menghasilkan ganjaran dengan menerima maklum balas positif untuk tindakan baik dan maklum balas negatif untuk tindakan buruk.
— Dokumentasi Pembelajaran Mesin AWS

Seiring masa, agen membina anggaran nilai atau polisi yang menangkap urutan tindakan terbaik untuk mencapai matlamat jangka panjang.

Dalam praktik, algoritma RL mengumpul ganjaran sepanjang episod dan berusaha memaksimumkan pulangan yang dijangka (jumlah ganjaran masa depan). Mereka belajar memilih tindakan yang membawa ganjaran masa depan tinggi, walaupun tindakan itu mungkin tidak menghasilkan ganjaran segera tertinggi. Keupayaan merancang untuk keuntungan jangka panjang (kadang-kadang menerima pengorbanan jangka pendek) menjadikan RL sesuai untuk tugas keputusan berurutan yang kompleks.

Cara pembelajaran penguatan berfungsi dalam praktik

Jenis Algoritma Pembelajaran Penguatan

Terdapat banyak algoritma untuk melaksanakan pembelajaran penguatan. Secara umum, ia terbahagi kepada dua kelas: kaedah berasaskan model dan tanpa model.

RL Berasaskan Model

Pendekatan Perancangan

Agen terlebih dahulu mempelajari atau mengetahui model dinamik persekitaran (bagaimana keadaan berubah dan bagaimana ganjaran diberikan) dan kemudian merancang tindakan dengan mensimulasikan hasil.

Berkesan dengan data terhad
Boleh merancang ke hadapan dengan berkesan
Memerlukan model persekitaran yang tepat

Contoh: Robot yang memetakan bangunan untuk mencari laluan terpendek menggunakan pendekatan berasaskan model.

RL Tanpa Model

Pembelajaran Terus

Agen tidak mempunyai model eksplisit persekitaran dan belajar semata-mata dari cuba-dan-silap dalam persekitaran sebenar (atau simulasi).

Tidak memerlukan model persekitaran
Berfungsi dengan persekitaran kompleks
Memerlukan lebih banyak pengalaman

Contoh: Kebanyakan algoritma RL klasik (seperti Q-learning atau pembelajaran Perbezaan Temporal) adalah tanpa model.

Dalam kategori ini, algoritma berbeza dalam cara mereka mewakili dan mengemas kini polisi atau fungsi nilai. Contohnya, Q-learning (kaedah berasaskan nilai) mempelajari anggaran "nilai Q" (pulangan dijangka) untuk pasangan keadaan-tindakan dan memilih tindakan dengan nilai tertinggi.

Kaedah policy-gradient secara langsung memparametrikan polisi dan melaraskan parameternya melalui kenaikan kecerunan pada ganjaran dijangka. Banyak kaedah maju (seperti Actor-Critic atau Trust Region Policy Optimization) menggabungkan anggaran nilai dan pengoptimuman polisi.

Pembelajaran Penguatan Mendalam: Perkembangan besar baru-baru ini di mana rangkaian neural mendalam berfungsi sebagai penganggar fungsi untuk fungsi nilai atau polisi, membolehkan RL mengendalikan input berdimensi tinggi seperti imej. Kejayaan DeepMind dalam permainan Atari dan permainan papan (contohnya AlphaGo dalam Go) datang dari gabungan pembelajaran mendalam dengan RL.

Dalam RL mendalam, algoritma seperti Deep Q-Networks (DQN) atau Deep Policy Gradients mengembangkan RL ke tugas dunia nyata yang kompleks.

Algoritma RL biasa termasuk Q-learning, kaedah Monte Carlo, kaedah policy-gradient, dan pembelajaran Perbezaan Temporal, dan "Deep RL" merujuk kepada penggunaan rangkaian neural mendalam dalam kaedah ini.
— Dokumentasi Pembelajaran Mesin AWS

Jenis algoritma pembelajaran penguatan

Aplikasi Pembelajaran Penguatan

Pembelajaran penguatan digunakan dalam banyak domain di mana pembuatan keputusan berurutan di bawah ketidakpastian adalah penting. Aplikasi utama termasuk:

Permainan dan Simulasi

RL terkenal menguasai permainan dan simulator. AlphaGo dan AlphaZero dari DeepMind belajar Go dan Catur pada tahap supermanusia menggunakan RL.

Permainan video (Atari, StarCraft)
Permainan papan (Go, Catur)
Simulasi fizik
Simulator robotik

Robotik dan Kawalan

Robot autonomi dan kereta pandu sendiri adalah agen dalam persekitaran dinamik yang belajar melalui cuba dan silap.

Pengambilan dan manipulasi objek
Navigasi autonomi
Kenderaan pandu sendiri
Automasi industri

Sistem Cadangan

RL boleh mempersonalisasi kandungan atau iklan berdasarkan interaksi pengguna, belajar untuk menyampaikan item paling relevan dari masa ke masa.

Personalisasi kandungan
Pengoptimuman sasaran iklan
Cadangan produk
Pengoptimuman penglibatan pengguna

Pengoptimuman Sumber

RL cemerlang dalam mengoptimumkan sistem dengan matlamat jangka panjang dan cabaran pengagihan sumber yang kompleks.

Pengoptimuman penyejukan pusat data
Penyimpanan tenaga grid pintar
Sumber pengkomputeran awan
Pengurusan rantaian bekalan

Kewangan dan Perdagangan

Pasaran kewangan adalah dinamik dan berurutan, menjadikan RL sesuai untuk strategi perdagangan dan pengurusan portfolio.

Strategi perdagangan algoritma
Pengoptimuman portfolio
Pengurusan risiko
Pembentukan pasaran

Kelebihan Perancangan Jangka Panjang: Aplikasi ini menonjolkan kekuatan RL dalam perancangan jangka panjang. Berbeza dengan kaedah yang hanya meramalkan hasil segera, RL secara eksplisit memaksimumkan ganjaran terkumpul, menjadikannya sesuai untuk masalah di mana tindakan mempunyai akibat tertunda.

Aplikasi pembelajaran penguatan merentasi industri

Pembelajaran Penguatan vs. Pembelajaran Mesin Lain

Pembelajaran penguatan adalah salah satu daripada tiga paradigma utama pembelajaran mesin (bersama pembelajaran terawasi dan tidak terawasi), tetapi ia berbeza dari segi fokus. Pembelajaran terawasi melatih pada pasangan input-output berlabel, manakala pembelajaran tidak terawasi mencari corak dalam data tanpa label.

Aspek	Pembelajaran Terawasi	Pembelajaran Tidak Terawasi	Pembelajaran Penguatan
Jenis Data	Pasangan input-output berlabel	Data tanpa label	Urutan keadaan-tindakan-ganjaran
Matlamat Pembelajaran	Meramalkan output yang betul	Mencari corak tersembunyi	Memaksimumkan ganjaran terkumpul
Jenis Maklum Balas	Jawapan betul secara langsung	Tiada maklum balas	Isyarat ganjaran/hukuman
Kaedah Pembelajaran	Belajar dari contoh	Menemui struktur	Eksplorasi cuba-dan-silap

Berbeza dengan itu, RL tidak memerlukan contoh berlabel tingkah laku betul. Sebaliknya, ia mentakrifkan matlamat melalui isyarat ganjaran dan belajar melalui cuba dan silap. Dalam RL, "data latihan" (urutan keadaan-tindakan-ganjaran) adalah berurutan dan saling bergantung, kerana setiap tindakan mempengaruhi keadaan masa depan.

Secara ringkas, pembelajaran terawasi memberitahu model apa yang perlu diramalkan; pembelajaran penguatan mengajar agen bagaimana bertindak. RL belajar melalui "penguatan positif" (ganjaran) dan bukannya dengan ditunjukkan jawapan betul.
— Gambaran Keseluruhan Pembelajaran Mesin IBM

Ini menjadikan RL sangat berkuasa untuk tugas yang melibatkan pembuatan keputusan dan kawalan. Namun, ia juga bermakna RL boleh lebih mencabar: tanpa maklum balas berlabel, agen mesti menemui tindakan baik sendiri, sering memerlukan banyak eksplorasi persekitaran.

Pembelajaran Penguatan vs Pembelajaran Mesin Lain

Pembelajaran penguatan vs paradigma pembelajaran mesin lain

Cabaran Pembelajaran Penguatan

Walaupun berkuasa, RL mempunyai cabaran praktikal:

Ketidakcekapan Sampel

RL sering memerlukan jumlah pengalaman yang sangat besar (percubaan) untuk mempelajari polisi yang berkesan. Latihan dalam dunia sebenar boleh mahal atau perlahan (contohnya, robot mungkin memerlukan jutaan percubaan untuk menguasai tugas). Oleh itu, banyak sistem RL dilatih dalam simulasi sebelum digunakan.

Reka Bentuk Ganjaran

Menentukan fungsi ganjaran yang sesuai adalah sukar. Ganjaran yang dipilih dengan buruk boleh membawa kepada tingkah laku yang tidak diingini (agen mungkin "memanipulasi" ganjaran dengan cara yang tidak selari dengan matlamat sebenar). Mereka bentuk ganjaran yang menangkap matlamat jangka panjang tanpa jalan pintas yang tidak diingini adalah seni dalam penyelidikan RL.

Kestabilan dan Keselamatan

Dalam persekitaran dunia sebenar (robotik, penjagaan kesihatan, kewangan), tindakan eksplorasi yang tidak selamat boleh berbahaya atau mahal. Eksperimen dunia sebenar (contohnya menerbangkan dron) mungkin tidak praktikal tanpa simulasi. Memastikan keselamatan semasa pembelajaran dan penggunaan adalah bidang penyelidikan RL yang aktif.

Kebolehfahaman

Polisi RL yang dipelajari (terutamanya model RL mendalam) boleh menjadi sukar difahami. Memahami mengapa agen mengambil tindakan tertentu sering sukar, menjadikan sukar untuk membaiki atau mempercayai sistem. Kekurangan kebolehfahaman ini dikenalpasti sebagai cabaran penggunaan sistem RL yang kompleks.

Penyelidikan Berterusan: Setiap cabaran ini menjadi subjek penyelidikan berterusan. Walaupun terdapat halangan, kejayaan praktikal RL (dalam permainan, robotik, sistem cadangan, dll.) menunjukkan bahawa apabila digunakan dengan berhati-hati, RL boleh mencapai hasil yang mengagumkan.

Cabaran pelaksanaan pembelajaran penguatan

Kesimpulan

Secara ringkas, pembelajaran penguatan adalah rangka kerja pembelajaran autonomi di mana agen belajar mencapai matlamat dengan berinteraksi dengan persekitarannya dan memaksimumkan ganjaran terkumpul. Ia menggabungkan idea dari kawalan optimum, pengaturcaraan dinamik, dan psikologi tingkah laku, dan merupakan asas banyak pencapaian AI moden.

Dengan merangka masalah sebagai tugas pembuatan keputusan berurutan dengan maklum balas, RL membolehkan mesin belajar tingkah laku kompleks sendiri, merapatkan jurang antara pembelajaran berasaskan data dan tindakan berorientasikan matlamat.

Terokai lebih banyak artikel berkaitan

Rujukan Luaran

Artikel ini telah disusun berdasarkan sumber luaran berikut:

Pengetahuan Asas tentang AI

25/08/2025

Rosie Ha

135 artikel

Rosie Ha adalah penulis di Inviai, yang pakar berkongsi pengetahuan dan penyelesaian mengenai kecerdasan buatan. Dengan pengalaman dalam penyelidikan dan aplikasi AI dalam pelbagai bidang seperti perniagaan, penciptaan kandungan, dan automasi, Rosie Ha akan menyampaikan artikel yang mudah difahami, praktikal dan memberi inspirasi. Misi Rosie Ha adalah untuk membantu semua orang memanfaatkan AI dengan berkesan bagi meningkatkan produktiviti dan mengembangkan kreativiti.

Lihat Profil Profil Semua Catatan (135) Catatan (135)

Apakah Pembelajaran Penguatan?

Konsep dan Komponen Utama