Pembelajaran Penguatan (RL) adalah cabang dari pembelajaran mesin di mana agen belajar membuat keputusan dengan berinteraksi dengan lingkungan. Dalam RL, tujuan agen adalah mempelajari kebijakan (sebuah strategi) untuk memilih tindakan yang memaksimalkan imbalan kumulatif dari waktu ke waktu.
Berbeda dengan pembelajaran terawasi yang memerlukan contoh berlabel, RL bergantung pada umpan balik coba-coba: tindakan yang menghasilkan hasil positif (imbalan) diperkuat, sementara yang menghasilkan hasil negatif (hukuman) dihindari.
Seperti yang dijelaskan oleh Sutton dan Barto, RL pada dasarnya adalah “pendekatan komputasi untuk memahami dan mengotomatisasi pembelajaran dan pengambilan keputusan yang berorientasi tujuan” di mana agen belajar dari interaksi langsung dengan lingkungannya, tanpa memerlukan pengawasan eksternal atau model dunia yang lengkap.
Dalam praktiknya, ini berarti agen terus-menerus menjelajahi ruang status-tindakan, mengamati hasil tindakannya, dan menyesuaikan strateginya untuk meningkatkan imbalan di masa depan.
Konsep dan Komponen Utama
Pembelajaran penguatan melibatkan beberapa elemen inti. Secara umum, agen (pembelajar atau entitas pengambil keputusan) berinteraksi dengan lingkungan (sistem eksternal atau ruang masalah) dengan mengambil tindakan pada langkah waktu diskrit.
Pada setiap langkah, agen mengamati status lingkungan saat ini, melaksanakan sebuah tindakan, dan kemudian menerima imbalan (sinyal umpan balik numerik) dari lingkungan. Melalui banyak interaksi seperti ini, agen berusaha memaksimalkan total imbalan (kumulatif) yang diperoleh. Konsep kunci meliputi:
- Agen: Pembelajar otonom (misalnya program AI atau robot) yang membuat keputusan.
- Lingkungan: Dunia atau domain masalah tempat agen berinteraksi. Lingkungan menyediakan status saat ini kepada agen dan menghitung imbalan berdasarkan tindakan agen.
- Tindakan: Keputusan atau langkah yang diambil agen untuk memengaruhi lingkungan. Tindakan yang berbeda dapat menghasilkan status dan imbalan yang berbeda.
- Status: Representasi lingkungan pada waktu tertentu (misalnya posisi bidak pada papan permainan atau pembacaan sensor pada robot). Agen menggunakan status untuk menentukan tindakan berikutnya.
- Imbalan: Sinyal umpan balik skalar (positif, negatif, atau nol) yang diberikan oleh lingkungan setelah setiap tindakan. Ini mengukur manfaat langsung (atau biaya) dari tindakan tersebut. Tujuan agen adalah memaksimalkan imbalan kumulatif yang diharapkan dari waktu ke waktu.
- Kebijakan: Strategi agen dalam memilih tindakan, biasanya berupa pemetaan dari status ke tindakan. Melalui pembelajaran, agen bertujuan menemukan kebijakan yang optimal atau mendekati optimal.
- Fungsi nilai (atau return): Perkiraan imbalan masa depan yang diharapkan (imbalan kumulatif) yang akan diperoleh agen dari status tertentu (atau pasangan status-tindakan). Fungsi nilai membantu agen mengevaluasi konsekuensi jangka panjang dari tindakan.
- Model (opsional): Dalam RL berbasis model, agen membangun model internal dinamika lingkungan (bagaimana status berubah berdasarkan tindakan) dan menggunakannya untuk merencanakan. Dalam RL tanpa model, tidak ada model seperti itu; agen belajar murni dari pengalaman coba-coba.
Cara Kerja Pembelajaran Penguatan
RL sering diformalkan sebagai proses keputusan Markov (MDP). Pada setiap langkah waktu diskrit, agen mengamati status St dan memilih tindakan At. Lingkungan kemudian bertransisi ke status baru St+1 dan mengeluarkan imbalan Rt+1 berdasarkan tindakan yang diambil.
Selama banyak episode, agen mengumpulkan pengalaman dalam bentuk urutan status–tindakan–imbalan. Dengan menganalisis tindakan mana yang menghasilkan imbalan lebih tinggi, agen secara bertahap memperbaiki kebijakannya.
Yang penting, masalah RL melibatkan pertukaran antara eksplorasi dan eksploitasi. Agen harus memanfaatkan tindakan terbaik yang diketahui untuk mendapatkan imbalan, tetapi juga harus menjelajahi tindakan baru yang mungkin menghasilkan hasil lebih baik.
Misalnya, agen pembelajaran penguatan yang mengendalikan robot biasanya mengambil rute yang sudah terbukti aman (eksploitasi) tetapi kadang mencoba jalur baru (eksplorasi) untuk menemukan rute yang lebih cepat. Menyeimbangkan pertukaran ini penting untuk menemukan kebijakan optimal.
Proses pembelajaran ini sering dibandingkan dengan pengkondisian perilaku. Misalnya, AWS mencatat bahwa RL “meniru proses pembelajaran coba-coba yang digunakan manusia”. Seorang anak mungkin belajar bahwa membersihkan mendapat pujian sementara melempar mainan mendapat teguran; demikian pula, agen RL belajar tindakan mana yang menghasilkan imbalan dengan menerima umpan balik positif untuk tindakan baik dan negatif untuk tindakan buruk.
Seiring waktu, agen membangun perkiraan nilai atau kebijakan yang menangkap urutan tindakan terbaik untuk mencapai tujuan jangka panjang.
Dalam praktiknya, algoritma RL mengakumulasi imbalan selama episode dan bertujuan memaksimalkan return yang diharapkan (jumlah imbalan masa depan). Mereka belajar memilih tindakan yang menghasilkan imbalan tinggi di masa depan, meskipun tindakan tersebut mungkin tidak memberikan imbalan langsung tertinggi. Kemampuan merencanakan untuk keuntungan jangka panjang (kadang menerima pengorbanan jangka pendek) membuat RL cocok untuk tugas pengambilan keputusan berurutan yang kompleks.
Jenis Algoritma Pembelajaran Penguatan
Ada banyak algoritma untuk mengimplementasikan pembelajaran penguatan. Secara umum, mereka terbagi menjadi dua kelas: metode berbasis model dan tanpa model.
-
RL berbasis model: Agen terlebih dahulu mempelajari atau mengetahui model dinamika lingkungan (bagaimana status berubah dan bagaimana imbalan diberikan) lalu merencanakan tindakan dengan mensimulasikan hasil. Misalnya, robot yang memetakan sebuah gedung untuk menemukan rute terpendek menggunakan pendekatan berbasis model.
-
RL tanpa model: Agen tidak memiliki model eksplisit dari lingkungan dan belajar hanya dari coba-coba di lingkungan nyata (atau simulasi). Alih-alih merencanakan dengan model, agen memperbarui perkiraan nilai atau kebijakan secara bertahap dari pengalaman. Sebagian besar algoritma RL klasik (seperti Q-learning atau pembelajaran Temporal-Difference) adalah tanpa model.
Dalam kategori ini, algoritma berbeda dalam cara mereka merepresentasikan dan memperbarui kebijakan atau fungsi nilai. Misalnya, Q-learning (metode berbasis nilai) mempelajari perkiraan “nilai Q” (return yang diharapkan) untuk pasangan status-tindakan dan memilih tindakan dengan nilai tertinggi.
Metode policy-gradient secara langsung memparametrisasi kebijakan dan menyesuaikan parameternya melalui kenaikan gradien pada imbalan yang diharapkan. Banyak metode canggih (seperti Actor-Critic atau Trust Region Policy Optimization) menggabungkan estimasi nilai dan optimasi kebijakan.
Perkembangan besar baru-baru ini adalah Pembelajaran Penguatan Dalam. Di sini, jaringan saraf dalam berfungsi sebagai aproksimator fungsi untuk fungsi nilai atau kebijakan, memungkinkan RL menangani input berdimensi tinggi seperti gambar. Keberhasilan DeepMind pada permainan Atari dan permainan papan (misalnya AlphaGo dalam Go) berasal dari penggabungan pembelajaran dalam dengan RL. Dalam deep RL, algoritma seperti Deep Q-Networks (DQN) atau Deep Policy Gradients memperluas RL ke tugas dunia nyata yang kompleks.
Misalnya, AWS mencatat bahwa algoritma RL umum meliputi Q-learning, metode Monte Carlo, metode policy-gradient, dan pembelajaran Temporal-Difference, serta bahwa “Deep RL” merujuk pada penggunaan jaringan saraf dalam dalam metode-metode ini.
Aplikasi Pembelajaran Penguatan
Pembelajaran penguatan diterapkan di banyak bidang di mana pengambilan keputusan berurutan dalam ketidakpastian sangat penting. Aplikasi utama meliputi:
- Permainan dan Simulasi: RL terkenal menguasai permainan dan simulator. Misalnya, AlphaGo dan AlphaZero dari DeepMind belajar Go dan Catur pada tingkat supermanusia menggunakan RL. Video game (Atari, StarCraft) dan simulasi (fisika, simulator robotika) adalah tempat uji RL yang alami karena lingkungan terdefinisi dengan baik dan banyak percobaan dapat dilakukan.
- Robotika dan Kontrol: Robot otonom dan mobil swakemudi adalah agen dalam lingkungan dinamis. Dengan coba-coba, RL dapat mengajarkan robot meraih objek atau mobil menavigasi lalu lintas. IBM mencatat bahwa robot dan mobil swakemudi adalah contoh utama agen RL yang belajar dengan berinteraksi dengan lingkungannya.
- Sistem Rekomendasi dan Pemasaran: RL dapat mempersonalisasi konten atau iklan berdasarkan interaksi pengguna. Misalnya, sistem rekomendasi berbasis RL memperbarui saran saat pengguna mengklik atau melewati item, belajar menampilkan iklan atau produk paling relevan dari waktu ke waktu.
- Optimasi Sumber Daya: RL unggul dalam mengoptimalkan sistem dengan tujuan jangka panjang. Contohnya termasuk mengatur pendinginan pusat data untuk meminimalkan penggunaan energi, mengontrol penyimpanan energi smart-grid, atau mengelola sumber daya komputasi awan. AWS menggambarkan kasus penggunaan seperti “optimasi pengeluaran cloud,” di mana agen RL belajar mengalokasikan sumber daya komputasi untuk efisiensi biaya terbaik.
- Keuangan dan Perdagangan: Pasar keuangan bersifat dinamis dan berurutan. RL telah dieksplorasi untuk mengoptimalkan strategi perdagangan, manajemen portofolio, dan lindung nilai dengan mensimulasikan perdagangan dan belajar tindakan mana yang memaksimalkan keuntungan di bawah perubahan pasar.
Contoh-contoh ini menyoroti kekuatan RL dalam perencanaan jangka panjang. Berbeda dengan metode yang hanya memprediksi hasil langsung, RL secara eksplisit memaksimalkan imbalan kumulatif, membuatnya sangat cocok untuk masalah di mana tindakan memiliki konsekuensi tertunda.
Pembelajaran Penguatan vs. Pembelajaran Mesin Lainnya
Pembelajaran penguatan adalah salah satu dari tiga paradigma utama pembelajaran mesin (bersama pembelajaran terawasi dan tidak terawasi), tetapi fokusnya cukup berbeda. Pembelajaran terawasi melatih model pada pasangan input-output berlabel, sementara pembelajaran tidak terawasi menemukan pola dalam data tanpa label.
Sebaliknya, RL tidak memerlukan contoh berlabel dari perilaku yang benar. Sebagai gantinya, RL mendefinisikan tujuan melalui sinyal imbalan dan belajar dengan coba-coba. Dalam RL, “data pelatihan” (tuple status-tindakan-imbalan) bersifat berurutan dan saling bergantung, karena setiap tindakan memengaruhi status di masa depan.
Singkatnya, pembelajaran terawasi memberi tahu model apa yang harus diprediksi; pembelajaran penguatan mengajarkan agen bagaimana bertindak. Seperti yang dicatat dalam tinjauan IBM, RL belajar melalui “penguatan positif” (imbalan) daripada dengan menunjukkan jawaban yang benar.
Ini membuat RL sangat kuat untuk tugas yang melibatkan pengambilan keputusan dan kontrol. Namun, ini juga berarti RL bisa lebih menantang: tanpa umpan balik berlabel, agen harus menemukan tindakan yang baik sendiri, sering kali memerlukan banyak eksplorasi lingkungan.
Tantangan Pembelajaran Penguatan
Meskipun kuat, RL memiliki tantangan praktis:
- Ketidakefisienan Sampel: RL sering membutuhkan jumlah pengalaman yang sangat besar (percobaan) untuk mempelajari kebijakan yang efektif. Pelatihan di dunia nyata bisa mahal atau lambat (misalnya, robot mungkin memerlukan jutaan percobaan untuk menguasai tugas). Karena itu, banyak sistem RL dilatih dalam simulasi sebelum diterapkan.
- Desain Imbalan: Mendefinisikan fungsi imbalan yang tepat itu sulit. Imbalan yang dipilih buruk dapat menyebabkan perilaku yang tidak diinginkan (agen mungkin “memanipulasi” imbalan dengan cara yang tidak sesuai dengan tujuan sebenarnya). Mendesain imbalan yang menangkap tujuan jangka panjang tanpa jalan pintas yang tidak diinginkan adalah seni dalam riset RL.
- Stabilitas dan Keamanan: Dalam pengaturan dunia nyata (robotika, kesehatan, keuangan), tindakan eksplorasi yang tidak aman bisa berbahaya atau mahal. AWS mencatat bahwa eksperimen dunia nyata (misalnya menerbangkan drone) mungkin tidak praktis tanpa simulasi. Menjamin keamanan selama pembelajaran dan penerapan adalah area riset RL yang aktif.
- Interpretabilitas: Kebijakan RL yang dipelajari (terutama model deep RL) bisa sulit dipahami. Memahami mengapa agen mengambil tindakan tertentu sering sulit, sehingga sulit untuk debugging atau mempercayai sistem. Kurangnya interpretabilitas ini menjadi tantangan penerapan untuk sistem RL yang kompleks.
Setiap tantangan ini menjadi fokus riset yang sedang berlangsung. Meskipun ada hambatan, keberhasilan praktis RL (dalam permainan, robotika, sistem rekomendasi, dll.) menunjukkan bahwa jika diterapkan dengan hati-hati, RL dapat mencapai hasil yang mengesankan.
>>>Klik untuk mempelajari lebih lanjut tentang:
Singkatnya, pembelajaran penguatan adalah kerangka pembelajaran otonom di mana agen belajar mencapai tujuan dengan berinteraksi dengan lingkungannya dan memaksimalkan imbalan kumulatif. Ini menggabungkan ide dari kontrol optimal, pemrograman dinamis, dan psikologi perilaku, serta menjadi dasar banyak terobosan AI modern.
Dengan memformalkan masalah sebagai tugas pengambilan keputusan berurutan dengan umpan balik, RL memungkinkan mesin belajar perilaku kompleks secara mandiri, menjembatani kesenjangan antara pembelajaran berbasis data dan tindakan berorientasi tujuan.