Apa itu Pembelajaran Penguatan?
Pembelajaran Penguatan (RL) adalah cabang dari pembelajaran mesin di mana sebuah agen belajar membuat keputusan dengan berinteraksi dengan lingkungannya. Dalam RL, tujuan agen adalah mempelajari kebijakan (strategi) untuk memilih tindakan yang memaksimalkan hadiah kumulatif dari waktu ke waktu.
Pembelajaran Penguatan (RL) adalah cabang dari pembelajaran mesin di mana sebuah agen belajar membuat keputusan dengan berinteraksi dengan lingkungan. Dalam RL, tujuan agen adalah mempelajari kebijakan (sebuah strategi) untuk memilih tindakan yang memaksimalkan hadiah kumulatif dari waktu ke waktu.
Berbeda dengan pembelajaran terawasi, yang membutuhkan contoh berlabel, RL mengandalkan umpan balik coba-coba: tindakan yang menghasilkan hasil positif (hadiah) diperkuat, sementara yang menghasilkan hasil negatif (hukuman) dihindari.
RL pada dasarnya adalah "pendekatan komputasi untuk memahami dan mengotomatisasi pembelajaran dan pengambilan keputusan yang berorientasi tujuan" di mana agen belajar dari interaksi langsung dengan lingkungannya, tanpa memerlukan pengawasan eksternal atau model dunia yang lengkap.
— Sutton dan Barto, Peneliti Pembelajaran Penguatan
Dalam praktiknya, ini berarti agen terus-menerus menjelajahi ruang keadaan-tindakan, mengamati hasil tindakannya, dan menyesuaikan strateginya untuk meningkatkan hadiah di masa depan.
Konsep dan Komponen Utama
Pembelajaran penguatan melibatkan beberapa elemen inti. Secara umum, sebuah agen (pembelajar atau entitas pengambil keputusan) berinteraksi dengan lingkungan (sistem eksternal atau ruang masalah) dengan mengambil tindakan pada langkah waktu diskrit.
Pada setiap langkah, agen mengamati keadaan lingkungan saat ini, menjalankan sebuah tindakan, dan kemudian menerima hadiah (sinyal umpan balik numerik) dari lingkungan. Melalui banyak interaksi seperti itu, agen berusaha memaksimalkan total hadiah (kumulatif) yang diperoleh.
Agen
Lingkungan
Tindakan
Keadaan
Hadiah
Kebijakan
Fungsi Nilai
Model (Opsional)

Cara Kerja Pembelajaran Penguatan
RL sering diformalkan sebagai proses keputusan Markov (MDP). Pada setiap langkah waktu diskrit, agen mengamati keadaan St dan memilih tindakan At. Lingkungan kemudian bertransisi ke keadaan baru St+1 dan mengeluarkan hadiah Rt+1 berdasarkan tindakan yang diambil.
Selama banyak episode, agen mengumpulkan pengalaman dalam bentuk urutan keadaan–tindakan–hadiah. Dengan menganalisis tindakan mana yang menghasilkan hadiah lebih tinggi, agen secara bertahap memperbaiki kebijakannya.
Misalnya, agen pembelajaran penguatan yang mengendalikan robot biasanya mengambil rute yang sudah terbukti aman (eksploitasi) tetapi kadang mencoba jalur baru (eksplorasi) untuk menemukan rute yang lebih cepat. Menyeimbangkan pertukaran ini penting untuk menemukan kebijakan optimal.
RL "meniru proses pembelajaran coba-coba yang digunakan manusia". Seorang anak mungkin belajar bahwa membersihkan mendapatkan pujian sementara melempar mainan mendapat teguran; demikian pula, agen RL belajar tindakan mana yang menghasilkan hadiah dengan menerima umpan balik positif untuk tindakan baik dan negatif untuk tindakan buruk.
— Dokumentasi Pembelajaran Mesin AWS
Seiring waktu, agen membangun perkiraan nilai atau kebijakan yang menangkap urutan tindakan terbaik untuk mencapai tujuan jangka panjang.
Dalam praktiknya, algoritma RL mengakumulasi hadiah selama episode dan bertujuan memaksimalkan pengembalian yang diharapkan (jumlah hadiah masa depan). Mereka belajar memilih tindakan yang mengarah ke hadiah masa depan tinggi, meskipun tindakan tersebut mungkin tidak menghasilkan hadiah langsung tertinggi. Kemampuan merencanakan keuntungan jangka panjang (kadang menerima pengorbanan jangka pendek) membuat RL cocok untuk tugas pengambilan keputusan berurutan yang kompleks.

Jenis Algoritma Pembelajaran Penguatan
Ada banyak algoritma untuk mengimplementasikan pembelajaran penguatan. Secara umum, mereka terbagi menjadi dua kelas: metode berbasis model dan tanpa model.
Pendekatan Perencanaan
Agen pertama-tama mempelajari atau mengetahui model dinamika lingkungan (bagaimana keadaan berubah dan bagaimana hadiah diberikan) lalu merencanakan tindakan dengan mensimulasikan hasil.
- Efisien dengan data terbatas
- Dapat merencanakan ke depan secara efektif
- Membutuhkan model lingkungan yang akurat
Contoh: Robot yang memetakan sebuah bangunan untuk menemukan rute terpendek menggunakan pendekatan berbasis model.
Pembelajaran Langsung
Agen tidak memiliki model eksplisit lingkungan dan belajar hanya dari coba-coba di lingkungan nyata (atau simulasi).
- Tidak memerlukan model lingkungan
- Bekerja dengan lingkungan kompleks
- Membutuhkan lebih banyak pengalaman
Contoh: Sebagian besar algoritma RL klasik (seperti Q-learning atau pembelajaran Temporal-Difference) adalah tanpa model.
Dalam kategori ini, algoritma berbeda dalam cara mereka merepresentasikan dan memperbarui kebijakan atau fungsi nilai. Misalnya, Q-learning (metode berbasis nilai) mempelajari perkiraan "nilai Q" (pengembalian yang diharapkan) untuk pasangan keadaan-tindakan dan memilih tindakan dengan nilai tertinggi.
Metode policy-gradient secara langsung memparametrisasi kebijakan dan menyesuaikan parameternya melalui kenaikan gradien pada hadiah yang diharapkan. Banyak metode canggih (seperti Actor-Critic atau Trust Region Policy Optimization) menggabungkan estimasi nilai dan optimasi kebijakan.
Dalam deep RL, algoritma seperti Deep Q-Networks (DQN) atau Deep Policy Gradients memperluas RL ke tugas dunia nyata yang kompleks.
Algoritma RL umum meliputi Q-learning, metode Monte Carlo, metode policy-gradient, dan pembelajaran Temporal-Difference, dan "Deep RL" merujuk pada penggunaan jaringan saraf dalam dalam metode ini.
— Dokumentasi Pembelajaran Mesin AWS

Aplikasi Pembelajaran Penguatan
Pembelajaran penguatan diterapkan di banyak domain di mana pengambilan keputusan berurutan di bawah ketidakpastian sangat penting. Aplikasi utama meliputi:
Permainan dan Simulasi
RL terkenal menguasai permainan dan simulator. AlphaGo dan AlphaZero dari DeepMind belajar Go dan Catur pada tingkat supermanusia menggunakan RL.
- Permainan video (Atari, StarCraft)
- Permainan papan (Go, Catur)
- Simulasi fisika
- Simulator robotika
Robotika dan Kontrol
Robot otonom dan mobil swakemudi adalah agen di lingkungan dinamis yang belajar melalui coba-coba.
- Menangkap dan memanipulasi objek
- Navigasi otonom
- Kendaraan swakemudi
- Otomasi industri
Sistem Rekomendasi
RL dapat mempersonalisasi konten atau iklan berdasarkan interaksi pengguna, belajar menyajikan item paling relevan dari waktu ke waktu.
- Personalisasi konten
- Optimasi penargetan iklan
- Rekomendasi produk
- Optimasi keterlibatan pengguna
Optimasi Sumber Daya
RL unggul dalam mengoptimalkan sistem dengan tujuan jangka panjang dan tantangan alokasi sumber daya yang kompleks.
- Optimasi pendinginan pusat data
- Penyimpanan energi jaringan pintar
- Sumber daya komputasi awan
- Manajemen rantai pasokan
Keuangan dan Perdagangan
Pasar keuangan bersifat dinamis dan berurutan, membuat RL cocok untuk strategi perdagangan dan manajemen portofolio.
- Strategi perdagangan algoritmik
- Optimasi portofolio
- Manajemen risiko
- Pembuat pasar

Pembelajaran Penguatan vs. Pembelajaran Mesin Lainnya
Pembelajaran penguatan adalah salah satu dari tiga paradigma utama pembelajaran mesin (bersama pembelajaran terawasi dan tidak terawasi), tetapi fokusnya cukup berbeda. Pembelajaran terawasi melatih pada pasangan input-output berlabel, sementara pembelajaran tidak terawasi menemukan pola dalam data tanpa label.
| Aspek | Pembelajaran Terawasi | Pembelajaran Tidak Terawasi | Pembelajaran Penguatan |
|---|---|---|---|
| Jenis Data | Pasangan input-output berlabel | Data tanpa label | Urutan keadaan-tindakan-hadiah berurutan |
| Tujuan Pembelajaran | Memprediksi output yang benar | Menemukan pola tersembunyi | Memaksimalkan hadiah kumulatif |
| Jenis Umpan Balik | Jawaban benar langsung | Tanpa umpan balik | Sinyal hadiah/hukuman |
| Metode Pembelajaran | Belajar dari contoh | Menemukan struktur | Eksplorasi coba-coba |
Sebaliknya, RL tidak memerlukan contoh berlabel perilaku yang benar. Sebagai gantinya, RL mendefinisikan tujuan melalui sinyal hadiah dan belajar dengan coba-coba. Dalam RL, "data pelatihan" (urutan keadaan-tindakan-hadiah) bersifat berurutan dan saling bergantung, karena setiap tindakan memengaruhi keadaan di masa depan.
Singkatnya, pembelajaran terawasi memberi tahu model apa yang harus diprediksi; pembelajaran penguatan mengajarkan agen bagaimana bertindak. RL belajar melalui "penguatan positif" (hadiah) daripada dengan menunjukkan jawaban yang benar.
— Ikhtisar Pembelajaran Mesin IBM
Ini membuat RL sangat kuat untuk tugas yang melibatkan pengambilan keputusan dan kontrol. Namun, ini juga berarti RL bisa lebih menantang: tanpa umpan balik berlabel, agen harus menemukan tindakan yang baik sendiri, seringkali membutuhkan banyak eksplorasi lingkungan.

Tantangan Pembelajaran Penguatan
Meski kuat, RL memiliki tantangan praktis:
Inefisiensi Sampel
Desain Hadiah
Stabilitas dan Keamanan
Interpretabilitas

Kesimpulan
Singkatnya, pembelajaran penguatan adalah kerangka pembelajaran otonom di mana agen belajar mencapai tujuan dengan berinteraksi dengan lingkungannya dan memaksimalkan hadiah kumulatif. Ini menggabungkan ide dari kontrol optimal, pemrograman dinamis, dan psikologi perilaku, dan menjadi dasar banyak terobosan AI modern.
Dengan memformalkan masalah sebagai tugas pengambilan keputusan berurutan dengan umpan balik, RL memungkinkan mesin belajar perilaku kompleks secara mandiri, menjembatani kesenjangan antara pembelajaran berbasis data dan tindakan berorientasi tujuan.
Komentar 0
Tinggalkan Komentar
Belum ada komentar. Jadilah yang pertama berkomentar!