Apa itu Pembelajaran Penguatan?

Pembelajaran Penguatan (RL) adalah cabang dari pembelajaran mesin di mana sebuah agen belajar membuat keputusan dengan berinteraksi dengan lingkungannya. Dalam RL, tujuan agen adalah mempelajari kebijakan (strategi) untuk memilih tindakan yang memaksimalkan hadiah kumulatif dari waktu ke waktu.

Pembelajaran Penguatan (RL) adalah cabang dari pembelajaran mesin di mana sebuah agen belajar membuat keputusan dengan berinteraksi dengan lingkungan. Dalam RL, tujuan agen adalah mempelajari kebijakan (sebuah strategi) untuk memilih tindakan yang memaksimalkan hadiah kumulatif dari waktu ke waktu.

Berbeda dengan pembelajaran terawasi, yang membutuhkan contoh berlabel, RL mengandalkan umpan balik coba-coba: tindakan yang menghasilkan hasil positif (hadiah) diperkuat, sementara yang menghasilkan hasil negatif (hukuman) dihindari.

RL pada dasarnya adalah "pendekatan komputasi untuk memahami dan mengotomatisasi pembelajaran dan pengambilan keputusan yang berorientasi tujuan" di mana agen belajar dari interaksi langsung dengan lingkungannya, tanpa memerlukan pengawasan eksternal atau model dunia yang lengkap.

— Sutton dan Barto, Peneliti Pembelajaran Penguatan

Dalam praktiknya, ini berarti agen terus-menerus menjelajahi ruang keadaan-tindakan, mengamati hasil tindakannya, dan menyesuaikan strateginya untuk meningkatkan hadiah di masa depan.

Konsep dan Komponen Utama

Pembelajaran penguatan melibatkan beberapa elemen inti. Secara umum, sebuah agen (pembelajar atau entitas pengambil keputusan) berinteraksi dengan lingkungan (sistem eksternal atau ruang masalah) dengan mengambil tindakan pada langkah waktu diskrit.

Pada setiap langkah, agen mengamati keadaan lingkungan saat ini, menjalankan sebuah tindakan, dan kemudian menerima hadiah (sinyal umpan balik numerik) dari lingkungan. Melalui banyak interaksi seperti itu, agen berusaha memaksimalkan total hadiah (kumulatif) yang diperoleh.

Agen

Pembelajar otonom (misalnya program AI atau robot) yang membuat keputusan.

Lingkungan

Dunia atau domain masalah tempat agen berinteraksi. Lingkungan menyediakan keadaan saat ini kepada agen dan menghitung hadiah berdasarkan tindakan agen.

Tindakan

Keputusan atau langkah yang diambil agen untuk memengaruhi lingkungan. Tindakan yang berbeda dapat mengarah ke keadaan dan hadiah yang berbeda.

Keadaan

Representasi lingkungan pada waktu tertentu (misalnya posisi bidak pada papan permainan atau pembacaan sensor pada robot). Agen menggunakan keadaan untuk menentukan tindakan berikutnya.

Hadiah

Sinyal umpan balik skalar (positif, negatif, atau nol) yang diberikan oleh lingkungan setelah setiap tindakan. Ini mengukur manfaat langsung (atau biaya) dari tindakan tersebut. Tujuan agen adalah memaksimalkan hadiah kumulatif yang diharapkan dari waktu ke waktu.

Kebijakan

Strategi agen dalam memilih tindakan, biasanya berupa pemetaan dari keadaan ke tindakan. Melalui pembelajaran, agen bertujuan menemukan kebijakan optimal atau hampir optimal.

Fungsi Nilai

Perkiraan hadiah masa depan yang diharapkan (hadiah kumulatif) yang akan diperoleh agen dari keadaan tertentu (atau pasangan keadaan-tindakan). Fungsi nilai membantu agen menilai konsekuensi jangka panjang dari tindakan.

Model (Opsional)

Dalam RL berbasis model, agen membangun model internal dinamika lingkungan (bagaimana keadaan berubah berdasarkan tindakan) dan menggunakannya untuk merencanakan. Dalam RL tanpa model, tidak ada model seperti itu; agen belajar murni dari pengalaman coba-coba.
Konsep dan Komponen Utama Pembelajaran Penguatan
Konsep dan komponen utama kerangka pembelajaran penguatan

Cara Kerja Pembelajaran Penguatan

RL sering diformalkan sebagai proses keputusan Markov (MDP). Pada setiap langkah waktu diskrit, agen mengamati keadaan St dan memilih tindakan At. Lingkungan kemudian bertransisi ke keadaan baru St+1 dan mengeluarkan hadiah Rt+1 berdasarkan tindakan yang diambil.

Selama banyak episode, agen mengumpulkan pengalaman dalam bentuk urutan keadaan–tindakan–hadiah. Dengan menganalisis tindakan mana yang menghasilkan hadiah lebih tinggi, agen secara bertahap memperbaiki kebijakannya.

Eksplorasi vs. Eksploitasi: Masalah RL melibatkan pertukaran penting antara eksplorasi dan eksploitasi. Agen harus mengeksploitasi tindakan terbaik yang diketahui untuk mendapatkan hadiah, tetapi juga harus mengeksplorasi tindakan baru yang mungkin menghasilkan hasil lebih baik.

Misalnya, agen pembelajaran penguatan yang mengendalikan robot biasanya mengambil rute yang sudah terbukti aman (eksploitasi) tetapi kadang mencoba jalur baru (eksplorasi) untuk menemukan rute yang lebih cepat. Menyeimbangkan pertukaran ini penting untuk menemukan kebijakan optimal.

RL "meniru proses pembelajaran coba-coba yang digunakan manusia". Seorang anak mungkin belajar bahwa membersihkan mendapatkan pujian sementara melempar mainan mendapat teguran; demikian pula, agen RL belajar tindakan mana yang menghasilkan hadiah dengan menerima umpan balik positif untuk tindakan baik dan negatif untuk tindakan buruk.

— Dokumentasi Pembelajaran Mesin AWS

Seiring waktu, agen membangun perkiraan nilai atau kebijakan yang menangkap urutan tindakan terbaik untuk mencapai tujuan jangka panjang.

Dalam praktiknya, algoritma RL mengakumulasi hadiah selama episode dan bertujuan memaksimalkan pengembalian yang diharapkan (jumlah hadiah masa depan). Mereka belajar memilih tindakan yang mengarah ke hadiah masa depan tinggi, meskipun tindakan tersebut mungkin tidak menghasilkan hadiah langsung tertinggi. Kemampuan merencanakan keuntungan jangka panjang (kadang menerima pengorbanan jangka pendek) membuat RL cocok untuk tugas pengambilan keputusan berurutan yang kompleks.

Cara Kerja Pembelajaran Penguatan
Cara kerja pembelajaran penguatan dalam praktik

Jenis Algoritma Pembelajaran Penguatan

Ada banyak algoritma untuk mengimplementasikan pembelajaran penguatan. Secara umum, mereka terbagi menjadi dua kelas: metode berbasis model dan tanpa model.

RL Berbasis Model

Pendekatan Perencanaan

Agen pertama-tama mempelajari atau mengetahui model dinamika lingkungan (bagaimana keadaan berubah dan bagaimana hadiah diberikan) lalu merencanakan tindakan dengan mensimulasikan hasil.

  • Efisien dengan data terbatas
  • Dapat merencanakan ke depan secara efektif
  • Membutuhkan model lingkungan yang akurat

Contoh: Robot yang memetakan sebuah bangunan untuk menemukan rute terpendek menggunakan pendekatan berbasis model.

RL Tanpa Model

Pembelajaran Langsung

Agen tidak memiliki model eksplisit lingkungan dan belajar hanya dari coba-coba di lingkungan nyata (atau simulasi).

  • Tidak memerlukan model lingkungan
  • Bekerja dengan lingkungan kompleks
  • Membutuhkan lebih banyak pengalaman

Contoh: Sebagian besar algoritma RL klasik (seperti Q-learning atau pembelajaran Temporal-Difference) adalah tanpa model.

Dalam kategori ini, algoritma berbeda dalam cara mereka merepresentasikan dan memperbarui kebijakan atau fungsi nilai. Misalnya, Q-learning (metode berbasis nilai) mempelajari perkiraan "nilai Q" (pengembalian yang diharapkan) untuk pasangan keadaan-tindakan dan memilih tindakan dengan nilai tertinggi.

Metode policy-gradient secara langsung memparametrisasi kebijakan dan menyesuaikan parameternya melalui kenaikan gradien pada hadiah yang diharapkan. Banyak metode canggih (seperti Actor-Critic atau Trust Region Policy Optimization) menggabungkan estimasi nilai dan optimasi kebijakan.

Pembelajaran Penguatan Dalam (Deep RL): Perkembangan besar baru-baru ini di mana jaringan saraf dalam berfungsi sebagai aproksimator fungsi untuk fungsi nilai atau kebijakan, memungkinkan RL menangani input berdimensi tinggi seperti gambar. Keberhasilan DeepMind pada permainan Atari dan permainan papan (misalnya AlphaGo di Go) berasal dari penggabungan pembelajaran dalam dengan RL.

Dalam deep RL, algoritma seperti Deep Q-Networks (DQN) atau Deep Policy Gradients memperluas RL ke tugas dunia nyata yang kompleks.

Algoritma RL umum meliputi Q-learning, metode Monte Carlo, metode policy-gradient, dan pembelajaran Temporal-Difference, dan "Deep RL" merujuk pada penggunaan jaringan saraf dalam dalam metode ini.

— Dokumentasi Pembelajaran Mesin AWS
Jenis Algoritma Pembelajaran Penguatan
Jenis algoritma pembelajaran penguatan

Aplikasi Pembelajaran Penguatan

Pembelajaran penguatan diterapkan di banyak domain di mana pengambilan keputusan berurutan di bawah ketidakpastian sangat penting. Aplikasi utama meliputi:

Permainan dan Simulasi

RL terkenal menguasai permainan dan simulator. AlphaGo dan AlphaZero dari DeepMind belajar Go dan Catur pada tingkat supermanusia menggunakan RL.

  • Permainan video (Atari, StarCraft)
  • Permainan papan (Go, Catur)
  • Simulasi fisika
  • Simulator robotika

Robotika dan Kontrol

Robot otonom dan mobil swakemudi adalah agen di lingkungan dinamis yang belajar melalui coba-coba.

  • Menangkap dan memanipulasi objek
  • Navigasi otonom
  • Kendaraan swakemudi
  • Otomasi industri

Sistem Rekomendasi

RL dapat mempersonalisasi konten atau iklan berdasarkan interaksi pengguna, belajar menyajikan item paling relevan dari waktu ke waktu.

  • Personalisasi konten
  • Optimasi penargetan iklan
  • Rekomendasi produk
  • Optimasi keterlibatan pengguna

Optimasi Sumber Daya

RL unggul dalam mengoptimalkan sistem dengan tujuan jangka panjang dan tantangan alokasi sumber daya yang kompleks.

  • Optimasi pendinginan pusat data
  • Penyimpanan energi jaringan pintar
  • Sumber daya komputasi awan
  • Manajemen rantai pasokan

Keuangan dan Perdagangan

Pasar keuangan bersifat dinamis dan berurutan, membuat RL cocok untuk strategi perdagangan dan manajemen portofolio.

  • Strategi perdagangan algoritmik
  • Optimasi portofolio
  • Manajemen risiko
  • Pembuat pasar
Keunggulan Perencanaan Jangka Panjang: Aplikasi-aplikasi ini menyoroti kekuatan RL dalam perencanaan jangka panjang. Berbeda dengan metode yang hanya memprediksi hasil langsung, RL secara eksplisit memaksimalkan hadiah kumulatif, membuatnya sangat cocok untuk masalah di mana tindakan memiliki konsekuensi tertunda.
Aplikasi Pembelajaran Penguatan
Aplikasi pembelajaran penguatan di berbagai industri

Pembelajaran Penguatan vs. Pembelajaran Mesin Lainnya

Pembelajaran penguatan adalah salah satu dari tiga paradigma utama pembelajaran mesin (bersama pembelajaran terawasi dan tidak terawasi), tetapi fokusnya cukup berbeda. Pembelajaran terawasi melatih pada pasangan input-output berlabel, sementara pembelajaran tidak terawasi menemukan pola dalam data tanpa label.

Aspek Pembelajaran Terawasi Pembelajaran Tidak Terawasi Pembelajaran Penguatan
Jenis Data Pasangan input-output berlabel Data tanpa label Urutan keadaan-tindakan-hadiah berurutan
Tujuan Pembelajaran Memprediksi output yang benar Menemukan pola tersembunyi Memaksimalkan hadiah kumulatif
Jenis Umpan Balik Jawaban benar langsung Tanpa umpan balik Sinyal hadiah/hukuman
Metode Pembelajaran Belajar dari contoh Menemukan struktur Eksplorasi coba-coba

Sebaliknya, RL tidak memerlukan contoh berlabel perilaku yang benar. Sebagai gantinya, RL mendefinisikan tujuan melalui sinyal hadiah dan belajar dengan coba-coba. Dalam RL, "data pelatihan" (urutan keadaan-tindakan-hadiah) bersifat berurutan dan saling bergantung, karena setiap tindakan memengaruhi keadaan di masa depan.

Singkatnya, pembelajaran terawasi memberi tahu model apa yang harus diprediksi; pembelajaran penguatan mengajarkan agen bagaimana bertindak. RL belajar melalui "penguatan positif" (hadiah) daripada dengan menunjukkan jawaban yang benar.

— Ikhtisar Pembelajaran Mesin IBM

Ini membuat RL sangat kuat untuk tugas yang melibatkan pengambilan keputusan dan kontrol. Namun, ini juga berarti RL bisa lebih menantang: tanpa umpan balik berlabel, agen harus menemukan tindakan yang baik sendiri, seringkali membutuhkan banyak eksplorasi lingkungan.

Pembelajaran Penguatan vs. Pembelajaran Mesin Lainnya
Pembelajaran penguatan vs paradigma pembelajaran mesin lainnya

Tantangan Pembelajaran Penguatan

Meski kuat, RL memiliki tantangan praktis:

Inefisiensi Sampel

RL sering membutuhkan jumlah pengalaman yang sangat besar (percobaan) untuk mempelajari kebijakan efektif. Pelatihan di dunia nyata bisa mahal atau lambat (misalnya, robot mungkin perlu jutaan percobaan untuk menguasai tugas). Oleh karena itu, banyak sistem RL dilatih dalam simulasi sebelum diterapkan.

Desain Hadiah

Mendefinisikan fungsi hadiah yang tepat itu rumit. Hadiah yang dipilih buruk dapat menyebabkan perilaku yang tidak diinginkan (agen mungkin "memanipulasi" hadiah dengan cara yang tidak sesuai dengan tujuan sebenarnya). Mendesain hadiah yang menangkap tujuan jangka panjang tanpa jalan pintas yang tidak diinginkan adalah seni dalam riset RL.

Stabilitas dan Keamanan

Dalam pengaturan dunia nyata (robotika, kesehatan, keuangan), tindakan eksplorasi yang tidak aman bisa berbahaya atau mahal. Eksperimen dunia nyata (misalnya menerbangkan drone) mungkin tidak praktis tanpa simulasi. Menjamin keamanan selama pembelajaran dan penerapan adalah area riset RL yang aktif.

Interpretabilitas

Kebijakan RL yang dipelajari (terutama model deep RL) bisa sulit dipahami. Memahami mengapa agen mengambil tindakan tertentu sering sulit, membuat debugging atau mempercayai sistem menjadi sulit. Kurangnya interpretabilitas ini menjadi tantangan penerapan untuk sistem RL kompleks.
Riset Berkelanjutan: Setiap tantangan ini menjadi subjek riset berkelanjutan. Meski ada hambatan, keberhasilan praktis RL (dalam permainan, robotika, sistem rekomendasi, dll.) menunjukkan bahwa jika diterapkan dengan hati-hati, RL dapat mencapai hasil mengesankan.
Tantangan Pembelajaran Penguatan
Tantangan penerapan pembelajaran penguatan

Kesimpulan

Singkatnya, pembelajaran penguatan adalah kerangka pembelajaran otonom di mana agen belajar mencapai tujuan dengan berinteraksi dengan lingkungannya dan memaksimalkan hadiah kumulatif. Ini menggabungkan ide dari kontrol optimal, pemrograman dinamis, dan psikologi perilaku, dan menjadi dasar banyak terobosan AI modern.

Dengan memformalkan masalah sebagai tugas pengambilan keputusan berurutan dengan umpan balik, RL memungkinkan mesin belajar perilaku kompleks secara mandiri, menjembatani kesenjangan antara pembelajaran berbasis data dan tindakan berorientasi tujuan.

Jelajahi artikel terkait lainnya
Referensi Eksternal
Artikel ini disusun dengan merujuk pada sumber eksternal berikut:
135 artikel
Rosie Ha adalah penulis di Inviai, yang khusus membagikan pengetahuan dan solusi tentang kecerdasan buatan. Dengan pengalaman dalam penelitian dan penerapan AI di berbagai bidang seperti bisnis, pembuatan konten, dan otomatisasi, Rosie Ha menghadirkan artikel yang mudah dipahami, praktis, dan inspiratif. Misi Rosie Ha adalah membantu semua orang memanfaatkan AI secara efektif untuk meningkatkan produktivitas dan memperluas kemampuan kreativitas.

Komentar 0

Tinggalkan Komentar

Belum ada komentar. Jadilah yang pertama berkomentar!

Cari