Що таке навчання з підкріпленням?
Навчання з підкріпленням (RL) — це галузь машинного навчання, в якій агент навчається приймати рішення, взаємодіючи зі своїм середовищем. У RL мета агента — навчитися політиці (стратегії) вибору дій, що максимізують накопичувані винагороди з часом.
Навчання з підкріпленням (RL) — це галузь машинного навчання, в якій агент навчається приймати рішення, взаємодіючи з середовищем. У RL мета агента — навчитися політиці (стратегії) вибору дій, що максимізують накопичувану винагороду з часом.
На відміну від навчання з учителем, яке потребує маркованих прикладів, RL базується на зворотному зв’язку методом проб і помилок: дії, що дають позитивний результат (винагороди), підкріплюються, а ті, що призводять до негативних наслідків (покарань), уникаються.
RL — це, по суті, «обчислювальний підхід до розуміння та автоматизації навчання та прийняття рішень, спрямованих на досягнення цілей», де агент навчається через безпосередню взаємодію зі своїм середовищем, без потреби в зовнішньому нагляді чи повній моделі світу.
— Саттон і Барто, дослідники навчання з підкріпленням
Практично це означає, що агент постійно досліджує простір станів і дій, спостерігає результати своїх дій і коригує стратегію для покращення майбутніх винагород.
Ключові поняття та компоненти
Навчання з підкріпленням включає кілька основних елементів. Загалом, агент (навчальний або приймаючий рішення суб’єкт) взаємодіє з середовищем (зовнішньою системою або проблемною областю), виконуючи дії у дискретні моменти часу.
На кожному кроці агент спостерігає поточний стан середовища, виконує дію і отримує винагороду (числовий сигнал зворотного зв’язку) від середовища. Протягом багатьох таких взаємодій агент прагне максимізувати загальну (накопичувану) винагороду.
Агент
Середовище
Дія
Стан
Винагорода
Політика
Функція цінності
Модель (опціонально)

Як працює навчання з підкріпленням
RL часто формалізується як процес прийняття рішень Маркова (MDP). На кожному дискретному кроці часу агент спостерігає стан St і вибирає дію At. Потім середовище переходить у новий стан St+1 і видає винагороду Rt+1 на основі виконаної дії.
Протягом багатьох епізодів агент накопичує досвід у вигляді послідовностей стан-дія-винагорода. Аналізуючи, які дії призводили до вищих винагород, агент поступово покращує свою політику.
Наприклад, агент навчання з підкріпленням, який керує роботом, зазвичай обирає перевірений безпечний маршрут (використання), але іноді пробує новий шлях (дослідження), щоб потенційно знайти швидший маршрут. Балансування цього компромісу є ключовим для знаходження оптимальної політики.
RL «імітує процес навчання методом проб і помилок, який використовують люди». Дитина може навчитися, що прибирання викликає похвалу, а кидання іграшок — докір; подібно, агент RL навчається, які дії приносять винагороду, отримуючи позитивний зворотний зв’язок за хороші дії і негативний — за погані.
— Документація AWS Machine Learning
З часом агент формує оцінки цінності або політики, які відображають найкращу послідовність дій для досягнення довгострокових цілей.
На практиці алгоритми RL накопичують винагороди за епізоди і прагнуть максимізувати очікуваний дохід (суму майбутніх винагород). Вони навчаються віддавати перевагу діям, що ведуть до високих майбутніх винагород, навіть якщо ці дії не дають найбільшої негайної винагороди. Ця здатність планувати на довгострокову перспективу (іноді приймаючи короткострокові жертви) робить RL придатним для складних послідовних задач прийняття рішень.

Типи алгоритмів навчання з підкріпленням
Існує багато алгоритмів для реалізації навчання з підкріпленням. Загалом їх можна поділити на дві категорії: моделювані та немоделювані методи.
Планувальний підхід
Агент спочатку вивчає або знає модель динаміки середовища (як змінюються стани і як надаються винагороди), а потім планує дії, моделюючи результати.
- Ефективний при обмеженій кількості даних
- Може ефективно планувати наперед
- Потребує точної моделі середовища
Приклад: Робот, що складає карту будівлі для пошуку найкоротшого маршруту, використовує моделюваний підхід.
Пряме навчання
Агент не має явної моделі середовища і навчається виключно методом проб і помилок у реальному (або симульованому) середовищі.
- Не потребує моделі середовища
- Працює зі складними середовищами
- Потребує більше досвіду
Приклад: Більшість класичних алгоритмів RL (наприклад, Q-навчання або навчання з різницею у часі) є немоделюваними.
У межах цих категорій алгоритми відрізняються тим, як вони представляють і оновлюють політику або функцію цінності. Наприклад, Q-навчання (метод на основі цінності) навчається оцінкам «Q-значень» (очікуваного доходу) для пар стан-дія і вибирає дію з найвищим значенням.
Методи градієнта політики безпосередньо параметризують політику і коригують її параметри за допомогою градієнтного підйому за очікуваною винагородою. Багато сучасних методів (наприклад, Actor-Critic або Trust Region Policy Optimization) поєднують оцінку цінності та оптимізацію політики.
У глибокому RL алгоритми, такі як Deep Q-Networks (DQN) або Deep Policy Gradients, масштабують RL для складних реальних задач.
Поширені алгоритми RL включають Q-навчання, методи Монте-Карло, методи градієнта політики та навчання з різницею у часі, а «глибоке RL» означає використання глибоких нейронних мереж у цих методах.
— Документація AWS Machine Learning

Застосування навчання з підкріпленням
Навчання з підкріпленням застосовується у багатьох сферах, де важливе послідовне прийняття рішень в умовах невизначеності. Основні застосування включають:
Ігри та симуляції
RL відомий тим, що освоїв ігри та симулятори. AlphaGo та AlphaZero від DeepMind навчилися грати у Го та шахи на надлюдському рівні, використовуючи RL.
- Відеоігри (Atari, StarCraft)
- Настільні ігри (Го, шахи)
- Фізичні симуляції
- Робототехнічні симулятори
Робототехніка та керування
Автономні роботи та безпілотні автомобілі — це агенти у динамічних середовищах, які навчаються методом проб і помилок.
- Захоплення та маніпуляція об’єктами
- Автономна навігація
- Безпілотні транспортні засоби
- Промислова автоматизація
Рекомендаційні системи
RL може персоналізувати контент або рекламу на основі взаємодії користувача, навчаючись пропонувати найбільш релевантні елементи з часом.
- Персоналізація контенту
- Оптимізація таргетингу реклами
- Рекомендації продуктів
- Оптимізація залучення користувачів
Оптимізація ресурсів
RL відмінно підходить для оптимізації систем із довгостроковими цілями та складними завданнями розподілу ресурсів.
- Оптимізація охолодження дата-центрів
- Зберігання енергії в розумних мережах
- Ресурси хмарних обчислень
- Управління ланцюгами постачання
Фінанси та торгівля
Фінансові ринки є динамічними та послідовними, що робить RL придатним для торгових стратегій і управління портфелем.
- Алгоритмічні торгові стратегії
- Оптимізація портфеля
- Управління ризиками
- Маркет-мейкінг

Навчання з підкріпленням проти інших видів машинного навчання
Навчання з підкріпленням — один із трьох основних парадигм машинного навчання (поряд із навчанням з учителем і без учителя), але він суттєво відрізняється за фокусом. Навчання з учителем тренується на маркованих парах вхід-вихід, тоді як навчання без учителя знаходить закономірності у немаркованих даних.
| Аспект | Навчання з учителем | Навчання без учителя | Навчання з підкріпленням |
|---|---|---|---|
| Тип даних | Марковані пари вхід-вихід | Немарковані дані | Послідовні кортежі стан-дія-винагорода |
| Мета навчання | Передбачити правильні виходи | Знайти приховані закономірності | Максимізувати накопичувану винагороду |
| Тип зворотного зв’язку | Прямі правильні відповіді | Відсутність зворотного зв’язку | Сигнали винагороди/покарання |
| Метод навчання | Навчання на прикладах | Виявлення структури | Дослідження методом проб і помилок |
На відміну від цього, RL не потребує маркованих прикладів правильної поведінки. Натомість він визначає мету через сигнал винагороди і навчається методом проб і помилок. У RL «навчальні дані» (кортежі стан-дія-винагорода) є послідовними та взаємозалежними, оскільки кожна дія впливає на майбутні стани.
Простіше кажучи, навчання з учителем каже моделі, що передбачати; навчання з підкріпленням навчає агента, як діяти. RL навчається через «позитивне підкріплення» (винагороду), а не через показ правильних відповідей.
— Огляд машинного навчання IBM
Це робить RL особливо потужним для задач, що включають прийняття рішень і керування. Однак це також означає, що RL може бути складнішим: без маркованого зворотного зв’язку агент повинен самостійно відкривати хороші дії, що часто вимагає великої кількості досліджень середовища.

Виклики навчання з підкріпленням
Незважаючи на свою потужність, RL має практичні виклики:
Неефективність вибірки
Проєктування винагороди
Стабільність і безпека
Інтерпретованість

Висновок
Підсумовуючи, навчання з підкріпленням — це автономна навчальна структура, в якій агент навчається досягати цілей, взаємодіючи зі своїм середовищем і максимізуючи накопичувану винагороду. Воно поєднує ідеї оптимального керування, динамічного програмування та поведінкової психології і є основою багатьох сучасних проривів у ШІ.
Формулюючи задачі як послідовні завдання прийняття рішень із зворотним зв’язком, RL дає змогу машинам самостійно навчатися складним поведінкам, долаючи розрив між навчанням на даних і цілеспрямованою дією.