Що таке навчання з підкріпленням?

Навчання з підкріпленням (RL) — це галузь машинного навчання, в якій агент навчається приймати рішення через взаємодію з оточенням. У RL мета агента — опанувати політику (стратегію) вибору дій, що максимізують накопичену винагороду з часом.

На відміну від навчання з учителем, яке потребує маркованих прикладів, RL базується на зворотному зв’язку через спроби й помилки: дії, що приносять позитивний результат (винагороду), підкріплюються, а ті, що призводять до негативних наслідків (покарань), уникаються.

Як пояснюють Саттон і Барто, RL — це, по суті, «обчислювальний підхід до розуміння та автоматизації навчання і прийняття рішень, спрямованих на досягнення цілей», де агент навчається через пряму взаємодію з оточенням, без потреби у зовнішньому нагляді чи повній моделі світу.

Практично це означає, що агент постійно досліджує простір станів і дій, спостерігає результати своїх дій і коригує стратегію для покращення майбутніх винагород.

Ключові поняття та компоненти

Навчання з підкріпленням включає кілька основних елементів. Загалом, агент (навчальний або приймаючий рішення суб’єкт) взаємодіє з оточенням (зовнішньою системою або проблемним простором), виконуючи дії у дискретні моменти часу.

На кожному кроці агент спостерігає поточний стан оточення, виконує дію і отримує винагороду (числовий сигнал зворотного зв’язку) від оточення. Протягом багатьох таких взаємодій агент прагне максимізувати загальну (накопичену) винагороду. Основні поняття включають:

Агент: автономний учень (наприклад, програма ШІ або робот), який приймає рішення.
Оточення: світ або предметна область, з якою взаємодіє агент. Оточення надає агенту поточний стан і обчислює винагороду на основі дії агента.
Дія: рішення або крок, який агент робить для впливу на оточення. Різні дії можуть призводити до різних станів і винагород.
Стан: представлення оточення в певний момент часу (наприклад, розташування фігур на ігровій дошці або показники сенсорів у робота). Агент використовує стан для прийняття наступної дії.
Винагорода: скалярний сигнал зворотного зв’язку (позитивний, негативний або нульовий), який оточення надає після кожної дії. Вона кількісно оцінює негайну користь (або витрати) дії. Мета агента — максимізувати очікувану накопичену винагороду з часом.
Політика: стратегія агента для вибору дій, зазвичай відображення станів у дії. Через навчання агент прагне знайти оптимальну або близьку до оптимальної політику.
Функція цінності (або повернення): оцінка очікуваної майбутньої винагороди (накопиченої винагороди), яку агент отримає з певного стану (або пари стан-дія). Функція цінності допомагає агенту оцінювати довгострокові наслідки дій.
Модель (опціонально): у модельному RL агент створює внутрішню модель динаміки оточення (як стани переходять залежно від дій) і використовує її для планування. У безмодельному RL така модель не створюється; агент навчається виключно на основі досвіду спроб і помилок.

Ключові поняття та компоненти навчання з підкріпленням

Як працює навчання з підкріпленням

RL часто формалізується як процес прийняття рішень Маркова (MDP). На кожному дискретному кроці часу агент спостерігає стан St і вибирає дію At. Оточення переходить у новий стан St+1 і видає винагороду Rt+1 на основі виконаної дії.

Протягом багатьох епізодів агент накопичує досвід у вигляді послідовностей стан-дія-винагорода. Аналізуючи, які дії призводили до вищих винагород, агент поступово покращує свою політику.

Ключовим є компроміс між дослідженням і експлуатацією. Агент повинен експлуатувати найкращі відомі дії для отримання винагороди, але також досліджувати нові дії, які можуть привести до ще кращих результатів.

Наприклад, агент навчання з підкріпленням, що керує роботом, зазвичай обирає перевірений безпечний маршрут (експлуатація), але іноді пробує новий шлях (дослідження), щоб потенційно знайти швидший маршрут. Балансування цього компромісу є ключовим для знаходження оптимальної політики.

Процес навчання часто порівнюють із поведінковим кондиціюванням. Наприклад, AWS зазначає, що RL «імітує процес навчання через спроби й помилки, який використовують люди». Дитина може навчитися, що прибирання викликає похвалу, а кидання іграшок — докір; аналогічно агент RL навчається, які дії приносять винагороду, отримуючи позитивний зворотний зв’язок за хороші дії і негативний — за погані.

З часом агент формує оцінки цінності або політики, які відображають найкращу послідовність дій для досягнення довгострокових цілей.

На практиці алгоритми RL накопичують винагороди за епізоди і прагнуть максимізувати очікуваний дохід (суму майбутніх винагород). Вони навчаються віддавати перевагу діям, що ведуть до високих майбутніх винагород, навіть якщо ці дії не приносять найбільшої негайної винагороди. Ця здатність планувати на довгострокову перспективу (іноді приймаючи короткострокові жертви) робить RL придатним для складних послідовних завдань.

Як працює навчання з підкріпленням

Типи алгоритмів навчання з підкріпленням

Існує багато алгоритмів для реалізації навчання з підкріпленням. Загалом їх поділяють на дві категорії: модельні та безмодельні методи.

Модельне RL: агент спочатку вивчає або знає модель динаміки оточення (як змінюються стани і як нараховуються винагороди), а потім планує дії, імітуючи результати. Наприклад, робот, що складає карту будівлі для пошуку найкоротшого маршруту, використовує модельний підхід.
Безмодельне RL: агент не має явної моделі оточення і навчається виключно через спроби й помилки у реальному (або симульованому) середовищі. Замість планування з моделлю він поступово оновлює оцінки цінності або політики на основі досвіду. Більшість класичних алгоритмів RL (наприклад, Q-навчання або навчання з часовою різницею) є безмодельними.

У межах цих категорій алгоритми відрізняються способом представлення та оновлення політики або функції цінності. Наприклад, Q-навчання (метод на основі цінності) навчається оцінкам «Q-значень» (очікуваного доходу) для пар стан-дія і обирає дію з найвищим значенням.

Методи градієнта політики безпосередньо параметризують політику і коригують її параметри за допомогою градієнтного підйому за очікуваною винагородою. Багато сучасних методів (наприклад, Actor-Critic або Trust Region Policy Optimization) поєднують оцінку цінності та оптимізацію політики.

Важливим сучасним напрямком є глибоке навчання з підкріпленням. Тут глибокі нейронні мережі слугують апроксиматорами функцій цінності або політик, що дозволяє RL працювати з високовимірними вхідними даними, такими як зображення. Успіх DeepMind у іграх Atari та настільних іграх (наприклад, AlphaGo у грі Го) базується на поєднанні глибокого навчання з RL. У глибокому RL алгоритми, як Deep Q-Networks (DQN) або Deep Policy Gradients, масштабують RL для складних реальних завдань.

Наприклад, AWS зазначає, що поширені алгоритми RL включають Q-навчання, методи Монте-Карло, методи градієнта політики та навчання з часовою різницею, а «глибоке RL» означає використання глибоких нейронних мереж у цих методах.

Застосування навчання з підкріпленням

Навчання з підкріпленням застосовується у багатьох сферах, де важливе послідовне прийняття рішень в умовах невизначеності. Основні напрямки застосування включають:

Ігри та симуляції: RL відомий своїми успіхами у іграх і симуляторах. Наприклад, AlphaGo та AlphaZero від DeepMind опанували гру Го та шахи на надлюдському рівні за допомогою RL. Відеоігри (Atari, StarCraft) та симуляції (фізичні, робототехнічні) є природними тестовими майданчиками для RL, оскільки оточення добре визначене і можливі численні спроби.
Робототехніка та керування: Автономні роботи та безпілотні автомобілі — це агенти у динамічних середовищах. Через спроби й помилки RL може навчити робота захоплювати об’єкти або автомобіль — орієнтуватися в трафіку. IBM відзначає, що роботи та безпілотні авто є яскравими прикладами агентів RL, які навчаються через взаємодію з оточенням.
Рекомендаційні системи та маркетинг: RL може персоналізувати контент або рекламу на основі взаємодії користувачів. Наприклад, рекомендатор на основі RL оновлює пропозиції залежно від кліків або пропусків користувачів, навчаючись з часом показувати найбільш релевантні оголошення чи товари.
Оптимізація ресурсів: RL ефективний у оптимізації систем з довгостроковими цілями. Приклади включають регулювання охолодження дата-центрів для мінімізації енергоспоживання, керування енергозберігаючими системами розумних мереж або управління ресурсами хмарних обчислень. AWS описує випадки використання, як-от «оптимізація витрат у хмарі», де агент RL навчається розподіляти обчислювальні ресурси для максимальної економічності.
Фінанси та торгівля: Фінансові ринки є динамічними та послідовними. RL досліджується для оптимізації торгових стратегій, управління портфелем і хеджування шляхом моделювання угод і навчання, які дії максимізують прибуток у змінних ринкових умовах.

Ці приклади підкреслюють силу RL у довгостроковому плануванні. На відміну від методів, що прогнозують лише негайні результати, RL явно максимізує накопичені винагороди, що робить його ідеальним для задач, де дії мають відкладені наслідки.

Застосування навчання з підкріпленням

Навчання з підкріпленням у порівнянні з іншими видами машинного навчання

Навчання з підкріпленням — один із трьох основних парадигм машинного навчання (поряд із навчанням з учителем і без учителя), але він суттєво відрізняється за фокусом. Навчання з учителем тренується на маркованих парах вхід-вихід, тоді як навчання без учителя знаходить закономірності у немаркованих даних.

Натомість RL не потребує маркованих прикладів правильної поведінки. Замість цього він визначає мету через сигнал винагороди і навчається методом спроб і помилок. У RL «навчальні дані» (кортежі стан-дія-винагорода) є послідовними та взаємозалежними, оскільки кожна дія впливає на майбутні стани.

Простими словами, навчання з учителем вказує моделі, що передбачати; навчання з підкріпленням навчає агента, як діяти. Як зазначає огляд IBM, RL навчається через «позитивне підкріплення» (винагороду), а не через показ правильних відповідей.

Це робить RL особливо потужним для завдань, що включають прийняття рішень і керування. Водночас це означає, що RL може бути складнішим: без маркованого зворотного зв’язку агент повинен самостійно відкривати корисні дії, що часто вимагає значного дослідження оточення.

Навчання з підкріпленням у порівнянні з іншими видами машинного навчання

Виклики навчання з підкріпленням

Незважаючи на свою потужність, RL має практичні виклики:

Неефективність вибірки: RL часто потребує величезної кількості досвіду (спроб) для опанування ефективних політик. Навчання у реальному світі може бути дорогим або повільним (наприклад, роботу може знадобитися мільйони спроб, щоб опанувати завдання). Через це багато систем RL тренують у симуляції перед впровадженням.
Проєктування винагороди: Визначення відповідної функції винагороди є складним. Неправильно обрана винагорода може призвести до небажаної поведінки (агент може «обманювати» систему винагород так, що це не відповідає справжній меті). Проєктування винагород, які відображають довгострокові цілі без небажаних спрощень, є мистецтвом у дослідженнях RL.
Стабільність і безпека: У реальних умовах (робототехніка, охорона здоров’я, фінанси) небезпечні експериментальні дії можуть бути ризикованими або дорогими. AWS зазначає, що експерименти у реальному світі (наприклад, керування дроном) можуть бути непрактичними без симуляції. Забезпечення безпеки під час навчання і впровадження — активна сфера досліджень RL.
Інтерпретованість: Навчені політики RL (особливо глибокі моделі RL) можуть бути непрозорими. Зрозуміти, чому агент обирає певні дії, часто складно, що ускладнює налагодження або довіру до системи. Ця відсутність інтерпретованості є викликом при впровадженні складних систем RL.

Кожен із цих викликів є предметом поточних досліджень. Незважаючи на труднощі, практичні успіхи RL (у іграх, робототехніці, рекомендаторських системах тощо) демонструють, що при обережному застосуванні RL може досягати вражаючих результатів.

>>>Натисніть, щоб дізнатися більше про:

Що таке генеративний штучний інтелект?

Що таке нейронна мережа?

Виклики навчання з підкріпленням

Підсумовуючи, навчання з підкріпленням — це автономна навчальна система, у якій агент навчається досягати цілей через взаємодію з оточенням і максимізацію накопиченої винагороди. Воно поєднує ідеї оптимального керування, динамічного програмування та поведінкової психології і є основою багатьох сучасних проривів у ШІ.

Формулюючи задачі як послідовне прийняття рішень із зворотним зв’язком, RL дає змогу машинам самостійно опановувати складні поведінкові моделі, поєднуючи навчання на основі даних із цілеспрямованими діями.

External References

This article has been compiled with reference to the following external sources: