Що таке навчання з підкріпленням?

Навчання з підкріпленням (RL) — це галузь машинного навчання, в якій агент навчається приймати рішення, взаємодіючи зі своїм середовищем. У RL мета агента — навчитися політиці (стратегії) вибору дій, що максимізують накопичувані винагороди з часом.

Навчання з підкріпленням (RL) — це галузь машинного навчання, в якій агент навчається приймати рішення, взаємодіючи з середовищем. У RL мета агента — навчитися політиці (стратегії) вибору дій, що максимізують накопичувану винагороду з часом.

На відміну від навчання з учителем, яке потребує маркованих прикладів, RL базується на зворотному зв’язку методом проб і помилок: дії, що дають позитивний результат (винагороди), підкріплюються, а ті, що призводять до негативних наслідків (покарань), уникаються.

RL — це, по суті, «обчислювальний підхід до розуміння та автоматизації навчання та прийняття рішень, спрямованих на досягнення цілей», де агент навчається через безпосередню взаємодію зі своїм середовищем, без потреби в зовнішньому нагляді чи повній моделі світу.

— Саттон і Барто, дослідники навчання з підкріпленням

Практично це означає, що агент постійно досліджує простір станів і дій, спостерігає результати своїх дій і коригує стратегію для покращення майбутніх винагород.

Ключові поняття та компоненти

Навчання з підкріпленням включає кілька основних елементів. Загалом, агент (навчальний або приймаючий рішення суб’єкт) взаємодіє з середовищем (зовнішньою системою або проблемною областю), виконуючи дії у дискретні моменти часу.

На кожному кроці агент спостерігає поточний стан середовища, виконує дію і отримує винагороду (числовий сигнал зворотного зв’язку) від середовища. Протягом багатьох таких взаємодій агент прагне максимізувати загальну (накопичувану) винагороду.

Агент

Автономний учень (наприклад, програма ШІ або робот), який приймає рішення.

Середовище

Світ або предметна область, з якою взаємодіє агент. Середовище надає агенту поточний стан і обчислює винагороду на основі дії агента.

Дія

Рішення або крок, який агент робить для впливу на середовище. Різні дії можуть призводити до різних станів і винагород.

Стан

Представлення середовища в певний момент часу (наприклад, розташування фігур на ігровій дошці або показники сенсорів у робота). Агент використовує стан для прийняття наступної дії.

Винагорода

Скалярний сигнал зворотного зв’язку (позитивний, негативний або нульовий), який надається середовищем після кожної дії. Він кількісно оцінює негайну користь (або витрати) дії. Мета агента — максимізувати очікувану накопичувану винагороду з часом.

Політика

Стратегія агента для вибору дій, зазвичай відображення станів у дії. Через навчання агент прагне знайти оптимальну або близьку до оптимальної політику.

Функція цінності

Оцінка очікуваної майбутньої винагороди (накопичуваної винагороди), яку агент отримає з певного стану (або пари стан-дія). Функція цінності допомагає агенту оцінювати довгострокові наслідки дій.

Модель (опціонально)

У моделюваному RL агент створює внутрішню модель динаміки середовища (як стани переходять залежно від дій) і використовує її для планування. У немоделюваному RL така модель не створюється; агент навчається виключно методом проб і помилок.
Ключові поняття та компоненти навчання з підкріпленням
Ключові поняття та компоненти структури навчання з підкріпленням

Як працює навчання з підкріпленням

RL часто формалізується як процес прийняття рішень Маркова (MDP). На кожному дискретному кроці часу агент спостерігає стан St і вибирає дію At. Потім середовище переходить у новий стан St+1 і видає винагороду Rt+1 на основі виконаної дії.

Протягом багатьох епізодів агент накопичує досвід у вигляді послідовностей стан-дія-винагорода. Аналізуючи, які дії призводили до вищих винагород, агент поступово покращує свою політику.

Дослідження проти використання: У задачах RL існує важливий компроміс між дослідженням і використанням. Агент повинен використовувати найкращі відомі дії для отримання винагороди, але також досліджувати нові дії, які можуть привести до ще кращих результатів.

Наприклад, агент навчання з підкріпленням, який керує роботом, зазвичай обирає перевірений безпечний маршрут (використання), але іноді пробує новий шлях (дослідження), щоб потенційно знайти швидший маршрут. Балансування цього компромісу є ключовим для знаходження оптимальної політики.

RL «імітує процес навчання методом проб і помилок, який використовують люди». Дитина може навчитися, що прибирання викликає похвалу, а кидання іграшок — докір; подібно, агент RL навчається, які дії приносять винагороду, отримуючи позитивний зворотний зв’язок за хороші дії і негативний — за погані.

— Документація AWS Machine Learning

З часом агент формує оцінки цінності або політики, які відображають найкращу послідовність дій для досягнення довгострокових цілей.

На практиці алгоритми RL накопичують винагороди за епізоди і прагнуть максимізувати очікуваний дохід (суму майбутніх винагород). Вони навчаються віддавати перевагу діям, що ведуть до високих майбутніх винагород, навіть якщо ці дії не дають найбільшої негайної винагороди. Ця здатність планувати на довгострокову перспективу (іноді приймаючи короткострокові жертви) робить RL придатним для складних послідовних задач прийняття рішень.

Як працює навчання з підкріпленням
Як навчання з підкріпленням працює на практиці

Типи алгоритмів навчання з підкріпленням

Існує багато алгоритмів для реалізації навчання з підкріпленням. Загалом їх можна поділити на дві категорії: моделювані та немоделювані методи.

Моделюване RL

Планувальний підхід

Агент спочатку вивчає або знає модель динаміки середовища (як змінюються стани і як надаються винагороди), а потім планує дії, моделюючи результати.

  • Ефективний при обмеженій кількості даних
  • Може ефективно планувати наперед
  • Потребує точної моделі середовища

Приклад: Робот, що складає карту будівлі для пошуку найкоротшого маршруту, використовує моделюваний підхід.

Немоделюване RL

Пряме навчання

Агент не має явної моделі середовища і навчається виключно методом проб і помилок у реальному (або симульованому) середовищі.

  • Не потребує моделі середовища
  • Працює зі складними середовищами
  • Потребує більше досвіду

Приклад: Більшість класичних алгоритмів RL (наприклад, Q-навчання або навчання з різницею у часі) є немоделюваними.

У межах цих категорій алгоритми відрізняються тим, як вони представляють і оновлюють політику або функцію цінності. Наприклад, Q-навчання (метод на основі цінності) навчається оцінкам «Q-значень» (очікуваного доходу) для пар стан-дія і вибирає дію з найвищим значенням.

Методи градієнта політики безпосередньо параметризують політику і коригують її параметри за допомогою градієнтного підйому за очікуваною винагородою. Багато сучасних методів (наприклад, Actor-Critic або Trust Region Policy Optimization) поєднують оцінку цінності та оптимізацію політики.

Глибоке навчання з підкріпленням: Важливий недавній розвиток, коли глибокі нейронні мережі використовуються як апроксиматори функцій цінності або політик, що дозволяє RL працювати з високовимірними вхідними даними, такими як зображення. Успіх DeepMind у іграх Atari та настільних іграх (наприклад, AlphaGo у грі Го) базується на поєднанні глибокого навчання з RL.

У глибокому RL алгоритми, такі як Deep Q-Networks (DQN) або Deep Policy Gradients, масштабують RL для складних реальних задач.

Поширені алгоритми RL включають Q-навчання, методи Монте-Карло, методи градієнта політики та навчання з різницею у часі, а «глибоке RL» означає використання глибоких нейронних мереж у цих методах.

— Документація AWS Machine Learning
Типи алгоритмів навчання з підкріпленням
Типи алгоритмів навчання з підкріпленням

Застосування навчання з підкріпленням

Навчання з підкріпленням застосовується у багатьох сферах, де важливе послідовне прийняття рішень в умовах невизначеності. Основні застосування включають:

Ігри та симуляції

RL відомий тим, що освоїв ігри та симулятори. AlphaGo та AlphaZero від DeepMind навчилися грати у Го та шахи на надлюдському рівні, використовуючи RL.

  • Відеоігри (Atari, StarCraft)
  • Настільні ігри (Го, шахи)
  • Фізичні симуляції
  • Робототехнічні симулятори

Робототехніка та керування

Автономні роботи та безпілотні автомобілі — це агенти у динамічних середовищах, які навчаються методом проб і помилок.

  • Захоплення та маніпуляція об’єктами
  • Автономна навігація
  • Безпілотні транспортні засоби
  • Промислова автоматизація

Рекомендаційні системи

RL може персоналізувати контент або рекламу на основі взаємодії користувача, навчаючись пропонувати найбільш релевантні елементи з часом.

  • Персоналізація контенту
  • Оптимізація таргетингу реклами
  • Рекомендації продуктів
  • Оптимізація залучення користувачів

Оптимізація ресурсів

RL відмінно підходить для оптимізації систем із довгостроковими цілями та складними завданнями розподілу ресурсів.

  • Оптимізація охолодження дата-центрів
  • Зберігання енергії в розумних мережах
  • Ресурси хмарних обчислень
  • Управління ланцюгами постачання

Фінанси та торгівля

Фінансові ринки є динамічними та послідовними, що робить RL придатним для торгових стратегій і управління портфелем.

  • Алгоритмічні торгові стратегії
  • Оптимізація портфеля
  • Управління ризиками
  • Маркет-мейкінг
Перевага довгострокового планування: Ці застосування підкреслюють силу RL у довгостроковому плануванні. На відміну від методів, що лише прогнозують негайні результати, RL явно максимізує накопичувані винагороди, що робить його придатним для задач із відкладеними наслідками дій.
Застосування навчання з підкріпленням
Застосування навчання з підкріпленням у різних галузях

Навчання з підкріпленням проти інших видів машинного навчання

Навчання з підкріпленням — один із трьох основних парадигм машинного навчання (поряд із навчанням з учителем і без учителя), але він суттєво відрізняється за фокусом. Навчання з учителем тренується на маркованих парах вхід-вихід, тоді як навчання без учителя знаходить закономірності у немаркованих даних.

Аспект Навчання з учителем Навчання без учителя Навчання з підкріпленням
Тип даних Марковані пари вхід-вихід Немарковані дані Послідовні кортежі стан-дія-винагорода
Мета навчання Передбачити правильні виходи Знайти приховані закономірності Максимізувати накопичувану винагороду
Тип зворотного зв’язку Прямі правильні відповіді Відсутність зворотного зв’язку Сигнали винагороди/покарання
Метод навчання Навчання на прикладах Виявлення структури Дослідження методом проб і помилок

На відміну від цього, RL не потребує маркованих прикладів правильної поведінки. Натомість він визначає мету через сигнал винагороди і навчається методом проб і помилок. У RL «навчальні дані» (кортежі стан-дія-винагорода) є послідовними та взаємозалежними, оскільки кожна дія впливає на майбутні стани.

Простіше кажучи, навчання з учителем каже моделі, що передбачати; навчання з підкріпленням навчає агента, як діяти. RL навчається через «позитивне підкріплення» (винагороду), а не через показ правильних відповідей.

— Огляд машинного навчання IBM

Це робить RL особливо потужним для задач, що включають прийняття рішень і керування. Однак це також означає, що RL може бути складнішим: без маркованого зворотного зв’язку агент повинен самостійно відкривати хороші дії, що часто вимагає великої кількості досліджень середовища.

Навчання з підкріпленням проти інших видів машинного навчання
Навчання з підкріпленням проти інших парадигм машинного навчання

Виклики навчання з підкріпленням

Незважаючи на свою потужність, RL має практичні виклики:

Неефективність вибірки

RL часто потребує величезної кількості досвіду (спроб), щоб навчитися ефективним політикам. Навчання у реальному світі може бути дорогим або повільним (наприклад, роботу може знадобитися мільйони спроб, щоб опанувати завдання). Через це багато систем RL тренуються у симуляції перед впровадженням.

Проєктування винагороди

Визначення відповідної функції винагороди є складним завданням. Неправильно обрана винагорода може призвести до небажаної поведінки (агент може «обманювати» винагороду способом, що не відповідає справжній меті). Проєктування винагород, які відображають довгострокові цілі без небажаних спрощень, є мистецтвом у дослідженнях RL.

Стабільність і безпека

У реальних умовах (робототехніка, охорона здоров’я, фінанси) небезпечні дослідницькі дії можуть бути ризикованими або дорогими. Експерименти у реальному світі (наприклад, польоти дронів) можуть бути непрактичними без симуляції. Забезпечення безпеки під час навчання і впровадження є активною областю досліджень RL.

Інтерпретованість

Навчені політики RL (особливо глибокі моделі RL) можуть бути непрозорими. Зрозуміти, чому агент приймає певні дії, часто складно, що ускладнює налагодження або довіру до системи. Ця відсутність інтерпретованості є викликом при впровадженні складних систем RL.
Поточні дослідження: Кожен із цих викликів є предметом поточних досліджень. Незважаючи на труднощі, практичні успіхи RL (в іграх, робототехніці, рекомендаторних системах тощо) демонструють, що при обережному застосуванні RL може досягати вражаючих результатів.
Виклики впровадження навчання з підкріпленням
Виклики впровадження навчання з підкріпленням

Висновок

Підсумовуючи, навчання з підкріпленням — це автономна навчальна структура, в якій агент навчається досягати цілей, взаємодіючи зі своїм середовищем і максимізуючи накопичувану винагороду. Воно поєднує ідеї оптимального керування, динамічного програмування та поведінкової психології і є основою багатьох сучасних проривів у ШІ.

Формулюючи задачі як послідовні завдання прийняття рішень із зворотним зв’язком, RL дає змогу машинам самостійно навчатися складним поведінкам, долаючи розрив між навчанням на даних і цілеспрямованою дією.

Досліджуйте більше пов’язаних статей
Зовнішні джерела
Цю статтю було складено з урахуванням таких зовнішніх джерел:
96 статті
Розі Ха — авторка на Inviai, яка спеціалізується на поширенні знань та рішень у сфері штучного інтелекту. Завдяки досвіду досліджень та впровадження ШІ у різні галузі, такі як бізнес, створення контенту та автоматизація, Розі Ха пропонує зрозумілі, практичні та надихаючі матеріали. Її місія — допомогти кожному ефективно використовувати ШІ для підвищення продуктивності та розширення творчих можливостей.
Пошук