Что такое обучение с подкреплением?
Обучение с подкреплением (RL) — это раздел машинного обучения, в котором агент учится принимать решения, взаимодействуя с окружающей средой. В RL цель агента — выработать политику (стратегию) выбора действий, максимизирующую суммарное вознаграждение со временем.
Обучение с подкреплением (RL) — это раздел машинного обучения, в котором агент учится принимать решения, взаимодействуя с окружающей средой. В RL цель агента — выработать политику (стратегию) выбора действий, максимизирующую суммарное вознаграждение со временем.
В отличие от контролируемого обучения, требующего размеченных примеров, RL опирается на обратную связь методом проб и ошибок: действия, приводящие к положительным результатам (вознаграждениям), усиливаются, а те, что вызывают негативные последствия (наказания), избегаются.
RL по сути является «вычислительным подходом к пониманию и автоматизации целенаправленного обучения и принятия решений», где агент учится через прямое взаимодействие с окружающей средой без необходимости внешнего контроля или полной модели мира.
— Саттон и Барто, исследователи обучения с подкреплением
На практике это означает, что агент постоянно исследует пространство состояний и действий, наблюдает результаты своих действий и корректирует стратегию для улучшения будущих вознаграждений.
Ключевые понятия и компоненты
Обучение с подкреплением включает несколько основных элементов. В общих чертах, агент (обучающийся или принимающий решения субъект) взаимодействует с окружающей средой (внешней системой или предметной областью), выполняя действия в дискретные моменты времени.
На каждом шаге агент наблюдает текущее состояние среды, выполняет действие и получает вознаграждение (числовой сигнал обратной связи) от среды. За множество таких взаимодействий агент стремится максимизировать общее (накопленное) вознаграждение.
Агент
Среда
Действие
Состояние
Вознаграждение
Политика
Функция ценности
Модель (опционально)

Как работает обучение с подкреплением
RL часто формализуется как процесс принятия решений Маркова (MDP). На каждом дискретном шаге агент наблюдает состояние St и выбирает действие At. Среда затем переходит в новое состояние St+1 и выдает вознаграждение Rt+1 на основе выполненного действия.
За множество эпизодов агент накапливает опыт в виде последовательностей состояние–действие–вознаграждение. Анализируя, какие действия приводят к более высоким вознаграждениям, агент постепенно улучшает свою политику.
Например, агент RL, управляющий роботом, обычно выбирает проверенный безопасный маршрут (использование), но иногда пробует новый путь (исследование), чтобы потенциально найти более быстрый маршрут. Балансировка этого компромисса необходима для поиска оптимальной политики.
RL «имитирует процесс обучения методом проб и ошибок, который используют люди». Ребенок может понять, что уборка вызывает похвалу, а бросание игрушек — порицание; аналогично агент RL учится, какие действия приносят вознаграждение, получая положительную обратную связь за хорошие действия и отрицательную — за плохие.
— Документация AWS по машинному обучению
Со временем агент строит оценки ценности или политики, отражающие лучшую последовательность действий для достижения долгосрочных целей.
На практике алгоритмы RL накапливают вознаграждения за эпизоды и стремятся максимизировать ожидаемую отдачу (сумму будущих вознаграждений). Они учатся предпочитать действия, ведущие к высоким будущим вознаграждениям, даже если эти действия не приносят максимального немедленного вознаграждения. Эта способность планировать ради долгосрочной выгоды (иногда принимая краткосрочные жертвы) делает RL подходящим для сложных задач последовательного принятия решений.

Виды алгоритмов обучения с подкреплением
Существует множество алгоритмов для реализации обучения с подкреплением. В целом их можно разделить на два класса: модельные и безмодельные методы.
Подход планирования
Агент сначала изучает или знает модель динамики среды (как меняются состояния и как выдаются вознаграждения), а затем планирует действия, моделируя результаты.
- Эффективен при ограниченных данных
- Позволяет эффективно планировать наперед
- Требует точной модели среды
Пример: Робот, прокладывающий маршрут по зданию для поиска кратчайшего пути, использует модельный подход.
Прямое обучение
Агент не имеет явной модели среды и учится исключительно методом проб и ошибок в реальной (или симулированной) среде.
- Модель среды не требуется
- Работает со сложными средами
- Требует больше опыта
Пример: Большинство классических алгоритмов RL (например, Q-обучение или обучение с временной разницей) являются безмодельными.
Внутри этих категорий алгоритмы различаются способом представления и обновления политики или функции ценности. Например, Q-обучение (метод на основе ценности) изучает оценки «Q-значений» (ожидаемой отдачи) для пар состояние-действие и выбирает действие с наивысшим значением.
Методы градиента политики напрямую параметризуют политику и корректируют её параметры с помощью градиентного подъема по ожидаемому вознаграждению. Многие продвинутые методы (например, Actor-Critic или Trust Region Policy Optimization) сочетают оценку ценности и оптимизацию политики.
В глубоком RL алгоритмы, такие как Deep Q-Networks (DQN) или Deep Policy Gradients, масштабируют RL для сложных реальных задач.
Распространённые алгоритмы RL включают Q-обучение, методы Монте-Карло, методы градиента политики и обучение с временной разницей, а «глубокое RL» относится к использованию глубоких нейронных сетей в этих методах.
— Документация AWS по машинному обучению

Применения обучения с подкреплением
Обучение с подкреплением применяется во многих областях, где важны последовательное принятие решений в условиях неопределённости. Основные применения включают:
Игры и симуляции
RL прославилось благодаря освоению игр и симуляторов. AlphaGo и AlphaZero от DeepMind достигли сверхчеловеческого уровня в го и шахматах с помощью RL.
- Видеоигры (Atari, StarCraft)
- Настольные игры (го, шахматы)
- Физические симуляции
- Симуляторы робототехники
Робототехника и управление
Автономные роботы и беспилотные автомобили — агенты в динамичных средах, обучающиеся методом проб и ошибок.
- Захват и манипуляция объектами
- Автономная навигация
- Беспилотные транспортные средства
- Промышленная автоматизация
Рекомендательные системы
RL может персонализировать контент или рекламу на основе взаимодействия пользователей, обучаясь предлагать наиболее релевантные элементы со временем.
- Персонализация контента
- Оптимизация таргетинга рекламы
- Рекомендации продуктов
- Оптимизация вовлечённости пользователей
Оптимизация ресурсов
RL отлично подходит для оптимизации систем с долгосрочными целями и сложными задачами распределения ресурсов.
- Оптимизация охлаждения дата-центров
- Хранение энергии в умных сетях
- Ресурсы облачных вычислений
- Управление цепочками поставок
Финансы и торговля
Финансовые рынки динамичны и последовательны, что делает RL подходящим для торговых стратегий и управления портфелем.
- Алгоритмические торговые стратегии
- Оптимизация портфеля
- Управление рисками
- Маркет-мейкинг

Обучение с подкреплением и другие виды машинного обучения
Обучение с подкреплением — один из трёх основных парадигм машинного обучения (наряду с контролируемым и неконтролируемым обучением), но существенно отличается по фокусу. Контролируемое обучение тренируется на размеченных парах вход-выход, а неконтролируемое — находит закономерности в неразмеченных данных.
| Аспект | Контролируемое обучение | Неконтролируемое обучение | Обучение с подкреплением |
|---|---|---|---|
| Тип данных | Размеченные пары вход-выход | Неразмеченные данные | Последовательности состояние-действие-вознаграждение |
| Цель обучения | Предсказать правильные выходы | Найти скрытые закономерности | Максимизировать накопленное вознаграждение |
| Тип обратной связи | Прямые правильные ответы | Отсутствует | Сигналы вознаграждения/наказания |
| Метод обучения | Обучение на примерах | Обнаружение структуры | Исследование методом проб и ошибок |
В отличие от них, RL не требует размеченных примеров правильного поведения. Вместо этого он задаёт цель через сигнал вознаграждения и учится методом проб и ошибок. В RL «обучающие данные» (последовательности состояние-действие-вознаграждение) последовательны и взаимозависимы, поскольку каждое действие влияет на будущие состояния.
Проще говоря, контролируемое обучение говорит модели, что предсказывать; обучение с подкреплением учит агента, как действовать. RL учится через «положительное подкрепление» (вознаграждение), а не через показ правильных ответов.
— Обзор машинного обучения IBM
Это делает RL особенно мощным для задач, связанных с принятием решений и управлением. Однако это также означает, что RL может быть более сложным: без размеченной обратной связи агент должен самостоятельно открывать хорошие действия, что часто требует большого объёма исследования среды.

Проблемы обучения с подкреплением
Несмотря на свою мощь, RL сталкивается с практическими проблемами:
Неэффективность выборки
Проектирование функции вознаграждения
Стабильность и безопасность
Интерпретируемость

Заключение
В заключение, обучение с подкреплением — это автономная обучающаяся система, в которой агент учится достигать целей, взаимодействуя с окружающей средой и максимизируя накопленное вознаграждение. Оно объединяет идеи оптимального управления, динамического программирования и поведенческой психологии и является основой многих современных прорывов в ИИ.
Формулируя задачи как последовательное принятие решений с обратной связью, RL позволяет машинам самостоятельно осваивать сложные поведения, преодолевая разрыв между обучением на данных и целенаправленными действиями.