Co je to posilované učení?
Posilované učení (RL) je odvětví strojového učení, ve kterém se agent učí rozhodovat interakcí se svým prostředím. Cílem agenta v RL je naučit se politiku (strategii) pro výběr akcí, které maximalizují kumulativní odměny v čase.
Posilované učení (RL) je odvětví strojového učení, ve kterém se agent učí rozhodovat interakcí s prostředím. V RL je cílem agenta naučit se politiku (strategii) pro výběr akcí, které maximalizují kumulativní odměnu v čase.
Na rozdíl od učení s učitelem, které vyžaduje označené příklady, RL spoléhá na zpětnou vazbu metodou pokus-omyl: akce, které přinášejí pozitivní výsledky (odměny), jsou posilovány, zatímco ty, které vedou k negativním výsledkům (trestům), jsou vyhýbány.
RL je v podstatě „výpočetní přístup k pochopení a automatizaci učení a rozhodování zaměřeného na cíl“, kde se agent učí z přímé interakce se svým prostředím, aniž by potřeboval externí dohled nebo kompletní model světa.
— Sutton a Barto, výzkumníci posilovaného učení
V praxi to znamená, že agent neustále prozkoumává prostor stavů a akcí, sleduje výsledky svých akcí a upravuje svou strategii, aby zlepšil budoucí odměny.
Klíčové pojmy a komponenty
Posilované učení zahrnuje několik základních prvků. Obecně agent (učící se nebo rozhodující entita) interaguje s prostředím (vnějším systémem nebo problémovou oblastí) vykonáváním akcí v diskrétních časových krocích.
V každém kroku agent pozoruje aktuální stav prostředí, provede akci a poté obdrží odměnu (číselný signál zpětné vazby) od prostředí. Během mnoha takových interakcí se agent snaží maximalizovat svou celkovou (kumulativní) odměnu.
Agent
Prostředí
Akce
Stav
Odměna
Politika
Hodnotová funkce
Model (volitelný)

Jak posilované učení funguje
RL je často formalizováno jako Markovův rozhodovací proces (MDP). V každém diskrétním časovém kroku agent pozoruje stav St a vybere akci At. Prostředí pak přejde do nového stavu St+1 a vydá odměnu Rt+1 na základě provedené akce.
Během mnoha epizod agent sbírá zkušenosti ve formě sekvencí stav-akce-odměna. Analýzou, které akce vedly k vyšším odměnám, agent postupně zlepšuje svou politiku.
Například agent posilovaného učení ovládající robot může obvykle zvolit osvědčenou bezpečnou cestu (využití), ale někdy vyzkoušet novou trasu (průzkum), aby potenciálně objevil rychlejší cestu. Vyvážení tohoto kompromisu je zásadní pro nalezení optimální politiky.
RL „napodobuje proces učení pokusem a omylem, který používají lidé“. Dítě se může naučit, že uklízení přináší pochvalu, zatímco házení hraček vede k napomenutí; podobně se agent RL učí, které akce přinášejí odměny, přijímáním pozitivní zpětné vazby za dobré akce a negativní za špatné.
— Dokumentace AWS Machine Learning
Postupem času agent vytváří odhady hodnot nebo politiky, které zachycují nejlepší posloupnost akcí k dosažení dlouhodobých cílů.
V praxi algoritmy RL akumulují odměny během epizod a snaží se maximalizovat očekávaný výnos (součet budoucích odměn). Učí se preferovat akce vedoucí k vysokým budoucím odměnám, i když tyto akce nemusí přinést nejvyšší okamžitou odměnu. Tato schopnost plánovat pro dlouhodobý zisk (někdy přijímající krátkodobé oběti) činí RL vhodným pro složité sekvenční rozhodovací úlohy.

Typy algoritmů posilovaného učení
Existuje mnoho algoritmů pro implementaci posilovaného učení. Obecně spadají do dvou tříd: modelově založené a modelově nezávislé metody.
Přístup plánování
Agent se nejprve naučí nebo zná model dynamiky prostředí (jak se stavy mění a jak jsou udělovány odměny) a poté plánuje akce simulací výsledků.
- Efektivní s omezenými daty
- Dokáže efektivně plánovat dopředu
- Vyžaduje přesný model prostředí
Příklad: Robot mapující budovu, aby našel nejkratší cestu, používá modelově založený přístup.
Přímé učení
Agent nemá explicitní model prostředí a učí se pouze z pokusů a omylů v reálném (nebo simulovaném) prostředí.
- Nepotřebuje model prostředí
- Funguje v komplexních prostředích
- Vyžaduje více zkušeností
Příklad: Většina klasických RL algoritmů (jako Q-learning nebo učení s časovým rozdílem) je modelově nezávislá.
V rámci těchto kategorií se algoritmy liší v tom, jak reprezentují a aktualizují politiku nebo hodnotovou funkci. Například Q-learning (hodnotově založená metoda) se učí odhady „Q-hodnot“ (očekávaný výnos) pro páry stav-akce a vybírá akci s nejvyšší hodnotou.
Metody založené na gradientu politiky přímo parametrizují politiku a upravují její parametry pomocí gradientního vzestupu na očekávanou odměnu. Mnoho pokročilých metod (například Actor-Critic nebo Trust Region Policy Optimization) kombinuje odhad hodnoty a optimalizaci politiky.
V hlubokém RL algoritmy jako Deep Q-Networks (DQN) nebo Deep Policy Gradients škálují RL na složité reálné úlohy.
Běžné RL algoritmy zahrnují Q-learning, Monte Carlo metody, metody založené na gradientu politiky a učení s časovým rozdílem, a „hluboké RL“ označuje použití hlubokých neuronových sítí v těchto metodách.
— Dokumentace AWS Machine Learning

Aplikace posilovaného učení
Posilované učení se uplatňuje v mnoha oblastech, kde je klíčové sekvenční rozhodování za nejistoty. Mezi hlavní aplikace patří:
Hry a simulace
RL proslulo zvládnutím her a simulátorů. DeepMind AlphaGo a AlphaZero se naučily Go a šachy na nadlidské úrovni pomocí RL.
- Videohry (Atari, StarCraft)
- Deskové hry (Go, šachy)
- Fyzikální simulace
- Robotické simulátory
Robotika a řízení
Autonomní roboti a samořiditelné vozy jsou agenti v dynamických prostředích, kteří se učí pokusem a omylem.
- Chycení a manipulace s objekty
- Autonomní navigace
- Samořiditelné vozidla
- Průmyslová automatizace
Doporučovací systémy
RL může personalizovat obsah nebo reklamy na základě interakcí uživatelů, učí se prezentovat nejrelevantnější položky v čase.
- Personalizace obsahu
- Optimalizace cílení reklam
- Doporučení produktů
- Optimalizace zapojení uživatelů
Optimalizace zdrojů
RL vyniká v optimalizaci systémů s dlouhodobými cíli a složitými problémy alokace zdrojů.
- Optimalizace chlazení datových center
- Ukládání energie v chytré síti
- Cloudové výpočetní zdroje
- Řízení dodavatelského řetězce
Finance a obchodování
Finanční trhy jsou dynamické a sekvenční, což činí RL vhodným pro obchodní strategie a správu portfolia.
- Algoritmické obchodní strategie
- Optimalizace portfolia
- Řízení rizik
- Tvorba trhu

Posilované učení vs. jiné typy strojového učení
Posilované učení je jedním ze tří hlavních paradigmat strojového učení (vedle učení s učitelem a bez učitele), ale zaměřuje se odlišně. Učení s učitelem trénuje na označených vstupně-výstupních párech, zatímco učení bez učitele hledá vzory v neoznačených datech.
| Aspekt | Učení s učitelem | Učení bez učitele | Posilované učení |
|---|---|---|---|
| Typ dat | Označené vstupně-výstupní páry | Neoznačená data | Sekvenční trojice stav-akce-odměna |
| Cíl učení | Předpovědět správné výstupy | Najít skryté vzory | Maximalizovat kumulativní odměnu |
| Typ zpětné vazby | Přímé správné odpovědi | Žádná zpětná vazba | Signály odměny/trestu |
| Způsob učení | Učení z příkladů | Objevování struktury | Průzkum metodou pokus-omyl |
Na rozdíl od toho RL nevyžaduje označené příklady správného chování. Místo toho definuje cíl pomocí signálu odměny a učí se pokusem a omylem. V RL jsou „tréninková data“ (trojice stav-akce-odměna) sekvenční a vzájemně závislá, protože každá akce ovlivňuje budoucí stavy.
Jednoduše řečeno, učení s učitelem říká modelu, co má předpovídat; posilované učení učí agenta, jak jednat. RL se učí pomocí „pozitivního posilování“ (odměny) místo ukazování správných odpovědí.
— Přehled strojového učení IBM
To činí RL zvláště silným pro úlohy zahrnující rozhodování a řízení. Zároveň to znamená, že RL může být náročnější: bez označené zpětné vazby musí agent sám objevit dobré akce, což často vyžaduje rozsáhlý průzkum prostředí.

Výzvy posilovaného učení
Přes svou sílu přináší RL praktické výzvy:
Neefektivita vzorkování
Návrh odměn
Stabilita a bezpečnost
Interpretovatelnost

Závěr
Stručně řečeno, posilované učení je autonomní učící rámec, ve kterém se agent učí dosahovat cílů interakcí s prostředím a maximalizací kumulativní odměny. Kombinuje myšlenky z optimálního řízení, dynamického programování a behaviorální psychologie a je základem mnoha moderních průlomů v AI.
Rámcováním problémů jako sekvenčních rozhodovacích úloh se zpětnou vazbou umožňuje RL strojům samostatně se učit složité chování a překlenout propast mezi učením založeným na datech a cíleným jednáním.