Posilované učení (RL) je oblast strojového učení, ve které agent získává schopnost rozhodovat se prostřednictvím interakce s prostředím. Cílem agenta v RL je naučit se politiku (strategii) pro výběr akcí, které maximalizují kumulativní odměnu v čase.
Na rozdíl od učení s učitelem, které vyžaduje označené příklady, RL spoléhá na zpětnou vazbu založenou na pokusech a omylech: akce vedoucí k pozitivním výsledkům (odměnám) jsou posilovány, zatímco ty, které přinášejí negativní důsledky (tresty), jsou vyhýbány.
Jak vysvětlují Sutton a Barto, RL je v podstatě „výpočetní přístup k pochopení a automatizaci učení a rozhodování zaměřeného na cíl“, kde agent získává zkušenosti prostřednictvím přímé interakce s prostředím, aniž by potřeboval externí dohled nebo kompletní model světa.
V praxi to znamená, že agent neustále prozkoumává prostor stavů a akcí, sleduje výsledky svých rozhodnutí a upravuje svou strategii, aby zlepšil budoucí odměny.
Klíčové pojmy a komponenty
Posilované učení zahrnuje několik základních prvků. Obecně agent (učící se nebo rozhodující entita) interaguje s prostředím (vnějším systémem nebo problémovou oblastí) vykonáváním akcí v diskrétních časových krocích.
V každém kroku agent pozoruje aktuální stav prostředí, provede akci a obdrží odměnu (číselný signál zpětné vazby) od prostředí. Během mnoha takových interakcí se agent snaží maximalizovat celkovou (kumulativní) odměnu. Klíčové pojmy zahrnují:
- Agent: Autonomní učící se entita (např. AI program nebo robot), která přijímá rozhodnutí.
- Prostředí: Svět nebo problémová oblast, se kterou agent interaguje. Prostředí poskytuje agentovi aktuální stav a vypočítává odměnu na základě agentovy akce.
- Akce: Rozhodnutí nebo krok, který agent provede, aby ovlivnil prostředí. Různé akce mohou vést k různým stavům a odměnám.
- Stav: Reprezentace prostředí v daném čase (například pozice figurek na herní desce nebo údaje ze senzorů robota). Agent používá stav k rozhodnutí o další akci.
- Odměna: Skalární signál zpětné vazby (kladný, záporný nebo nulový), který prostředí poskytuje po každé akci. Kvantifikuje okamžitý přínos (nebo náklad) akce. Cílem agenta je maximalizovat očekávanou kumulativní odměnu v čase.
- Politika: Strategie agenta pro výběr akcí, obvykle zobrazení stavů na akce. Agent se učením snaží nalézt optimální nebo téměř optimální politiku.
- Funkce hodnoty (nebo návrat): Odhad očekávané budoucí odměny (kumulativní odměny), kterou agent získá ze zadaného stavu (nebo páru stav-akce). Funkce hodnoty pomáhá agentovi vyhodnotit dlouhodobé důsledky akcí.
- Model (volitelný): V modelově založeném RL agent vytváří interní model dynamiky prostředí (jak se stavy mění na základě akcí) a používá ho k plánování. V modelově nezávislém RL žádný takový model nevzniká; agent se učí čistě z pokusů a omylů.
Jak posilované učení funguje
RL je často formalizováno jako Markovův rozhodovací proces (MDP). V každém diskrétním časovém kroku agent pozoruje stav St a vybere akci At. Prostředí pak přechází do nového stavu St+1 a vydává odměnu Rt+1 na základě provedené akce.
Během mnoha epizod agent sbírá zkušenosti ve formě sekvencí stav-akce-odměna. Analýzou, které akce vedly k vyšším odměnám, agent postupně zlepšuje svou politiku.
Klíčovým prvkem je kompromis mezi průzkumem a využíváním. Agent musí využívat nejlépe známé akce k získání odměny, ale zároveň prozkoumávat nové akce, které mohou vést k ještě lepším výsledkům.
Například agent posilovaného učení ovládající robot obvykle zvolí osvědčenou bezpečnou cestu (využívání), ale občas vyzkouší novou trasu (průzkum), aby případně objevil rychlejší cestu. Vyvážení tohoto kompromisu je zásadní pro nalezení optimální politiky.
Proces učení je často přirovnáván k behaviorálnímu podmiňování. Například AWS uvádí, že RL „napodobuje proces učení pokusem a omylem, který používají lidé“. Dítě se může naučit, že uklízení přináší pochvalu, zatímco házení hraček vede k napomenutí; podobně se RL agent učí, které akce přinášejí odměny díky pozitivní zpětné vazbě za dobré akce a negativní za špatné.
Postupem času agent vytváří odhady hodnot nebo politiky, které zachycují nejlepší posloupnost akcí k dosažení dlouhodobých cílů.
V praxi algoritmy RL akumulují odměny během epizod a snaží se maximalizovat očekávaný návrat (součet budoucích odměn). Učí se preferovat akce vedoucí k vysokým budoucím odměnám, i když tyto akce nemusí přinášet nejvyšší okamžitou odměnu. Tato schopnost plánovat pro dlouhodobý zisk (někdy za cenu krátkodobých obětí) činí RL vhodným pro složité sekvenční rozhodovací úlohy.
Druhy algoritmů posilovaného učení
Existuje mnoho algoritmů pro implementaci posilovaného učení. Obecně se dělí do dvou kategorií: modelově založené a modelově nezávislé metody.
-
Modelově založené RL: Agent se nejprve naučí nebo zná model dynamiky prostředí (jak se stavy mění a jak jsou udělovány odměny) a poté plánuje akce simulací výsledků. Například robot, který mapuje budovu, aby našel nejkratší cestu, používá modelově založený přístup.
-
Modelově nezávislé RL: Agent nemá explicitní model prostředí a učí se pouze pokusem a omylem v reálném (nebo simulovaném) prostředí. Místo plánování s modelem postupně aktualizuje odhady hodnot nebo politiky na základě zkušeností. Většina klasických RL algoritmů (jako Q-learning nebo Temporal-Difference learning) je modelově nezávislá.
V rámci těchto kategorií se algoritmy liší v tom, jak reprezentují a aktualizují politiku nebo funkci hodnoty. Například Q-learning (metoda založená na hodnotách) se učí odhady „Q-hodnot“ (očekávaný návrat) pro páry stav-akce a vybírá akci s nejvyšší hodnotou.
Metody založené na gradientu politiky přímo parametrizují politiku a upravují její parametry pomocí gradientního vzestupu na očekávanou odměnu. Mnoho pokročilých metod (například Actor-Critic nebo Trust Region Policy Optimization) kombinuje odhad hodnoty a optimalizaci politiky.
Významným nedávným vývojem je hluboké posilované učení. Zde hluboké neuronové sítě slouží jako aproximátory funkcí pro hodnotové funkce nebo politiky, což umožňuje RL pracovat s vysoce dimenzionálními vstupy, jako jsou obrázky. Úspěchy DeepMind v Atari hrách a deskových hrách (např. AlphaGo v Go) vycházejí z kombinace hlubokého učení a RL. V hlubokém RL algoritmy jako Deep Q-Networks (DQN) nebo Deep Policy Gradients rozšiřují RL na složité reálné úlohy.
Například AWS uvádí, že běžné RL algoritmy zahrnují Q-learning, Monte Carlo metody, metody založené na gradientu politiky a Temporal-Difference learning, a že „hluboké RL“ označuje použití hlubokých neuronových sítí v těchto metodách.
Využití posilovaného učení
Posilované učení se uplatňuje v mnoha oblastech, kde je klíčové sekvenční rozhodování za nejistoty. Mezi hlavní aplikace patří:
- Hry a simulace: RL proslulo díky zvládnutí her a simulátorů. Například DeepMind AlphaGo a AlphaZero se naučily hrát Go a šachy na nadlidské úrovni pomocí RL. Videohry (Atari, StarCraft) a simulace (fyzika, robotické simulátory) jsou přirozenými testovacími prostředími RL, protože prostředí je dobře definované a je možné provést mnoho pokusů.
- Robotika a řízení: Autonomní roboti a samořiditelné automobily jsou agenty v dynamických prostředích. Pomocí pokusů a omylů může RL naučit robota uchopit předměty nebo auto navigovat v dopravě. IBM uvádí, že roboti a samořiditelné vozy jsou příklady RL agentů, kteří se učí interakcí s prostředím.
- Doporučovací systémy a marketing: RL může personalizovat obsah nebo reklamy na základě interakcí uživatelů. Například doporučovací systém založený na RL aktualizuje své návrhy podle toho, jak uživatelé klikají nebo přeskočí položky, a učí se tak postupně nabízet nejrelevantnější reklamy nebo produkty.
- Optimalizace zdrojů: RL vyniká v optimalizaci systémů s dlouhodobými cíli. Příklady zahrnují úpravu chlazení datových center pro minimalizaci spotřeby energie, řízení skladování energie v chytrých sítích nebo správu cloudových výpočetních zdrojů. AWS popisuje případy použití jako „optimalizace nákladů na cloud“, kde RL agent učí alokovat výpočetní zdroje pro nejlepší poměr cena/výkon.
- Finance a obchodování: Finanční trhy jsou dynamické a sekvenční. RL byl zkoumán pro optimalizaci obchodních strategií, správu portfolia a zajištění tím, že simuluje obchody a učí se, které akce maximalizují výnosy při změnách trhu.
Tyto příklady zdůrazňují sílu RL v dlouhodobém plánování. Na rozdíl od metod, které předpovídají pouze okamžité výsledky, RL explicitně maximalizuje kumulativní odměny, což jej činí vhodným pro problémy, kde mají akce zpožděné důsledky.
Posilované učení vs. ostatní strojové učení
Posilované učení je jedním ze tří hlavních paradigmat strojového učení (vedle učení s učitelem a bez učitele), ale zaměřuje se odlišně. Učení s učitelem trénuje na označených vstupně-výstupních párech, zatímco učení bez učitele hledá vzory v neoznačených datech.
Naopak RL nevyžaduje označené příklady správného chování. Místo toho definuje cíl pomocí signálu odměny a učí se pokusem a omylem. V RL jsou „tréninková data“ (trojice stav-akce-odměna) sekvenční a vzájemně závislá, protože každá akce ovlivňuje budoucí stavy.
Jednoduše řečeno, učení s učitelem říká modelu, co má předpovídat; posilované učení učí agenta, jak jednat. Jak uvádí přehled IBM, RL se učí pomocí „pozitivního posilování“ (odměny) místo ukazování správných odpovědí.
To dělá RL zvláště silným pro úlohy zahrnující rozhodování a řízení. Zároveň to znamená, že RL může být náročnější: bez označené zpětné vazby musí agent sám objevit dobré akce, což často vyžaduje rozsáhlý průzkum prostředí.
Výzvy posilovaného učení
Přestože je RL velmi silné, přináší i praktické výzvy:
- Náročnost na vzorky: RL často vyžaduje obrovské množství zkušeností (pokusů) k naučení efektivních politik. Trénink v reálném světě může být nákladný nebo pomalý (například robot může potřebovat miliony pokusů, než zvládne úlohu). Proto se mnoho RL systémů trénuje nejprve v simulaci před nasazením.
- Návrh odměn: Definování vhodné funkce odměny je složité. Špatně zvolená odměna může vést k nechtěnému chování (agent může „zneužívat“ odměnu způsobem, který neodpovídá skutečnému cíli). Navrhování odměn, které zachycují dlouhodobé cíle bez nechtěných zkratek, je uměním v RL výzkumu.
- Stabilita a bezpečnost: V reálných podmínkách (robotika, zdravotnictví, finance) mohou být nebezpečné nebo nákladné průzkumné akce. AWS uvádí, že experimentování v reálném světě (např. létání dronem) nemusí být praktické bez simulace. Zajištění bezpečnosti během učení a nasazení je aktivní oblastí RL výzkumu.
- Interpretovatelnost: Naučené politiky RL (zejména hluboké RL modely) mohou být neprůhledné. Porozumění, proč agent provádí určité akce, je často obtížné, což ztěžuje ladění nebo důvěru v systém. Nedostatek interpretovatelnosti je považován za výzvu při nasazení složitých RL systémů.
Každá z těchto výzev je předmětem probíhajícího výzkumu. Přes překážky ukazují praktické úspěchy RL (v hrách, robotice, doporučovacích systémech atd.), že při pečlivém použití může RL dosahovat působivých výsledků.
>>>Klikněte pro více informací o:
Co je generativní umělá inteligence?
Stručně řečeno, posilované učení je autonomní učící rámec, ve kterém se agent učí dosahovat cílů interakcí s prostředím a maximalizací kumulativní odměny. Kombinuje myšlenky z optimálního řízení, dynamického programování a behaviorální psychologie a je základem mnoha moderních průlomů v umělé inteligenci.
Formulováním problémů jako sekvenčních rozhodovacích úloh se zpětnou vazbou umožňuje RL strojům samostatně se naučit složité chování a překlenout tak propast mezi učením založeným na datech a cíleným jednáním.