Co je to posilované učení?

Posilované učení (RL) je odvětví strojového učení, ve kterém se agent učí rozhodovat interakcí se svým prostředím. Cílem agenta v RL je naučit se politiku (strategii) pro výběr akcí, které maximalizují kumulativní odměny v čase.

Posilované učení (RL) je odvětví strojového učení, ve kterém se agent učí rozhodovat interakcí s prostředím. V RL je cílem agenta naučit se politiku (strategii) pro výběr akcí, které maximalizují kumulativní odměnu v čase.

Na rozdíl od učení s učitelem, které vyžaduje označené příklady, RL spoléhá na zpětnou vazbu metodou pokus-omyl: akce, které přinášejí pozitivní výsledky (odměny), jsou posilovány, zatímco ty, které vedou k negativním výsledkům (trestům), jsou vyhýbány.

RL je v podstatě „výpočetní přístup k pochopení a automatizaci učení a rozhodování zaměřeného na cíl“, kde se agent učí z přímé interakce se svým prostředím, aniž by potřeboval externí dohled nebo kompletní model světa.

— Sutton a Barto, výzkumníci posilovaného učení

V praxi to znamená, že agent neustále prozkoumává prostor stavů a akcí, sleduje výsledky svých akcí a upravuje svou strategii, aby zlepšil budoucí odměny.

Klíčové pojmy a komponenty

Posilované učení zahrnuje několik základních prvků. Obecně agent (učící se nebo rozhodující entita) interaguje s prostředím (vnějším systémem nebo problémovou oblastí) vykonáváním akcí v diskrétních časových krocích.

V každém kroku agent pozoruje aktuální stav prostředí, provede akci a poté obdrží odměnu (číselný signál zpětné vazby) od prostředí. Během mnoha takových interakcí se agent snaží maximalizovat svou celkovou (kumulativní) odměnu.

Agent

Autonomní učící se entita (např. AI program nebo robot), která činí rozhodnutí.

Prostředí

Svět nebo problémová doména, se kterou agent interaguje. Prostředí poskytuje agentovi aktuální stav a vypočítává odměnu na základě akce agenta.

Akce

Rozhodnutí nebo krok, který agent provede, aby ovlivnil prostředí. Různé akce mohou vést k různým stavům a odměnám.

Stav

Reprezentace prostředí v daném čase (například pozice figurek na herní desce nebo údaje ze senzorů robota). Agent používá stav k rozhodnutí o další akci.

Odměna

Skalární signál zpětné vazby (kladný, záporný nebo nulový) poskytovaný prostředím po každé akci. Kvantifikuje okamžitý přínos (nebo náklad) akce. Cílem agenta je maximalizovat očekávanou kumulativní odměnu v čase.

Politika

Strategie agenta pro výběr akcí, obvykle zobrazení stavů na akce. Prostřednictvím učení se agent snaží najít optimální nebo téměř optimální politiku.

Hodnotová funkce

Odhad očekávané budoucí odměny (kumulativní odměny), kterou agent získá ze zadaného stavu (nebo páru stav-akce). Hodnotová funkce pomáhá agentovi vyhodnotit dlouhodobé důsledky akcí.

Model (volitelný)

V modelově založeném RL agent vytváří interní model dynamiky prostředí (jak se stavy mění na základě akcí) a používá ho k plánování. V modelově nezávislém RL se žádný takový model nevytváří; agent se učí čistě z pokusů a omylů.
Klíčové pojmy a komponenty posilovaného učení
Klíčové pojmy a komponenty rámce posilovaného učení

Jak posilované učení funguje

RL je často formalizováno jako Markovův rozhodovací proces (MDP). V každém diskrétním časovém kroku agent pozoruje stav St a vybere akci At. Prostředí pak přejde do nového stavu St+1 a vydá odměnu Rt+1 na základě provedené akce.

Během mnoha epizod agent sbírá zkušenosti ve formě sekvencí stav-akce-odměna. Analýzou, které akce vedly k vyšším odměnám, agent postupně zlepšuje svou politiku.

Průzkum vs. využití: Problémy RL zahrnují zásadní kompromis mezi průzkumem a využitím. Agent musí využívat nejlépe známé akce k získání odměny, ale také prozkoumávat nové akce, které by mohly vést k ještě lepším výsledkům.

Například agent posilovaného učení ovládající robot může obvykle zvolit osvědčenou bezpečnou cestu (využití), ale někdy vyzkoušet novou trasu (průzkum), aby potenciálně objevil rychlejší cestu. Vyvážení tohoto kompromisu je zásadní pro nalezení optimální politiky.

RL „napodobuje proces učení pokusem a omylem, který používají lidé“. Dítě se může naučit, že uklízení přináší pochvalu, zatímco házení hraček vede k napomenutí; podobně se agent RL učí, které akce přinášejí odměny, přijímáním pozitivní zpětné vazby za dobré akce a negativní za špatné.

— Dokumentace AWS Machine Learning

Postupem času agent vytváří odhady hodnot nebo politiky, které zachycují nejlepší posloupnost akcí k dosažení dlouhodobých cílů.

V praxi algoritmy RL akumulují odměny během epizod a snaží se maximalizovat očekávaný výnos (součet budoucích odměn). Učí se preferovat akce vedoucí k vysokým budoucím odměnám, i když tyto akce nemusí přinést nejvyšší okamžitou odměnu. Tato schopnost plánovat pro dlouhodobý zisk (někdy přijímající krátkodobé oběti) činí RL vhodným pro složité sekvenční rozhodovací úlohy.

Jak posilované učení funguje
Jak posilované učení funguje v praxi

Typy algoritmů posilovaného učení

Existuje mnoho algoritmů pro implementaci posilovaného učení. Obecně spadají do dvou tříd: modelově založené a modelově nezávislé metody.

Modelově založené RL

Přístup plánování

Agent se nejprve naučí nebo zná model dynamiky prostředí (jak se stavy mění a jak jsou udělovány odměny) a poté plánuje akce simulací výsledků.

  • Efektivní s omezenými daty
  • Dokáže efektivně plánovat dopředu
  • Vyžaduje přesný model prostředí

Příklad: Robot mapující budovu, aby našel nejkratší cestu, používá modelově založený přístup.

Modelově nezávislé RL

Přímé učení

Agent nemá explicitní model prostředí a učí se pouze z pokusů a omylů v reálném (nebo simulovaném) prostředí.

  • Nepotřebuje model prostředí
  • Funguje v komplexních prostředích
  • Vyžaduje více zkušeností

Příklad: Většina klasických RL algoritmů (jako Q-learning nebo učení s časovým rozdílem) je modelově nezávislá.

V rámci těchto kategorií se algoritmy liší v tom, jak reprezentují a aktualizují politiku nebo hodnotovou funkci. Například Q-learning (hodnotově založená metoda) se učí odhady „Q-hodnot“ (očekávaný výnos) pro páry stav-akce a vybírá akci s nejvyšší hodnotou.

Metody založené na gradientu politiky přímo parametrizují politiku a upravují její parametry pomocí gradientního vzestupu na očekávanou odměnu. Mnoho pokročilých metod (například Actor-Critic nebo Trust Region Policy Optimization) kombinuje odhad hodnoty a optimalizaci politiky.

Hluboké posilované učení: Významný nedávný vývoj, kde hluboké neuronové sítě slouží jako aproximátory funkcí pro hodnotové funkce nebo politiky, což umožňuje RL zpracovávat vysoce dimenzionální vstupy, jako jsou obrázky. Úspěchy DeepMind na hrách Atari a deskových hrách (např. AlphaGo v Go) vycházejí z kombinace hlubokého učení a RL.

V hlubokém RL algoritmy jako Deep Q-Networks (DQN) nebo Deep Policy Gradients škálují RL na složité reálné úlohy.

Běžné RL algoritmy zahrnují Q-learning, Monte Carlo metody, metody založené na gradientu politiky a učení s časovým rozdílem, a „hluboké RL“ označuje použití hlubokých neuronových sítí v těchto metodách.

— Dokumentace AWS Machine Learning
Typy algoritmů posilovaného učení
Typy algoritmů posilovaného učení

Aplikace posilovaného učení

Posilované učení se uplatňuje v mnoha oblastech, kde je klíčové sekvenční rozhodování za nejistoty. Mezi hlavní aplikace patří:

Hry a simulace

RL proslulo zvládnutím her a simulátorů. DeepMind AlphaGo a AlphaZero se naučily Go a šachy na nadlidské úrovni pomocí RL.

  • Videohry (Atari, StarCraft)
  • Deskové hry (Go, šachy)
  • Fyzikální simulace
  • Robotické simulátory

Robotika a řízení

Autonomní roboti a samořiditelné vozy jsou agenti v dynamických prostředích, kteří se učí pokusem a omylem.

  • Chycení a manipulace s objekty
  • Autonomní navigace
  • Samořiditelné vozidla
  • Průmyslová automatizace

Doporučovací systémy

RL může personalizovat obsah nebo reklamy na základě interakcí uživatelů, učí se prezentovat nejrelevantnější položky v čase.

  • Personalizace obsahu
  • Optimalizace cílení reklam
  • Doporučení produktů
  • Optimalizace zapojení uživatelů

Optimalizace zdrojů

RL vyniká v optimalizaci systémů s dlouhodobými cíli a složitými problémy alokace zdrojů.

  • Optimalizace chlazení datových center
  • Ukládání energie v chytré síti
  • Cloudové výpočetní zdroje
  • Řízení dodavatelského řetězce

Finance a obchodování

Finanční trhy jsou dynamické a sekvenční, což činí RL vhodným pro obchodní strategie a správu portfolia.

  • Algoritmické obchodní strategie
  • Optimalizace portfolia
  • Řízení rizik
  • Tvorba trhu
Výhoda dlouhodobého plánování: Tyto aplikace zdůrazňují sílu RL v dlouhodobém plánování. Na rozdíl od metod, které předpovídají pouze okamžité výsledky, RL explicitně maximalizuje kumulativní odměny, což jej činí vhodným pro problémy, kde mají akce zpožděné důsledky.
Aplikace posilovaného učení
Aplikace posilovaného učení v různých odvětvích

Posilované učení vs. jiné typy strojového učení

Posilované učení je jedním ze tří hlavních paradigmat strojového učení (vedle učení s učitelem a bez učitele), ale zaměřuje se odlišně. Učení s učitelem trénuje na označených vstupně-výstupních párech, zatímco učení bez učitele hledá vzory v neoznačených datech.

Aspekt Učení s učitelem Učení bez učitele Posilované učení
Typ dat Označené vstupně-výstupní páry Neoznačená data Sekvenční trojice stav-akce-odměna
Cíl učení Předpovědět správné výstupy Najít skryté vzory Maximalizovat kumulativní odměnu
Typ zpětné vazby Přímé správné odpovědi Žádná zpětná vazba Signály odměny/trestu
Způsob učení Učení z příkladů Objevování struktury Průzkum metodou pokus-omyl

Na rozdíl od toho RL nevyžaduje označené příklady správného chování. Místo toho definuje cíl pomocí signálu odměny a učí se pokusem a omylem. V RL jsou „tréninková data“ (trojice stav-akce-odměna) sekvenční a vzájemně závislá, protože každá akce ovlivňuje budoucí stavy.

Jednoduše řečeno, učení s učitelem říká modelu, co má předpovídat; posilované učení učí agenta, jak jednat. RL se učí pomocí „pozitivního posilování“ (odměny) místo ukazování správných odpovědí.

— Přehled strojového učení IBM

To činí RL zvláště silným pro úlohy zahrnující rozhodování a řízení. Zároveň to znamená, že RL může být náročnější: bez označené zpětné vazby musí agent sám objevit dobré akce, což často vyžaduje rozsáhlý průzkum prostředí.

Posilované učení vs. jiné typy strojového učení
Posilované učení vs. ostatní paradigmy strojového učení

Výzvy posilovaného učení

Přes svou sílu přináší RL praktické výzvy:

Neefektivita vzorkování

RL často vyžaduje obrovské množství zkušeností (pokusů) k naučení efektivních politik. Trénink v reálném světě může být nákladný nebo pomalý (například robot může potřebovat miliony pokusů k zvládnutí úkolu). Z tohoto důvodu se mnoho RL systémů trénuje nejprve v simulaci před nasazením.

Návrh odměn

Definování vhodné funkce odměny je složité. Špatně zvolená odměna může vést k nechtěnému chování (agent může „zneužít“ odměnu způsobem, který neodpovídá skutečnému cíli). Návrh odměn, které zachycují dlouhodobé cíle bez nechtěných zkratek, je uměním v RL výzkumu.

Stabilita a bezpečnost

V reálných podmínkách (robotika, zdravotnictví, finance) mohou být nebezpečné nebo nákladné nebezpečné průzkumné akce. Experimentování v reálném světě (např. létání dronem) nemusí být praktické bez simulace. Zajištění bezpečnosti během učení a nasazení je aktivní oblastí RL výzkumu.

Interpretovatelnost

Naučené politiky RL (zejména hluboké RL modely) mohou být neprůhledné. Porozumění, proč agent provádí určité akce, je často obtížné, což ztěžuje ladění nebo důvěru v systém. Tento nedostatek interpretovatelnosti je uváděn jako výzva při nasazení složitých RL systémů.
Probíhající výzkum: Každá z těchto výzev je předmětem probíhajícího výzkumu. Přes překážky ukazují praktické úspěchy RL (v hrách, robotice, doporučovacích systémech atd.), že při pečlivé aplikaci může RL dosahovat působivých výsledků.
Výzvy posilovaného učení
Výzvy implementace posilovaného učení

Závěr

Stručně řečeno, posilované učení je autonomní učící rámec, ve kterém se agent učí dosahovat cílů interakcí s prostředím a maximalizací kumulativní odměny. Kombinuje myšlenky z optimálního řízení, dynamického programování a behaviorální psychologie a je základem mnoha moderních průlomů v AI.

Rámcováním problémů jako sekvenčních rozhodovacích úloh se zpětnou vazbou umožňuje RL strojům samostatně se učit složité chování a překlenout propast mezi učením založeným na datech a cíleným jednáním.

Prozkoumejte další související články
Externí odkazy
Tento článek byl sestaven s odkazem na následující externí zdroje:
96 články
Rosie Ha je autorkou na Inviai, specializující se na sdílení znalostí a řešení v oblasti umělé inteligence. Díky zkušenostem s výzkumem a aplikací AI v různých oblastech, jako je podnikání, tvorba obsahu a automatizace, přináší Rosie Ha srozumitelné, praktické a inspirativní články. Jejím posláním je pomoci lidem efektivně využívat AI ke zvýšení produktivity a rozšíření tvůrčích možností.
Vyhledávání