Úspěchy umělé inteligence

Po mnoho let (2023–2025) umělá inteligence pokročila na mnoha frontách. Velké jazykové modely (LLM) a chatboti, multimodální systémy, vědecké nástroje UI a robotika zaznamenaly průlomy.

Technologičtí giganti představili nové AI asistenty, open-source komunity vydaly výkonné modely a dokonce i regulátoři začali řešit dopady UI.

Níže přehledně shrnujeme nejvýraznější úspěchy, od rozšíření GPT-4 a Google Gemini po Nobelovu cenu pro AlphaFold a objevy řízené UI ve vědě a umění.

Obsah

1. Generativní jazykové modely a chatboti
2. Multimodální a kreativní pokroky UI
3. UI ve vědě, medicíně a matematice
4. UI v robotice a automatizaci
5. UI v produktech, průmyslu a společnosti

Generativní jazykové modely a chatboti

Moderní LLM se staly výrazně schopnějšími a multimodálními. GPT-4 Turbo od OpenAI (oznámeno v listopadu 2023) nyní dokáže zpracovat 128 000 tokenů v jednom promptu (přibližně 300 stran textu) a je výrazně levnější na provoz než GPT-4.

V květnu 2024 OpenAI představila GPT-4o (Omni), vylepšený model, který zvládá text, obrázky a zvuk v reálném čase – což GPT-4 efektivně vybavuje „zrakem a sluchem“ pro konverzaci. ChatGPT nyní obsahuje vestavěné funkce pro obrázky a hlas: uživatelé mohou nahrávat fotografie nebo mluvit s botem, který na základě vizuálního či zvukového vstupu odpovídá.

GPT-4 Turbo a GPT-4o (Omni): GPT-4 Turbo (listopad 2023) snížil náklady a prodloužil délku kontextu na 128 tisíc tokenů. GPT-4o (květen 2024) učinil UI skutečně multimodální, generující text, řeč i obrázky s téměř lidskou rychlostí.
Pokroky ChatGPT: Ke konci roku 2023 ChatGPT „nyní vidí, slyší a mluví“ – lze nahrávat obrázky a zvukové vstupy, na které bot odpovídá.
Integrace DALL·E 3 (říjen 2023) umožnila generovat obrázky z textu s pomocí konverzačního promptování.
Google série Gemini: V prosinci 2024 Google DeepMind uvedl první modely Gemini 2.0 („Flash“ a prototypy) určené pro „agentní éru“ – UI, které autonomně vykonává vícestupňové úkoly.
Google již testuje Gemini 2.0 ve vyhledávání (AI přehledy) a dalších produktech pro více než miliardu uživatelů, což odráží jeho vylepšené schopnosti uvažování a multimodality.
Další modely: Meta vydala LLaMA 3 v dubnu 2024 (otevřené váhy LLM až do 400 miliard parametrů), které podle tvrzení překonávají mnoho předchozích modelů.
Anthropicův Claude 3 a Microsoftovy nástroje copilot rovněž staví na těchto pokrocích (např. Copilot založený na technologii OpenAI).

Tyto inovace umožňují AI asistentům vést mnohem delší a bohatší konverzace a zpracovávat rozmanité vstupy.

Také pohánějí nové „asistenční“ aplikace přes API (Google „AI Overviews“, OpenAI Assistants API atd.), čímž zpřístupňují UI vývojářům i koncovým uživatelům.

Generativní jazykové modely a chatboti

Multimodální a kreativní pokroky UI

Kreativita a vizuální porozumění UI explodovaly. Modely převodu textu na obrázek a textu na video dosáhly nových výšin:

OpenAI DALL·E 3 (říjen 2023) generuje fotorealistické obrázky z promptů a je integrován s ChatGPT pro vedení tvorby promptů.

Google představil Imagen 3 (říjen 2024) a Veo 2 (prosinec 2024) – špičkové enginy pro text na obrázek a text na video – které výrazně zlepšují kvalitu, detaily a konzistenci v AI umění a video tvorbě.

Dokonce i hudební UI pokročila díky Google MusicFX nástrojům a souvisejícím výzkumům (např. experimenty MusicLM).

Modely generativního umění: DALL·E 3 a Imagen 3 dokážou věrně reagovat na jemné promptové detaily (včetně textu v obrázcích).
Google Veo 2 generuje krátké video klipy z jediného textového popisu, což je významný krok ve video syntéze.
Stable Diffusion a Midjourney také vydaly nové verze (v3, v6) s lepším realismem v tomto roce.
UI v zařízeních: Apple spustil Apple Intelligence (v iOS 18 a macOS 15, koncem 2024) – vestavěnou generativní UI na iPhone/iPad/Mac.
Přidává asistenty psaní (přepis, korektury, shrnutí v Mail/Pages), chytřejší Siri a nástroje pro obrázky jako Image Playground (tvorba ilustrací z textu) a Genmoji (AI generované vlastní emoji).
Fotky získaly vyhledávání v přirozeném jazyce („najdi Mayu na skateboardu“) a AI „Čištění“ odstraňuje nežádoucí objekty z fotografií.
Apple klade důraz na zpracování přímo v zařízení a ochranu soukromí.
UI v umění: Výrazný příklad: v listopadu 2024 Sotheby’s prodal první obraz vytvořený humanoidním robotem.
Portrét Alana Turinga nakreslený AI řízeným robotem Ai-Da dosáhl ceny 1,08 milionu USD.
Tento rekordní prodej („A.I. God: Portrait of Alan Turing“) podtrhuje rostoucí roli UI v kreativitě a její kulturní dopad.

Celkově generativní modely demokratizují kreativitu: kdokoli nyní může vytvořit umění, hudbu nebo video několika slovy.
Průmyslový důraz se přesunul od pouhé novinky (surrealistické obrázky) k užitečné tvorbě obrázků (log, diagramy, mapy) a lidsky realistickému ztvárnění.

(V březnu 2025 OpenAI dokonce vydala „4o Image Generation“, integrující svůj nejlepší obrazový model do GPT-4o pro přesné, fotorealistické výstupy řízené konverzací.)

Tyto nástroje se rychle začleňují do aplikací, prohlížečů a kreativních pracovních postupů.

Multimodální a kreativní pokroky UI

UI ve vědě, medicíně a matematice

Úspěchy UI podpořily vědecké objevy a pokroky ve výzkumu:

AlphaFold 3 – biomolekuly: V listopadu 2024 Google DeepMind (ve spolupráci s Isomorphic Labs) představil AlphaFold 3, nový model, který předpovídá 3D struktury všech biomolekul (proteiny, DNA, RNA, ligandy atd.) současně s bezprecedentní přesností.
Pro interakce protein-lék je AlphaFold 3 asi o 50 % přesnější než tradiční metody.
Tvůrci okamžitě zpřístupnili zdarma AlphaFold Server, aby vědci po celém světě mohli předpovídat molekulární struktury.
Tím rozšiřují předpovědi AlphaFold 2 zaměřené pouze na proteiny a očekává se, že to změní vývoj léků a genomický výzkum.
Nobelova cena – skládání proteinů: Význam tohoto pokroku potvrdila Nobelova cena za chemii v roce 2024.
Demis Hassabis a John Jumper (DeepMind) sdíleli cenu (s Davidem Bakerem) za vývoj AlphaFold (UI pro skládání proteinů).
Nobelova komise uvedla, že AlphaFold „otevřel zcela nové možnosti“ v designu proteinů.
(Jde o jeden z nejvýznamnějších úspěchů UI dosud.)
AlphaProteo – návrh léků: Také v roce 2024 DeepMind oznámil AlphaProteo, UI, která navrhuje nové proteinové vazebníky – molekuly, které se silně vážou na cílové proteiny.
AlphaProteo může urychlit tvorbu nových protilátek, biosenzorů a kandidátů na léky generováním slibných proteinových struktur pro specifikované cíle.
Matematika – AlphaGeometry: DeepMindovy AlphaGeometry a AlphaProof přinesly další průlom.
V červenci 2024 AlphaGeometry 2 vyřešil problém z Mezinárodní matematické olympiády za 19 sekund, dosáhl úrovně stříbrné medaile.
Jde o vzácný případ, kdy UI zvládla pokročilou středoškolskou matematiku.
Kvantové počítání – AlphaQubit a Willow: UI také zlepšila špičkový hardware.
V roce 2024 Google oznámil AlphaQubit, AI dekodér, který identifikuje chyby v kvantových počítačích (např. Google Sycamore čipy) mnohem lépe než předchozí metody.
V prosinci 2024 Google představil Willow, nový kvantový čip, který díky pokročilé korekci chyb vyřešil benchmarkový úkol za méně než 5 minut, zatímco nejlepší dnešní superpočítač by potřeboval ~10^24 let.
Tento úspěch získal Willow cenu „Fyzikální průlom roku 2024“, zdůrazňující roli UI v kvantovém pokroku.

V medicíně a zdravotnictví UI modely také pokročily. Například Google nový Med-Gemini (doladěný na lékařská data) dosáhl 91,1 % na americkém lékařském zkouškovém benchmarku (styl USMLE), výrazně překonávající předchozí modely.

Nástroje s UI pro radiologii a patologii (např. Derm a Path Foundations) byly vydány pro zlepšení analýzy obrazů.
Celkově je UI nyní nepostradatelným partnerem ve výzkumu – od mapování lidského mozku na nanoskopické úrovni (s pomocí UI asistované EM zobrazování) až po urychlení screeningu tuberkulózy v Africe, jak uvádějí Google výzkumníci.

$UI ve vědě, medicíně a matematice$

UI v robotice a automatizaci

Roboti pohánění UI se učí složité úkoly z reálného světa.

Tesla humanoidní roboti Optimus byli veřejně předvedeni v říjnu 2024 (akce „We, Robot“). Několik desítek jednotek Optimus chodilo, stálo a dokonce tančilo na pódiu – i když pozdější zprávy uváděly, že počáteční ukázky byly částečně dálkově ovládány lidmi.

Přesto akce zdůraznila rychlý pokrok směrem k robotům s obecnou funkčností.

DeepMindovi roboti ALOHA: Google AI laboratoř dosáhla působivých výsledků v domácích robotech.
V roce 2024 robot ALOHA (Autonomous Legged Household Assistant) se naučil vázat tkaničky, věšet košile, opravovat jiné roboty, vkládat ozubená kola a dokonce uklízet kuchyň pouze pomocí AI plánování a vidění.
Open-source projekt „ALOHA Unleashed“ ukázal koordinaci dvou paží robotů při úkolech, což je první případ obecné manipulace.
Roboti Transformers: DeepMind představil RT-2 (Robotic Transformer 2), model vidění-jazyka-akce, který se může učit z internetových obrázků i dat skutečných robotů.
RT-2 umožňuje robotům interpretovat instrukce jako člověk díky znalostem z webu.
Byl demonstrován při pomoci robotovi třídit objekty podle textových příkazů.
Průmysloví roboti: Další firmy také pokročily: Boston Dynamics pokračoval ve zdokonalování robotů Atlas a Spot (bez výrazného průlomu), a autonomní vozidla s UI se zlepšila (Tesla Full Self-Driving Beta se rozšířila, i když plná autonomie zůstává nevyřešená).
Ve výrobě firmy zaměřené na UI jako Figure AI získaly investice na stavbu domácích robotů pro domácí práce.

Tyto snahy ukazují, že roboti zvládají stále složitější úkoly bez explicitního programování. Skuteční plně autonomní humanoidi jsou však stále v nedohlednu.

Demonstrace (Optimus, ALOHA, RT-2) jsou milníky, ale výzkumníci varují, že je potřeba ještě hodně práce, než roboti budou moci bezpečně a spolehlivě pracovat po boku lidí ve velkém měřítku.

UI v robotice a automatizaci

UI v produktech, průmyslu a společnosti

Dopad UI zasahuje do každodenních produktů i politiky:

Spotřebitelská zařízení: Hlavní technologické produkty začlenily AI agenty.
Microsoft Copilot (integrovaný ve Windows, Office, Bing) a Google Bard/Bard AI ve vyhledávání (poháněný Gemini) přinesly sílu LLM uživatelům.
Apple zařízení získala Apple Intelligence (viz výše) a výrobci hardwaru jako Nvidia prodali rekordní množství AI GPU, které pohánějí cloud i spotřebitelskou UI.
(Nvidia se v roce 2024 stala nejhodnotnější společností světa díky AI boomu.)
Regulace – EU AI Act: Regulátoři také reagovali na dosah UI.
Dne 1. srpna 2024 vstoupil v platnost EU AI Act, první komplexní zákon o UI.
Stanovuje rámec založený na riziku: nízkoriziková UI (spam filtry, videohry) má minimální pravidla; pravidla transparentnosti nutí systémy jako chatboti uvádět, že jsou UI; vysoce riziková UI (lékařské nebo náborové nástroje) podléhají přísnému dohledu; a jasně nepřijatelná UI (např. „sociální skórování“ jednotlivců vládami) je zakázána.
Tato pravidla (spolu s připravovanými směrnicemi pro obecné modely) představují významný úspěch v řízení UI a pravděpodobně ovlivní standardy po celém světě.
Růst průmyslu: Samotný sektor UI zaznamenal historické financování a ocenění: OpenAI dosáhla odhadované hodnoty 157 miliard dolarů koncem roku 2023 a firmy jako Anthropic, Inflection a čínské AI startupy získaly investice v řádu miliard.
Poprvé v historii tržní kapitalizace Nvidia díky poptávce po AI hardwaru překročila 3,5 bilionu dolarů v polovině roku 2024.
Tyto čísla podtrhují, jak se UI stala středobodem technologické ekonomiky.