Od videa k World Modelu: Vývoj Runway a OpenAI Sora (2023-2026)

Časové období od roku 2023 do roku 2026 představuje zlomové období v historii vizuální informatiky, které znamená přechod od jednoduché generace animovaných obrázků k složité simulaci fyzických realit. Tento přechod, často shrnutý sémantickým posunem od “Text-na-Video” (Text-to-Video) k “World Models” (Modely světa), představuje mnohem více než jen zlepšení rozlišení nebo plynulosti obrazu. Signalizuje vznik systémů umělé inteligence schopných budovat vnitřně konzistentní reprezentace fyziky, kauzality a časové dynamiky.

Tato technická zpráva nabízí vyčerpávající kroniku tohoto vývoje, zaměřenou na dva subjekty, které polarizovaly pole výzkumu a průmyslové aplikace: Runway, průkopnický startup z newyorského uměleckého prostředí, a OpenAI, výzkumné laboratoře směřující k obecné inteligenci. Prostřednictvím analýzy jejich příslušných technických architektur — od modelů latentní difúze po difúzní transformátory (DiT) — a jejich strategií nasazení prozkoumáme, jak tyto technologie narazily do stoseletého průmyslu Hollywoodu a předefinovaly pojmy kreativity, práce a vizuální pravdy.

I. Umělecké počátky: Příběh RunwayML

Chceme-li pochopit trajektorii generativního videa, je nezbytné analyzovat její kořeny. Na rozdíl od rozšířeného názoru revoluce nezačala generací ex nihilo, ale automatizací nejpracnějších úkolů tradiční postprodukce. RunwayML, založená Cristóbalem Valenzuelou, Anastasisem Germanidisem a Alejandrem Matamalou, počátkem neusilovala o nahrazení kamery, ale o asistenci střihači.

1.1 Utilitární dědictví: Od “Green Screenu” k sémantickému porozumění

Před rokem 2023 byl hlavním úzkým hrdlem vizuálních efektů (VFX) rotoscoping. Tato technika, nezbytná pro izolaci herce nebo objektu od pozadí za účelem vložení efektů nebo úpravy prostředí, historicky vyžadovala ruční zásah snímek po snímku. Grafik musel vykreslovat Bézierovy křivky kolem siluety postavy, upravovat tyto křivky při každém pohybu, byť nejmenším. Byl to nákladný, pomalý proces náchylný k lidské chybě.

Zavedení nástroje Green Screen společností Runway znamenalo první paradigmatický zlom. Opírajíc se o modely strojového učení trénované pro sémantickou segmentaci videa, Runway nabídl přístup, kdy uživatel nemusel definovat křivky matematicky, ale jednoduše sémanticky označit objekt zájmu.

Technické fungování Green Screen bylo založeno na inovativní interakci člověk-stroj:

Sémantická inicializace: Uživatel umístil několik kliknutí na objekt, který má být vystřižen (kliknutí pro zahrnutí) a na oblasti, které se mají ignorovat (kliknutí pro vyloučení) na klíčovém snímku (keyframe).
Časová propagace: Model poté použil optický tok a konzistenci vizuálních charakteristik (barva, textura, tvar) k propagaci této masky na celý video klip.
Interaktivní zpřesnění: Pokud model ztratil objekt z dohledu (například při okluzi nebo rychlém pohybu), může uživatel zasáhnout na mezilehlém snímku a opravit zásah, přičemž model přepočítá trajektorii masky v reálném čase.

Tento krok, ačkoli nebyl “generativní” v přísném smyslu (nevytvářel nové pixely), byl klíčový ze dvou důvodů. Za prvé umožnil Runway vybudovat masivní databázi o tom, jak lidé vystřihují a chápou video scénu. Za druhé potvrdil technickou architekturu webové platformy v reálném čase schopné zpracovávat těžké video streamy, infrastruktura, která se ukázala být kritická pro budoucí nasazení modelů Gen.

Výsledek: Přístup “asistovaný AI” zkrátil dobu rotoscopingu z několika hodin na několik minut, ukotvující Runway jako partnera kreativců spíše než náhradu, filozofie, která měla být vystavena zkoušce s příchodem generativních modelů.

1.2 Gen-1: Struktura jako kotva reality (únor 2023)

V únoru 2023 Runway představil Gen-1, oficiálně označující vstup do éry neuronální video syntézy. V té době byla generace statických obrázků prostřednictvím modelů jako Midjourney nebo Stable Diffusion již dobře etablovaná, ale video zůstávalo velkou výzvou kvůli časové dimenzi. Naivní pokusy aplikovat modely obrázků snímek po snímku vedly k nesnesitelnému blikání (flickering), kde se objekty náhodně měnily v identitě nebo textuře každou sekundu.

Gen-1 tento problém obešel přijetím přístupu Video-na-Video (Video-to-Video). Místo toho, aby model požadoval halucinaci pohybu i vzhledu, Gen-1 použil existující video k poskytnutí “struktury” (pohyb, hloubka, obrysy) a generoval pouze “styl” (vzhled, textura).

Architektura a režimy fungování

Technicky byl Gen-1 založen na modelech latentní difúze (Latent Diffusion Models – LDM) modifikovaných pro přijetí silného strukturního podmiňování. Model se učil mapovat geometrickou strukturu vstupního videa na prostor latentního videa výstupu, řízený textovou promptem nebo referenčním obrázkem.

Režimy Gen-1 ilustrují toto oddělení mezi strukturou a stylem:

Režim	Popis	Případ použití
Režim 01 (Stylizace)	Čistý přenos stylu	Transformace videa na animaci “cyberpunk” nebo “olejomalbu”
Režim 02 (Storyboard)	Renderování 3D animatik	Validace osvětlení a atmosféry bez čekání na finální render
Režim 03 (Mask)	Cílená generace	Změna konkrétního subjektu bez ovlivnění pozadí

Přijetí a výkon

Uživatelské studie provedené Runway ukázaly výraznou preferenci pro výsledky Gen-1:

73,53 % uživatelů preferovalo Gen-1 před Stable Diffusion 1.5 aplikovaným snímek po snímku
88,24 % jej preferovalo před Text2Live

Tato nadřazenost byla vysvětlena časovou konzistencí: Gen-1 “neodhadoval” pohyb, ale vypůjčil si jej z reality. Tato závislost však byla také jeho hlavním omezením: nemohli jsme vytvořit to, co jsme nemohli předem natočit nebo hrubě namodelovat.

1.3 Gen-2: Skok do prázdnoty Text-na-Video (červen 2023)

Skutečný koncepční zlom nastal o několik měsíců později, v červnu 2023, s vydáním Gen-2. Anastasis Germanidis, CTO Runway, popsal tento krok jako odstranění nutnosti strukturního podmiňování. Gen-2 byl prvním komerčním modelem pro širokou veřejnost schopným provádět Text-na-Video (Text-to-Video), tedy generovat animovanou video sekvenci z jednoduché věty, bez jakéhokoli zdrojového videa.

Výzva “Slepé generace”

Přechod z Gen-1 na Gen-2 vyžadoval vyřešení základního problému: jak si AI může představit pohyb? V Gen-1 byl pohyb dán. V Gen-2 musel být plausibilně halucinován. Model musel pochopit nejen jak vypadá “kočka”, ale jak se kočka pohybuje, jak její srst reaguje na měnící se světlo a jak by ji měla virtuální kamera sledovat.

První výsledky Gen-2, ačkoli pro rok 2023 působivé, prozrazovaly obtížnost úkolu:

Omezená délka: Klipy byly počátkem omezeny na 4 sekundy. Za tímto bodem se konzistence často zhroutila, objekty se transformovaly v abstraktní kaši.
Onirické pohyby: Fyzika byla často “tekutá”. Objekty se neposouvaly tolik, jako “tekly” z bodu A do bodu B.
Nedostatek kontroly: Uživatel napsal prompt a doufal v to nejlepší. Neexistoval způsob, jak říct “kamera musí jet dopředu”.

Navzdory těmto nedostatkům vyvolal Gen-2 kreativní explozi. Umožnil vytváření virálních “AI trailerů” (jako parodie na filmy ve stylu Wes Andersona), demonstrujících masivní chuť veřejnosti po této nové formě vyjádření.

Srovnávací tabulka: Gen-1 vs Gen-2

Charakteristika	Gen-1 (únor 2023)	Gen-2 (červen 2023)
Paradigma	Video-na-Video	Text-na-Video
Požadovaný vstup	Zdrojové video + Prompt/Obrázek	Prompt (Text) nebo samotný obrázek
Časová konzistence	Vysoká (odvozena ze zdroje)	Variabilní (počátkem často nízká)
Hlavní případ použití	Stylizace, Renderování animatik	Tvorba ex nihilo, Ideace
Architektura	Latentní difúze + Strukturní vedení	Multimodální lat. difúze

II. Sora šok: Analýza ‘Spacetime Patches’ a architektury DiT

Pokud byl rok 2023 rokem experimentování s Runway, začátek roku 2024 byl poznamenán technologickým zemětřesením. V únoru představil OpenAI Sora, model, který okamžitě předefinoval stav umění. Zatímco Gen-2 produkoval krátké a rozmazané klipy, Sora generoval minutové sekvence ve vysokém rozlišení (1080p), s více postavami, komplexními pohyby kamery a ohromující persistencí objektů.

Tento kvalitativní skok nebyl výsledkem náhody nebo jednoduchého zvýšení výpočetního výkonu, ale výsledkem hluboké přestavby architektury dokumentované v technické zprávě “Video Generation Models as World Simulators”.

2.1 Unifikace dat: Revoluce ‘Spacetime Patches’

Centrální inovace Sory spočívá ve způsobu reprezentace vizuálních dat. Předchozí přístupy často zacházely s videem jako s rigidní posloupností obrázků pevné velikosti (např. 256×256 pixelů), což omezovalo kvalitu a vyžadovalo destruktivní ořezávání. Sora se naopak inspirová přímo u Velkých jazykových modelů (LLM) jako GPT-4.

Základní princip: Stejně jako LLM dělí text na “tokeny” (tokens), Sora dělí video na Spacetime Patches (Prostory-časové patche).

Proces Patchifikace

Prostorově-časová komprese latentního prostoru: Raw video není zpracovávána pixel po pixelu. Nejprve prochází sítí Video Compression Network (podobnou VAE), která snižuje její dimenzionalitu jak v prostoru, tak v čase.
Extrakce patchů: Tento latentní objem je poté rozdělen na malé krychličky. Každá krychlička reprezentuje malou část obrazu (prostor) po krátkou dobu (čas).
Linearizace: Tyto krychličky jsou zploštěny do dlouhé sekvence vektorů, přesně jako je věta sekvencí slov.

Kritické výhody této metody

Nezávislost na rozlišení a poměru stran: Sora se může trénovat na videích jakékoli velikosti (Widescreen 1920×1080, Vertikální 1080×1920, Čtvercové). Není již nutné vše ořezávat na čtverec.
Škálovatelnost: Tato metoda umožňuje aplikovat masivní techniky trénování LLM na video. Čím více dat a výpočtů přidáme, tím lepší model je, následující předvídatelné škálovací zákony (scaling laws).

2.2 Architektura DiT: Když Transformer nahrazuje U-Net

Jakmile je video transformováno na polévku patchů, jak generovat nový obsah? Zde vstupuje do hry architektura Diffusion Transformer (DiT). Historicky modely difúze (jako Stable Diffusion) používaly architekturu nazvanou U-Net pro proces odšumování. Ačkoli efektivní pro obrázky, U-Net špatně zvládá komplexní závislosti na dlouhé vzdálenosti nezbytné pro konzistentní video.

Sora používá standardní Transformer jako páteř (backbone) difúze.

Mechanismus globální pozornosti

Síla Transformeru spočívá v jeho mechanismu pozornosti. Ve větě umožňuje propojit zájmeno s podstatným jménem uvedeným tři odstavce zpět. Ve videu umožňuje DiT Soye propojit patch na začátku videa (t=0s) s patchem na konci (t=60s).

Persistece objektu: Díky této globální pozornosti si model “pamatuje” objekty. Pokud muž projde za sloup, model ví, že musí vyjít z druhé strany se stejným oblečením a tváří, protože patche “před” a “po” okluzi jsou propojeny v síti pozornosti.

2.3 Emergence simulace a fyzikální limity

Technická zpráva OpenAI činí odvážné tvrzení: zvyšováním měřítka trénování emergují schopnosti simulace spontánně, aniž by byly explicitně naprogramovány.

Implicitní 3D konzistence: Sora generuje dynamické pohyby kamery, kde se perspektiva mění správně (paralaxa), jako by scéna skutečně existovala ve 3D.
Simulace digitálních světů: Nejúžasnější příklad byla schopnost Sory simulovat video hru Minecraft. Zapracovaný na gameplay videích se model naučil generovat nejen grafiku, ale také logiku hry.

Nicméně Sora (v1) nebyla dokonalá. Model trpěl významnými fyzikálními halucinacemi: sklenice, která spadne bez rozbití, osoba, která jí sušenku, aniž by se objevila známka kousnutí.

2.4 Sora 2: Vylepšení (září 2025)

V září 2025 spustil OpenAI Sora 2. Tato iterace měla za cíl zaplnit mezery první verze:

Synchronizovaný zvuk: Společná generace zvuku (kroky, hlasy, ambienty) synchronizovaná s vizuální akcí.
Editace a Remix: Funkce “Remix” umožňující modifikovat specifické prvky bez přepočítávání všeho.
Bezpečnost a původ: Robustní C2PA vodoznaky a posílené bezpečnostní filtry.

III. Časová kontrola: Vývoj nástrojů virtuální kamery

Pokud kvalita obrazu Sory okouzlila širokou veřejnost, profesionálové v oboru okamžitě nastolili kritický problém: nedostatek kontroly. Generovat krásné náhodné video je k ničemu pro vyprávění přesného příběhu. Období 2024-2026 bylo proto poznamenáno zběsilým závodem směrem k “kontrolovatelnosti” (controllability).

3.1 Od loterie k pilotáži: Motion Brush a Director Mode

Na počátku generativní éry uživatel napsal prompt a doufal, že výsledek odpovídá jeho vizi. Bylo to éra “výherního automatu” (slot machine approach). Runway jako první pochopil, že pro přijetí průmyslem se musí AI stát říditelným nástrojem.

Motion Brush (Konturovací štětec)

Spuštěný začátkem roku 2024, Motion Brush představil lokální kontrolu. Místo aby nechával AI rozhodovat, co se pohybuje, mohl uživatel “namalovat” oblast obrázku a definovat směr a intenzitu pohybu.

Příklad aplikace: V pevném záběru muže hledícího na moře mohl režisér zmrazit muže (nehybný), nechat vlny pohybovat doprava (střední rychlost) a posouvat mraky směrem ke kameře (pomalá rychlost).

Director Mode (Režim režiséra)

Pro pohyby kamery Runway představil Director Mode. Tento nástroj nahradil vágní klíčová slova (“zoom in”) přesnými parametrickými kontrolami simulujícími fyzickou kameru:

Zoom
Pan (Panorámování)
Tilt (Náklon)
Roll (Náklon v ose)

3.2 Svatý grál: Konzistence postav

Největší překážkou pro dlouhodobé vyprávění zůstala nekonzistence postav. V tradičním filmu vypadá Brad Pitt jako Brad Pitt od prvního do posledního záběru. Ve videích AI z roku 2023 se protagonista mohl mezi dvěma po sobě jdoucími záběry změnit v obličeji, oblečení, dokonce i věku.

S Gen-4 (březen 2025) učinil Runway “Nekonečnou konzistenci postav” svým hlavním trumfem.

Mechanismus kotvení identity: Gen-4 umožňoval import jednoho referenčního obrázku postavy. Model poté uzamkl sémantické charakteristiky této tváře ve svém latentním prostoru.

Výsledky: Mohli jsme generovat sekvenci, kde tato postava procházela z noční scény v dešti do denní scény v interiéru, měnila emoční výraz, přesto zůstávala nesporně tou samou osobou.

3.3 Lipsync a Act-Two: Konec tradiční MoCap?

Animace obličeje a dialogy byly posledními baštami složitosti. První nástroje lipsyncu se spokojily s deformací spodní části obličeje statického obrázku pro odpovídající audio stopu, vytvářející nepřesvědčivý efekt “loutky”.

Na konci roku 2024 spustil Runway Act-Two, model generativní capture výkonu (Generative Motion Capture), který otřásl animačním průmyslem.

Koncept “Driving Video”: Místo použití nákladných kombinéz pro motion capture (MoCap) s odraznými značkami umožňoval Act-Two použít jednoduché video herce (natáčené smartphonem) k řízení generované postavy.

Nuancovaný přenos výkonu: Model zachycoval mikro-výrazy, mrkání, náklony hlavy a dokonce gestikulaci rukou. Poté přenášel tuto “duši” výkonu na cílový model s emoční věrností, která soupeřila s hollywoodskými produkcemi.

Tabulka: Vývoj nástrojů kontroly

Nástroj	Vyřešený problém	Rok zralosti
Motion Brush	Specifická kontrola pohybu objektů	2024
Director Mode	Přesné a filmové pohyby kamery	2024
Gen-4 Character Consistency	Zachování identity herce napříč záběry	2025
Act-Two	Realistická animace obličeje a těla bez MoCap	2025

IV. Hollywoodský dopad: Stávky, dohody a přijetí

Příchod těchto technologií se neodehrál ve vakuu ekonomickém ani sociálním. Narazil přímo do struktur odborů, právních a finančních Hollywoodu, spouštějící existenciální krizi pro tvůrčí profese.

4.1 Stávky roku 2023: První linie lidské obrany

Rok 2023 zůstane zapsán jako rok “Dvojité stávky” scenáristů (WGA) a herců (SAG-AFTRA). Zatímco platy a zbytky ze streamování byly hlavními tématy, generativní AI se prosadila jako nejfuturističtější a nejúzkostnější bod tření.

Strach z nahrazení a digitálních replik

Scenáristé (WGA): Hlavní obavou bylo, že studia použijí LLM k generování kompletních scénářů, znovuzaměstnávajíce lidské scenáristy pouze k “leštění” nebo “přepisování” textu vygenerovaného strojem.
Herci (SAG-AFTRA): Duch “digitálních replik” (Digital Replicas) strašil vyjednáváními. Herce se obávali, že budou naskenováni jednou a studia poté použijí jejich obraz a hlas navěky.

Říjnové dohody z roku 2023: Historická zábradlí

Stávky skončily významnými vítězstvími odborů:

AI jako nástroj, ne autor: Dohoda WGA stanovuje, že AI nemůže být uvedena jako scenárista. Studio nemůže scenáristu nutit k použití AI.
Souhlas a kompenzace pro repliky: Dohoda SAG-AFTRA vyžaduje explicitní souhlas herce pro vytvoření jakékoli digitální repliky. Použití musí být placeno, jako by herec fyzicky pracoval.

4.2 Neúspěch “modelu studia”: Případ Lionsgate (2024-2025)

V září 2024 studio Lionsgate oznámilo průlomové partnerství s Runway, doufající v kapitálové zhodnocení technologie při obcházení problémů autorských práv.

Obchod: Lionsgate otevřel svůj trezor — exkluzivní přístup ke kompletnímu katalogu (John Wick, Hunger Games, Twilight, American Psycho) k trénování vlastního AI modelu.

Nicméně v září 2025 byly zprávy označující toto partnerství jako “pomalu se rozvíjející katastrofu” (slowly unfolding disaster):

Problém “Data Scarcity”: I katalog velkého studia je nedostatečný k trénování světové třídy video modelu. Modely jako Sora se učí fyziku pojídáním miliard videí z celého internetu.
Právní slepá ulička: Pokud AI vygeneruje scénu bez významného lidského zásahu, je tato scéna chráněna autorským právem? Experti se klonili k ne.

4.3 Tichý úspěch: Netflix a neviditelné VFX

Pokud se fantazie o “generování celého filmu” nezdařila u Lionsgate, pragmatická integrace triumfovala u Netflix. V roce 2025 platforma potvrdila použití generativní AI pro finální záběry v argentinském seriálu The Eternaut.

Případ použití: Složitá sekvence zhroucení budovy a postapokalyptická prostředí. Tradičně by to vyžadovalo nákladné fyzické simulace a týdny renderování.

Ekonomický argument: Ted Sarandos, spoluzakladatel Netflixu, potvrdil, že použití AI umožnilo realizaci sekvence “10krát rychleji” a za směšné náklady.

Skutečná revoluce: AI nenahrazuje (zatím) hlavní herce. Nahrazuje textury, pozadí, davy a destrukce. Infiltruje se do “neviditelných pixelů”, těch, které divák vědomě nevnímá, ale které obvykle stojí miliony k výrobě.

4.4 Kulturní napětí: AI a přivlastnění tance

Dopad AI se rozšířil i do živých umění, vyvolávající hluboké etické otázky o kulturní přivlastňování.

Případ “Bird Dance”: Členové kmene Cahuilla odsoudili pokusy AI reprodukovat jejich tradiční tanec. Modely, trénované na YouTube videích bez kontextu, generovaly napodobeniny považované za “neuctivé” a zbavené původního spirituálního významu.

Hrozba pro komerční tanečníky: Záložní tanečníci pro popové hvězdy vyjádřili obavy z nahrazení generovanými avatary nebo hologramy v klipech a koncertech.

Závěr: Směrem k hybridní syntetické realitě

Trajektorie uražená mezi lety 2023 a 2026 je závratná. Za tři roky jsme přešli od 4sekundových rozmazaných videí (Gen-2) k komplexním fyzikálním, zvukovým a konzistentním simulacím (Sora 2, Gen-4).

Tři hlavní ponaučení

Vítězství simulace nad animací: Vítězný architektonický přístup (DiT + Spacetime Patches) zachází s videem jako simulací světa. Modely již neusilují o “animaci obrázků”, usilují o “pochopení fyziky”. Iniciativa General World Models Runway potvrzuje, že konečným cílem není kino, ale vytvoření univerzálních simulátorů pro robotiku, videohry a virtuální realitu.
Kontrola je král: Samotná hrubá generační síla (Sora) nestačí. Je to rozhraní kontroly (Runway Director Mode, Act-Two), které transformuje technologii v profesionální nástroj. Schopnost řídit AI jako herce nebo kameru byla rozhodujícím faktorem přijetí.
Průmyslová hybridita: Apokalyptické obavy z totálního nahrazení Hollywoodu se nenaplnily. Místo toho se průmysl hybridizoval. Lidští herci hrají hlavní role (chráněni SAG-AFTRA), zatímco AI spravuje kulisy, davy a destrukce. AI se stala “nekonečným štětcem” VFX, snižujícím produkční náklady bez eliminace potřeby lidské umělecké vize.

Otázka roku 2027

Na prahu roku 2027 již není otázkou “může AI vytvářet video?”, ale “jaká část naší vizuální reality bude nyní syntetická?”.

S demokratizací nástrojů jako Act-Two se bariéra mezi amatérským tvůrcem a profesionálním studiem zhroutila, slibující novou éru vizuálního vyprávění, kde jediným zbývajícím omezením je, doslova, představivost.

Publikováno 28. března 2026