Från video till World Model: Utvecklingen av Runway och OpenAI Sora (2023-2026)

Tidsperioden från 2023 till 2026 utgör en vändpunkt i den visuella datorhistorien, där man gått från enkel generering av animerade bilder till komplex simulering av fysiska verkligheter. Denna övergång, ofta sammanfattad av den semantiska glidningen från “Text-till-Video” till “World Models”, representerar mycket mer än en förbättring av bildupplösning eller flyt. Den signalerar framväxten av artificiella intelligenssystem som kan bygga sammanhängande interna representationer av fysik, kausalitet och tidsdynamik.

Denna tekniska rapport presenterar en uttömmande krönika över denna utveckling, med fokus på de två aktörer som har polariserat forsknings- och industriapplikationsområdet: Runway, det banbrytande startup-företaget från New Yorks konstvärld, och OpenAI, forskningslaboratoriet som strävar efter artificiell allmänintelligens. Genom analys av deras respektive tekniska arkitekturer – från latenta diffusionsmodeller till diffussionstransformers (DiT) – och deras distributionsstrategier, kommer vi att undersöka hur dessa tekniker har kolliderat med Hollywoods hundraåriga industri och omdefinierat begreppen kreativitet, arbete och visuell sanning.

I. De Konstnärliga Begynnelserna: Historien om RunwayML

För att förstå den generativa videons bana är det nödvändigt att analysera dess rötter. Till skillnad från en vanlig missuppfattning började revolutionen inte med generering ur intet, utan med automatisering av de mest arbetskrävande uppgifterna inom traditionell efterproduktion. RunwayML, grundat av Cristóbal Valenzuela, Anastasis Germanidis och Alejandro Matamala, sökte initialt inte ersätta kameran, utan att assistera klipparen.

1.1 Det Utilitära Arvet: Från “Green Screen” till Semantisk Förståelse

Innan 2023 utgjordes den stora flaskhalsen för visuella effekter (VFX) av rotoscoping. Denna teknik, avgörande för att isolera en skådespelare eller ett objekt från dess bakgrund för att infoga effekter eller ändra dekoren, krävde historiskt sett manuell bild-för-bild-intervention. En grafiker var tvungen att rita Bézier-kurvor runt en persons silhuett och justera dessa kurvor vid varje rörelse, hur liten den än var. Det var en kostsam, långsam process benägen för mänskliga fel.

Introduktionen av verktyget Green Screen från Runway markerade ett första paradigmskifte. Genom att bygga på maskininlärningsmodeller tränade för semantisk videosegmentering föreslog Runway en metod där användaren inte längre behövde definiera kurvor matematiskt, utan bara indikera semantiskt objektet av intresse.

Den tekniska funktionen hos Green Screen byggde på en nydanande människa-maskin-interaktion för tiden:

Semantisk Initiering: Användaren placerade några klick på objektet som skulle klippas ut (inklusionsklick) och på områden som skulle ignoreras (exklusionsklick) på en nyckelbild (keyframe).
Tidsmässig Propagering: Modellen använde sedan optiskt flöde och sammanhang i visuella egenskaper (färg, textur, form) för att sprida masken över hela videoklippet.
Interaktiv Förfinning: Om modellen tappade bort motivet (till exempel vid en ocklusion eller snabb rörelse) kunde användaren ingripa på en mellanliggande bildruta för att rätta till felet, varpå modellen omberäknade maskens bana i realtid.

Detta steg, även om det inte var “generativt” i strikt mening (det skapade inga nya pixlar), var fundamentalt av två skäl. För det första gav det Runway möjlighet att bygga upp en massiv databas om hur människor klipper ut och förstår en videoscen. För det andra validerade det den tekniska arkitekturen för en webbplattform i realtid som kunde hantera tunga videoströmmar, en infrastruktur som skulle visa sig kritisk för den framtida utrullningen av Gen-modellerna.

Resultat: Den “AI-assisterade” metoden reducerade rotoscoping-tiden från flera timmar till några minuter, och förankrade Runway som en partner för kreatörer snarare än en ersättare – en filosofi som skulle sättas på prov med ankomsten av generativa modeller.

1.2 Gen-1: Strukturen som Verklighetens Ankare (Februari 2023)

I februari 2023 avtäckte Runway Gen-1, vilket officiellt markerade inträdet i eran av neural videogenerering. Vid denna tidpunkt var generering av statiska bilder via modeller som Midjourney eller Stable Diffusion redan väletablerat, men video förblev en stor utmaning på grund av den tidsmässiga dimensionen. Naiva försök att applicera bildmodeller bild för bild ledde till outhärdligt flimmer (flickering), där objekt bytte identitet eller textur slumpmässigt varje sekund.

Gen-1 kringgick detta problem genom att anta en Video-till-Video-ansats (Video-to-Video). Istället för att be modellen hallucinera både rörelse och utseende, använde Gen-1 en befintlig video för att tillhandahålla “strukturen” (rörelsen, djupet, konturerna) och genererade endast “stilen” (utseendet, texturen).

Arkitektur och Funktionslägen

Tekniskt sett byggde Gen-1 på modifierade latenta diffusionsmodeller (Latent Diffusion Models – LDM) som accepterade stark strukturell konditionering. Modellen lärde sig att kartlägga den geometriska strukturen från inmatningsvideon till utmatningsvideons latenta utrymme, styrd av en textprompt eller en referensbild.

Gen-1:s lägen illustrerar denna separation mellan struktur och stil:

Läge	Beskrivning	Användningsfall
Läge 01 (Stylization)	Ren stilöverföring	Förvandla en video till “cyberpunk”-animation eller “oljemålning”
Läge 02 (Storyboard)	Rendering av 3D-animatiker	Validera belysning och atmosfär utan att vänta på slutrenderingen
Läge 03 (Mask)	Målinriktad generering	Ändra ett specifikt motiv utan att påverka bakgrunden

Mottagande och Prestanda

Användarstudier genomförda av Runway visade en markant preferens för Gen-1:s resultat:

73,53 % av användarna föredrog Gen-1 framför Stable Diffusion 1.5 applicerad bild för bild
88,24 % föredrog det framför Text2Live

Denna överlägsenhet förklarades av den tidsmässiga sammanhållningen: Gen-1 “gissade” inte rörelsen, den lånade den från verkligheten. Denna beroende var dock också dess största begränsning: man kunde inte skapa det man inte kunde filma eller modellera grovt i förväg.

1.3 Gen-2: Språnget in i Text-till-Videons Tomrum (Juni 2023)

Den verkliga konceptuella genombrottet kom några månader senare, i juni 2023, med lanseringen av Gen-2. Anastasis Germanidis, teknisk chef på Runway, beskrev detta steg som avlägsnandet av behovet av strukturell konditionering. Gen-2 var den första kommersiella konsumentmodellen som kunde prestera Text-till-Video (Text-to-Video), det vill säga generera en animerad videosekvens från en enkel mening, utan någon källvideo.

Att gå från Gen-1 till Gen-2 krävde att man löste ett fundamentalt problem: hur kan en AI föreställa sig rörelse? I Gen-1 var rörelsen given. I Gen-2 var den tvungen att hallucineras på ett trovärdigt sätt. Modellen behövde förstå inte bara hur en “katt” ser ut, utan hur en katt rör sig, hur dess päls reagerar på förändrande ljus, och hur den virtuella kameran skulle följa den.

De första resultaten från Gen-2, även om de var imponerande för 2023, avslöjade svårigheten i uppgiften:

Begränsad Längd: Klippen var initialt begränsade till 4 sekunder. Därefter kollapsade ofta sammanhållningen, och objekt förvandlades till abstrakt sörja.
Drömlika Rörelser: Fysiken var ofta “flytande”. Objekt rörde sig inte så mycket som de “flöt” från punkt A till punkt B.
Brist på Kontroll: Användaren skrev en prompt och hoppades på det bästa. Det fanns inget sätt att säga “kameran ska göra en kraning framåt”.

Trots dessa brister utlöste Gen-2 en kreativ explosion. Det möjliggjorde skapandet av virala “AI-trailers” (som Wes Anderson-parodier på filmer), vilket visade en massiv publikaptit för denna nya uttrycksform.

Jämförelsetabell: Gen-1 vs Gen-2

Egenskap	Gen-1 (Feb 2023)	Gen-2 (Jun 2023)
Paradigm	Video-till-Video	Text-till-Video
Krävd Inmatning	Källvideo + Prompt/Bild	Prompt (Text) eller Endast Bild
Tidsmässig Sammanhållning	Hög (härledd från källan)	Variabel (ofta låg i början)
Huvudsakligt Användningsfall	Stilisering, Animatik-rendering	Skapande ur intet, Idégenerering
Arkitektur	Latent Diffusion + Structure Guidance	Multimodal Latent Diffusion

II. Sora-chocken: Analys av ‘Spacetime Patches’ och DiT-arkitekturen

Om 2023 var året för experiment med Runway, markerade början av 2024 en teknologisk jordbävning. I februari presenterade OpenAI Sora, en modell som omedelbart omdefinierade den tekniska standarden. Där Gen-2 producerade korta, suddiga klipp, genererade Sora sekvenser på en minut i hög upplösning (1080p), med flera karaktärer, komplexa kamerarörelser och en förvånansvärd objektpersistens.

Detta kvalitativa språng var inte resultatet av tillfälligheter eller en enkel ökning av beräkningskraft, utan resultatet av en djupgående arkitekturombyggnad dokumenterad i den tekniska rapporten “Video Generation Models as World Simulators”.

2.1 Dataunifieringen: Revolutionen med ‘Spacetime Patches’

Sora:s centrala innovation ligger i dess sätt att representera visuell data. Tidigare metoder behandlade ofta video som en stel sekvens av bilder med fast storlek (t.ex. 256×256 pixlar), vilket begränsade kvaliteten och påtvingade destruktiva beskärningar. Sora, å andra sidan, hämtar direkt inspiration från Stora Språkmodeller (LLM) som GPT-4.

Grundprincip: Precis som LLM:er delar upp text i “tokens” (tecken), delar Sora upp video i Spacetime Patches (Rumtida Patchar).

Patchifieringsprocessen

Latent Rumtidskompression: Råvideo behandlas inte pixel för pixel. Den passerar först genom ett Video Compression Network (liknande en VAE) som minskar dess dimensionalitet både i rummet och i tiden.
Extrahering av Patchar: Denna latenta volym delas sedan upp i små kuber. Varje kub representerar en liten del av bilden (rum) under en kort period (tid).
Linjarisering: Dessa kuber plattas ut till en lång sekvens av vektorer, precis som en mening är en följd av ord.

Kritiska Fördelar med Denna Metod

Oberoende av Upplösning och Ratio: Sora kan tränas på videor av vilken storlek som helst (Widescreen 1920×1080, Vertikal 1080×1920, Kvadratisk). Det är inte längre nödvändigt att beskära allt till kvadrater.
Skalbarhet: Denna metod möjliggör applicering av massiva LLM-träningstekniker på video. Ju mer data och beräkning som läggs till, desto bättre blir modellen, följande förutsägbara skalningslagar (scaling laws).

2.2 DiT-arkitekturen: När Transformern Ersätter U-Net

När videon väl har förvandlats till en soppa av patchar, hur genererar man nytt innehåll? Här kommer Diffusion Transformer (DiT)-arkitekturen in. Historiskt sett har diffusionsmodeller (som Stable Diffusion) använt en arkitektur kallad U-Net för avbrusningsprocessen. Även om effektiv för bilder, hanterar U-Net dåligt de komplexa långväga beroenden som krävs för sammanhängande video.

Sora använder en standard Transformer som ryggrad (backbone) för diffusion.

Mekanismen för Global Attention

Transformerns styrka ligger i dess uppmärksamhetsmekanism. I en mening tillåter den att koppla ett pronomen till ett substantiv nämnt tre stycken tidigare. I en video tillåter DiT att Sora kopplar en patch i början av videon (t=0s) till en patch i slutet (t=60s).

Objektets Persistens: Tack vare denna globala uppmärksamhet “kommer modellen ihåg” objekt. Om en man passerar bakom en pelare vet modellen att han måste komma ut på andra sidan med samma kläder och samma ansikte, eftersom patcharna “före” och “efter” ocklusionen är kopplade i uppmärksamhetsnätverket.

2.3 Simuleringens Framväxt och Fysiska Begränsningar

OpenAI:s tekniska rapport gör ett djärvt påstående: genom att öka träningsskalan uppstår simuleringsförmågor spontant, utan att ha programmerats explicit.

Implicit 3D-sammanhållning: Sora genererar dynamiska kamerarörelser där perspektivet ändras korrekt (parallax), som om scenen verkligen existerade i 3D.
Simulering av Digitala Världar: Det mest slående exemplet var Sora:s förmåga att simulera videospelet Minecraft. Närd med gameplay-videor lärde sig modellen att generera inte bara grafiken, utan också spelets logik.

Dock var Sora (v1) inte perfekt. Modellen led av märkbara fysiska hallucinationer: ett glas som faller utan att gå sönder, en person som äter en kex utan att bitmärket visas.

2.4 Sora 2: Förfiningen (September 2025)

I september 2025 lanserade OpenAI Sora 2. Denna iteration syftade till att fylla luckorna i den första versionen:

Synkroniserat Ljud: Gemensam generering av ljud (steg, röster, atmosfärer) synkroniserat med den visuella handlingen.
Redigering och Remix: “Remix”-funktioner som möjliggör ändring av specifika element utan att räkna om allt.
Säkerhet och Ursprung: Robust C2PA-vattenmärkning och förstärkta säkerhetsfilter.

III. Den Tidsmässiga Kontrollen: Utvecklingen av Verktyg för Virtuell Kamera

Om Sora:s bildkvalitet bländade allmänheten, lyfte bildproffsen omedelbart ett kritiskt problem: bristen på kontroll. Att generera en vacker slumpmässig video är värdelöst för att berätta en specifik historia. Perioden 2024-2026 präglades därför av en frenetisk kapplöpning mot “kontrollerbarhet” (controllability).

3.1 Från Lotteri till Styrning: Motion Brush och Director Mode

I början av den generativa eran skrev användaren en prompt och hoppades att resultatet skulle matcha visionen. Det var “enarmade banditens” (slot machine approach) era. Runway var först med att förstå att för att bli antagen av industrin måste AI bli ett styrbart verktyg.

Motion Brush (Rörelsepenseln)

Lanserad i början av 2024 introducerade Motion Brush lokal kontroll. Istället för att låta AI:n bestämma vad som rör sig, kunde användaren “måla” en zon i bilden och definiera en riktning och intensitet för rörelsen.

Tillämpningsexempel: I en stillastående bild av en man som tittar på havet kunde en regissör frysa mannen (orörlig), få vågorna att röra sig åt höger (medelhastighet) och få moln att röra sig mot kameran (långsam hastighet).

Director Mode (Regissörsläget)

För kamerarörelser introducerade Runway Director Mode. Detta verktyg ersatte de vagt formulerade nyckelorden (“zoom in”) med precisa parametriska kontroller som simulerade en fysisk kamera:

Zoom
Pan (Panorering)
Tilt (Lutning)
Roll (Rullning)

3.2 Den Heliga Graalen: Karaktärernas Sammanhållning

Det största hindret för långvarig berättande förblev karaktärernas inkonsekvens. I en traditionell film ser Brad Pitt ut som Brad Pitt från första till sista scenen. I AI-videorna från 2023 kunde protagonisten byta ansikte, kläder, eller till och med ålder, mellan två på varandra följande scener.

Med Gen-4 (Mars 2025) gjorde Runway “Oändlig Karaktärssammanhållning” till sitt flaggskepp.

Mekanism för Identitetsförankring: Gen-4 tillät import av en enda referensbild av en karaktär. Modellen låste sedan karaktärens semantiska egenskaper i sitt latenta utrymme.

Resultat: Man kunde generera en sekvens där denna karaktär gick från en nattscen i regn till en dagscen inomhus, ändrade emotionellt uttryck, samtidigt som den förblev otvivelaktigt samma person.

3.3 Lipsync och Act-Two: Slutet för Traditionell Mocap?

Ansiktsanimation och dialog var de sista fästningarna av komplexitet. De första lipsync-verktygen nöjde sig med att förvrida underdelen av en stillbild för att matcha ett ljudspår, vilket skapade en oövertygande “marionett”-effekt.

I slutet av 2024 lanserade Runway Act-Two, en modell för generativ rörelsefångst (Generative Motion Capture) som omkullkastade animationsindustrin.

Konceptet “Driving Video”: Istället för att använda dyra rörelsefångstdräkter (Mocap) med reflekterande markörer, tillät Act-Two att använda en enkel video av en skådespelare (filmad med en smartphone) för att styra en genererad karaktär.

Nyanserad Prestandaöverföring: Modellen fångade mikro-uttryck, ögonvridningar, huvudlutningar och till och med handgester. Den överförde sedan denna “själ” från prestationen till en målmodell med en emotionell trohet som kunde mäta sig med Hollywood-produktioner.

Tabell: Utvecklingen av Kontrollverktyg

Verktyg	Problem Löst	Mognadsår
Motion Brush	Specifik kontroll av objektrörelse	2024
Director Mode	Exakta och filmiska kamerarörelser	2024
Gen-4 Character Consistency	Bibehållande av skådespelarens identitet över flera scener	2025
Act-Two	Realistisk ansikts- och kroppsanimation utan Mocap	2025

IV. Hollywood-effekten: Strejkerna, Avtalen och Adaptionen

Ankomsten av dessa tekniker skedde inte i ett ekonomiskt eller socialt vakuum. Den kolliderade fullständigt med Hollywoods fackliga, juridiska och finansiella strukturer, och utlöste en existentiell kris för kreativa yrken.

4.1 Strejkerna 2023: Mänsklighetens Första Försvarslinje

År 2023 kommer att bestå som året för den historiska “Dubbla Strejken” bland manusförfattare (WGA) och skådespelare (SAG-AFTRA). Även om löner och streaming-ersättningar var stora frågor, framstod generativ AI som den mest futuristiska och mest ångestladdade friktionspunkten.

Rädslan för Ersättning och Digitala Repliker

Manusförfattare (WGA): Den främsta rädslan var att studior skulle använda LLM:er för att generera kompletta manus, endast återanställa mänskliga manusförfattare för att “putsa” eller “skriva om” maskinellt genererad text.
Skådespelare (SAG-AFTRA): Spöket av “Digitala Repliker” (Digital Replicas) hemsökte förhandlingarna. Skådespelare fruktade att skannas en gång och att studior sedan skulle använda deras bild och röst för evigt.

Avtalen i Oktober 2023: Historiska Säkerhetsmekanismer

Strejken slutade med betydande segrar för facken:

AI som Verktyg, inte som Författare: WGA-avtalet stipulerar att AI inte kan krediteras som manusförfattare. En studio kan inte tvinga en manusförfattare att använda AI.
Samtycke och Ersättning för Repliker: SAG-AFTRA-avtalet kräver explicit samtycke från skådespelaren för skapande av alla digitala repliker. Användningen måste ersättas som om skådespelaren hade arbetat fysiskt.

4.2 Misslyckandet med “Studio-modellen”: Fallet Lionsgate (2024-2025)

I september 2024 tillkännagav studion Lionsgate ett uppseendeväckande partnerskap med Runway, i hopp om att kapitalisera på tekniken samtidigt som man kringgick upphovsrättsproblem.

Avtalet: Lionsgate öppnade sitt valv – exklusiv tillgång till deras kompletta katalog (John Wick, Hunger Games, Twilight, American Psycho) för att träna en anpassad AI-modell.

Dock kvalificerade rapporter i september 2025 detta partnerskap som en “långsam katastrof” (slowly unfolding disaster):

Problemet med “Data Scarcity”: Även en stor studios katalog är otillräcklig för att träna en videomodell i världsklass. Modeller som Sora lär sig fysik genom att konsumera miljarder videor från hela internet.
Den Juridiska Återvändsgränden: Om AI:n genererar en scen utan betydande mänsklig intervention, är den scenen upphovsrättsskyddad? Experter lutade åt nej.

4.3 Den Tysta Framgången: Netflix och de Osynliga VFX

Om fantasibilden av att “generera en hel film” misslyckades hos Lionsgate, triumferade den pragmatiska integrationen hos Netflix. År 2025 bekräftade plattformen användningen av generativ AI för slutgiltiga scener i den argentinska serien The Eternaut.

Användningsfallet: En komplex sekvens av byggnadskollaps och postapokalyptiska miljöer. Traditionellt sett skulle detta ha krävt kostsamma fysiska simuleringar och veckor av rendering.

Det Ekonomiska Argumentet: Ted Sarandos, med-VD för Netflix, hävdade att användningen av AI hade gjort det möjligt att realisera sekvensen “10 gånger snabbare” och för en försumbart liten kostnad.

Den verkliga revolutionen: AI ersätter inte (ännu) huvudrollsinnehavarna. Den ersätter texturer, bakgrunder, folkmassor och förstörelse. Den infiltrerar sig i de “osynliga pixlarna”, de som åskådaren inte medvetet lägger märke till, men som vanligtvis kostar miljoner att producera.

4.4 De Kulturella Spänningarna: AI och Dansens Appropriering

AI:s påverkan sträckte sig också till scenkonsterna, vilket väckte djupa etiska frågor om kulturell appropriering.

Fallet med “Bird Dance”: Medlemmar av Cahuilla-stammen fördömde AI:s försök att reproducera deras traditionella dans. Modeller, tränade på YouTube-videor utan sammanhang, genererade imitationer bedömda som “respektlösa” och fria från den ursprungliga andliga betydelsen.

Hotet mot Kommersiella Dansare: Bakgrundsdansare för popstjärnor uttryckte sin rädsla för att ersättas av genererade avatarer eller hologram i musikvideor och konserter.

Slutsats: Mot en Hybrid Syntetisk Verklighet

Banans sträckning mellan 2023 och 2026 är hisnande. På tre år har vi gått från suddiga 4-sekundersvideor (Gen-2) till komplexa, ljudliga och sammanhängande fysiska simuleringar (Sora 2, Gen-4).

Tre Stora Lärdomar

Simuleringens Segrar över Animation: Den vinnande arkitektuella ansatsen (DiT + Spacetime Patches) behandlar video som en världssimulering. Modellerna strävar inte längre efter att “animera bilder”, de strävar efter att “förstå fysik”. Runways initiativ General World Models bekräftar att det slutliga målet inte är film, utan skapandet av universella simulatorer för robotik, dataspel och virtuell verklighet.
Kontrollen är Kung: Den råa genereringskraften (Sora) räcker inte. Det är kontrollgränssnittet (Runway Director Mode, Act-Two) som omvandlar tekniken till ett professionellt verktyg. Förmågan att styra AI:n som man styr en skådespelare eller en kamera har varit det avgörande adoptionsfaktorn.
Industriell Hybriditet: De apokalyptiska rädslorna för ett totalt ersättande av Hollywood har inte materialiserats. Istället har industrin hybridiserats. Mänskliga skådespelare spelar huvudrollerna (skyddade av SAG-AFTRA), medan AI hanterar dekorer, folkmassor och förstörelse. AI har blivit VFX:s “oändliga pensel”, som minskar produktionskostnaderna utan att eliminera behovet av mänsklig konstnärlig vision.

Frågan för 2027

I början av 2027 är frågan inte längre “kan AI skapa video?”, utan “vilken del av vår visuella verklighet kommer nu att vara syntetisk?”.

Med demokratiseringen av verktyg som Act-Two har barriären mellan amatörskapare och professionell studio kollapsat, vilket utlovar en ny era av visuell berättarkonst där den enda återstående gränsen, bokstavligt talat, är fantasin.

Publicerad den 28 mars 2026