De la Vidéo au World Model : L'Évolution de Runway et OpenAI Sora (2023-2026)

L’intervalle temporel s’étendant de 2023 à 2026 constitue une période charnière dans l’histoire de l’informatique visuelle, marquant le passage de la simple génération d’images animées à la simulation complexe de réalités physiques. Cette transition, souvent résumée par le glissement sémantique de “Texte-vers-Vidéo” (Text-to-Video) à “Modèles de Monde” (World Models), représente bien plus qu’une amélioration de la résolution ou de la fluidité des images. Elle signale l’émergence de systèmes d’intelligence artificielle capables de construire des représentations internes cohérentes de la physique, de la causalité et de la dynamique temporelle.

Ce rapport technique propose une chronique exhaustive de cette évolution, en se concentrant sur les deux acteurs qui ont polarisé le champ de la recherche et de l’application industrielle : Runway, la startup pionnière issue du monde artistique new-yorkais, et OpenAI, le laboratoire de recherche visant l’intelligence générale. À travers l’analyse de leurs architectures techniques respectives — des modèles de diffusion latente aux transformateurs de diffusion (DiT) — et de leurs stratégies de déploiement, nous examinerons comment ces technologies ont percuté de plein fouet l’industrie centenaire d’Hollywood, redéfinissant les notions de créativité, de travail et de vérité visuelle.

I. Les Débuts Artistiques : L’Histoire de RunwayML

Pour comprendre la trajectoire de la vidéo générative, il est impératif d’analyser ses racines. Contrairement à une idée reçue, la révolution n’a pas commencé par la génération ex nihilo, mais par l’automatisation des tâches les plus laborieuses de la post-production traditionnelle. RunwayML, fondée par Cristóbal Valenzuela, Anastasis Germanidis et Alejandro Matamala, n’a pas initialement cherché à remplacer la caméra, mais à assister le monteur.

1.1 L’Héritage Utilitaire : Du “Green Screen” à la Compréhension Sémantique

Avant 2023, le goulot d’étranglement majeur des effets visuels (VFX) résidait dans le rotoscoping. Cette technique, essentielle pour isoler un acteur ou un objet de son arrière-plan afin d’insérer des effets ou de modifier le décor, nécessitait historiquement une intervention manuelle image par image. Un graphiste devait tracer des courbes de Bézier autour de la silhouette d’un personnage, ajustant ces courbes à chaque mouvement, aussi infime soit-il. C’était un processus coûteux, lent et propice à l’erreur humaine.

L’introduction de l’outil Green Screen par Runway a marqué une première rupture paradigmatique. En s’appuyant sur des modèles d’apprentissage automatique entraînés pour la segmentation sémantique vidéo, Runway a proposé une approche où l’utilisateur n’avait plus besoin de définir mathématiquement des courbes, mais simplement d’indiquer sémantiquement l’objet d’intérêt.

Le fonctionnement technique du Green Screen reposait sur une interaction homme-machine novatrice pour l’époque :

Initialisation Sémantique : L’utilisateur plaçait quelques clics sur l’objet à détourer (clics d’inclusion) et sur les zones à ignorer (clics d’exclusion) sur une image clé (keyframe).
Propagation Temporelle : Le modèle utilisait ensuite le flux optique et la cohérence des caractéristiques visuelles (couleur, texture, forme) pour propager ce masque sur l’ensemble du clip vidéo.
Raffinement Interactif : Si le modèle perdait le sujet (par exemple lors d’une occlusion ou d’un mouvement rapide), l’utilisateur pouvait intervenir sur une frame intermédiaire pour corriger le tir, le modèle recalculant alors la trajectoire du masque en temps réel.

Cette étape, bien que non “générative” au sens strict (elle ne créait pas de nouveaux pixels), a été fondamentale pour deux raisons. Premièrement, elle a permis à Runway de constituer une base de données massive sur la manière dont les humains découpent et comprennent une scène vidéo. Deuxièmement, elle a validé l’architecture technique d’une plateforme web en temps réel capable de traiter des flux vidéo lourds, une infrastructure qui s’avérerait critique pour le déploiement futur des modèles Gen.

Résultat : L’approche “assistée par IA” a réduit le temps de rotoscoping de plusieurs heures à quelques minutes, ancrant Runway comme un partenaire des créatifs plutôt qu’un remplaçant, une philosophie qui allait être mise à l’épreuve avec l’arrivée des modèles génératifs.

1.2 Gen-1 : La Structure comme Ancre de Réalité (Février 2023)

En février 2023, Runway a dévoilé Gen-1, marquant officiellement l’entrée dans l’ère de la synthèse vidéo neurale. À cette époque, la génération d’images statiques via des modèles comme Midjourney ou Stable Diffusion était déjà bien établie, mais la vidéo restait un défi majeur en raison de la dimension temporelle. Les tentatives naïves d’appliquer des modèles d’image image par image entraînaient un scintillement (flickering) insupportable, où les objets changeaient d’identité ou de texture aléatoirement à chaque seconde.

Gen-1 a contourné ce problème en adoptant une approche Vidéo-vers-Vidéo (Video-to-Video). Au lieu de demander au modèle d’halluciner à la fois le mouvement et l’apparence, Gen-1 utilisait une vidéo existante pour fournir la “structure” (le mouvement, la profondeur, les contours) et ne générait que le “style” (l’apparence, la texture).

Architecture et Modes de Fonctionnement

Techniquement, Gen-1 reposait sur des modèles de diffusion latente (Latent Diffusion Models – LDM) modifiés pour accepter un conditionnement structurel fort. Le modèle apprenait à mapper la structure géométrique de la vidéo d’entrée vers l’espace latent de la vidéo de sortie, guidé par une invite textuelle ou une image de référence.

Les modes de Gen-1 illustrent cette séparation entre structure et style :

Mode	Description	Cas d’usage
Mode 01 (Stylization)	Transfert de style pur	Transformer une vidéo en animation “cyberpunk” ou “peinture à l’huile”
Mode 02 (Storyboard)	Rendu d’animatiques 3D	Valider l’éclairage et l’ambiance sans attendre le rendu final
Mode 03 (Mask)	Génération ciblée	Changer un sujet spécifique sans altérer l’arrière-plan

Réception et Performance

Les études utilisateurs menées par Runway ont montré une préférence marquée pour les résultats de Gen-1 :

73,53 % des utilisateurs préféraient Gen-1 à Stable Diffusion 1.5 appliqué image par image
88,24 % le préféraient à Text2Live

Cette supériorité s’expliquait par la cohérence temporelle : Gen-1 ne “devinait” pas le mouvement, il l’empruntait à la réalité. Cependant, cette dépendance était aussi sa limite majeure : on ne pouvait pas créer ce qu’on ne pouvait pas filmer ou modéliser grossièrement au préalable.

1.3 Gen-2 : Le Saut dans le Vide du Texte-vers-Vidéo (Juin 2023)

La véritable rupture conceptuelle est intervenue quelques mois plus tard, en juin 2023, avec la sortie de Gen-2. Anastasis Germanidis, CTO de Runway, a décrit cette étape comme la suppression de la nécessité d’une structure conditionnelle. Gen-2 était le premier modèle commercial grand public capable de réaliser du Texte-vers-Vidéo (Text-to-Video), c’est-à-dire de générer une séquence vidéo animée à partir d’une simple phrase, sans aucune vidéo source.

Le Défi de la “Génération Aveugle”

Passer de Gen-1 à Gen-2 a nécessité de résoudre un problème fondamental : comment une IA peut-elle imaginer le mouvement ? Dans Gen-1, le mouvement était donné. Dans Gen-2, il devait être halluciné de manière plausible. Le modèle devait comprendre non seulement à quoi ressemble un “chat”, mais comment un chat se meut, comment sa fourrure réagit à la lumière changeante, et comment la caméra virtuelle devrait le suivre.

Les premiers résultats de Gen-2, bien qu’impressionnants pour 2023, trahissaient la difficulté de la tâche :

Durée Limitée : Les clips étaient initialement restreints à 4 secondes. Au-delà, la cohérence s’effondrait souvent, les objets se transformant en bouillie abstraite.
Mouvements Oniriques : La physique était souvent “liquide”. Les objets ne se déplaçaient pas tant qu’ils ne “coulaient” d’un point A à un point B.
Manque de Contrôle : L’utilisateur tapait un prompt et espérait le meilleur. Il n’y avait aucun moyen de dire “la caméra doit faire un travelling avant”.

Malgré ces défauts, Gen-2 a déclenché une explosion créative. Il a permis la création de “Bandes-annonces IA” virales (comme les parodies de films façon Wes Anderson), démontrant un appétit massif du public pour cette nouvelle forme d’expression.

Tableau Comparatif : Gen-1 vs Gen-2

Caractéristique	Gen-1 (Fév 2023)	Gen-2 (Juin 2023)
Paradigme	Vidéo-vers-Vidéo	Texte-vers-Vidéo
Input Requis	Vidéo source + Prompt/Image	Prompt (Texte) ou Image seule
Cohérence Temporelle	Élevée (dérivée de la source)	Variable (souvent faible au début)
Cas d’Usage Principal	Stylisation, Rendu d’animatique	Création ex nihilo, Idéation
Architecture	Latent Diffusion + Structure Guidance	Latent Diffusion Multi-modal

II. Le Choc Sora : Analyse des ‘Spacetime Patches’ et de l’Architecture DiT

Si 2023 a été l’année de l’expérimentation avec Runway, le début de 2024 a été marqué par un séisme technologique. En février, OpenAI a présenté Sora, un modèle qui a instantanément redéfini l’état de l’art. Là où Gen-2 produisait des clips courts et flous, Sora générait des séquences d’une minute en haute définition (1080p), avec des personnages multiples, des mouvements de caméra complexes et une persistance d’objet stupéfiante.

Ce saut qualitatif n’était pas le fruit du hasard ou d’une simple augmentation de la puissance de calcul, mais le résultat d’une refonte architecturale profonde documentée dans le rapport technique “Video Generation Models as World Simulators”.

2.1 L’Unification des Données : La Révolution des ‘Spacetime Patches’

L’innovation centrale de Sora réside dans sa manière de représenter les données visuelles. Les approches précédentes traitaient souvent la vidéo comme une succession rigide d’images de taille fixe (ex: 256×256 pixels), ce qui limitait la qualité et imposait des recadrages destructeurs. Sora, en revanche, s’inspire directement des Grands Modèles de Langage (LLM) comme GPT-4.

Principe fondamental : Tout comme les LLM découpent le texte en “tokens” (jetons), Sora découpe la vidéo en Spacetime Patches (Patchs Spatio-Temporels).

Le Processus de Patchification

Compression Latente Spatio-Temporelle : La vidéo brute n’est pas traitée pixel par pixel. Elle passe d’abord par un Video Compression Network (similaire à un VAE) qui réduit sa dimensionnalité à la fois dans l’espace et dans le temps.
Extraction de Patchs : Ce volume latent est ensuite découpé en petits cubes. Chaque cube représente une petite portion de l’image (espace) sur une courte durée (temps).
Linéarisation : Ces cubes sont aplatis en une longue séquence de vecteurs, exactement comme une phrase est une suite de mots.

Les Avantages Critiques de cette Méthode

Indépendance de Résolution et de Ratio : Sora peut s’entraîner sur des vidéos de n’importe quelle taille (Widescreen 1920×1080, Vertical 1080×1920, Carré). Il n’est plus nécessaire de tout rogner en carré.
Scalabilité : Cette méthode permet d’appliquer les techniques d’entraînement massives des LLM à la vidéo. Plus on ajoute de données et de calcul, plus le modèle s’améliore, suivant des lois d’échelle (scaling laws) prévisibles.

2.2 L’Architecture DiT : Quand le Transformer Remplace l’U-Net

Une fois la vidéo transformée en soupe de patchs, comment générer de nouveaux contenus ? C’est ici qu’intervient l’architecture Diffusion Transformer (DiT). Historiquement, les modèles de diffusion (comme Stable Diffusion) utilisaient une architecture appelée U-Net pour le processus de débruitage. Bien qu’efficace pour les images, l’U-Net gère mal les dépendances complexes à longue portée nécessaires pour la vidéo cohérente.

Sora utilise un Transformer standard comme épine dorsale (backbone) de diffusion.

Le Mécanisme d’Attention Globale

La force du Transformer réside dans son mécanisme d’attention. Dans une phrase, il permet de relier un pronom à un nom cité trois paragraphes plus tôt. Dans une vidéo, le DiT permet à Sora de relier un patch au début de la vidéo (t=0s) à un patch à la fin (t=60s).

La Permanence de l’Objet : Grâce à cette attention globale, le modèle “se souvient” des objets. Si un homme passe derrière un pilier, le modèle sait qu’il doit ressortir de l’autre côté avec les mêmes vêtements et le même visage, car les patchs “avant” et “après” l’occlusion sont connectés dans le réseau d’attention.

2.3 Émergence de la Simulation et Limites Physiques

Le rapport technique d’OpenAI fait une affirmation audacieuse : en augmentant l’échelle de l’entraînement, des capacités de simulation émergent spontanément, sans avoir été explicitement programmées.

Cohérence 3D Implicite : Sora génère des mouvements de caméra dynamiques où la perspective change correctement (parallaxe), comme si la scène existait réellement en 3D.
Simulation de Mondes Numériques : L’exemple le plus frappant fut la capacité de Sora à simuler le jeu vidéo Minecraft. Nourri de vidéos de gameplay, le modèle a appris à générer non seulement les graphismes, mais aussi la logique du jeu.

Cependant, Sora (v1) n’était pas parfait. Le modèle souffrait d’hallucinations physiques notables : un verre qui tombe sans se briser, une personne qui mange un biscuit sans que la marque de la morsure n’apparaisse.

2.4 Sora 2 : L’Affinement (Septembre 2025)

En septembre 2025, OpenAI a lancé Sora 2. Cette itération a visé à combler les lacunes de la première version :

Audio Synchronisé : Génération conjointe de l’audio (bruits de pas, voix, ambiances) synchronisé avec l’action visuelle.
Édition et Remix : Fonctionnalités de “Remix” permettant de modifier des éléments spécifiques sans tout recalculer.
Sécurité et Provenance : Filigranes C2PA robustes et filtres de sécurité renforcés.

III. Le Contrôle Temporel : L’Évolution des Outils de Caméra Virtuelle

Si la qualité d’image de Sora a ébloui le grand public, les professionnels de l’image ont immédiatement soulevé un problème critique : le manque de contrôle. Générer une belle vidéo aléatoire est inutile pour raconter une histoire précise. La période 2024-2026 a donc été marquée par une course effrénée vers la “contrôlabilité” (controllability).

3.1 De la Loterie au Pilotage : Motion Brush et Director Mode

Au début de l’ère générative, l’utilisateur tapait un prompt et espérait que le résultat corresponde à sa vision. C’était l’ère de la “machine à sous” (slot machine approach). Runway a été le premier à comprendre que pour être adopté par l’industrie, l’IA devait devenir un outil pilotable.

Le Motion Brush (Pinceau de Mouvement)

Lancé début 2024, le Motion Brush a introduit le contrôle local. Au lieu de laisser l’IA décider ce qui bouge, l’utilisateur pouvait “peindre” une zone de l’image et définir une direction et une intensité de mouvement.

Exemple d’application : Dans un plan fixe d’un homme regardant la mer, un réalisateur pouvait figer l’homme (immobile), faire bouger les vagues vers la droite (vitesse moyenne) et faire avancer des nuages vers la caméra (vitesse lente).

Le Director Mode (Mode Réalisateur)

Pour les mouvements de caméra, Runway a introduit le Director Mode. Cet outil a remplacé les mots-clés vagues (“zoom in”) par des contrôles paramétriques précis simulant une caméra physique :

Zoom
Pan (Panoramique)
Tilt (Inclinaison)
Roll (Roulis)

3.2 Le Saint Graal : La Cohérence des Personnages

Le plus grand obstacle à la narration longue durée restait l’inconstance des personnages. Dans un film traditionnel, Brad Pitt ressemble à Brad Pitt du premier au dernier plan. Dans les vidéos IA de 2023, le protagoniste pouvait changer de visage, de vêtements, voire d’âge, entre deux plans successifs.

Avec Gen-4 (Mars 2025), Runway a fait de la “Cohérence Infinie des Personnages” son fer de lance.

Mécanisme d’Ancrage d’Identité : Gen-4 permettait d’importer une seule image de référence d’un personnage. Le modèle verrouillait alors les caractéristiques sémantiques de ce visage dans son espace latent.

Résultats : On pouvait générer une séquence où ce personnage passait d’une scène de nuit sous la pluie à une scène de jour en intérieur, changeait d’expression émotionnelle, tout en restant indubitablement la même personne.

3.3 Lipsync et Act-Two : La Fin de la Mocap Traditionnelle ?

L’animation faciale et le dialogue étaient les derniers bastions de la complexité. Les premiers outils de lipsync se contentaient de déformer le bas du visage d’une image fixe pour correspondre à une piste audio, créant un effet “marionnette” peu convaincant.

Fin 2024, Runway a lancé Act-Two, un modèle de capture de performance générative (Generative Motion Capture) qui a bouleversé l’industrie de l’animation.

Le Concept “Driving Video” : Au lieu d’utiliser des combinaisons de capture de mouvement (Mocap) coûteuses avec des marqueurs réfléchissants, Act-Two permettait d’utiliser une simple vidéo d’un acteur (filmée avec un smartphone) pour piloter un personnage généré.

Transfert de Performance Nuancé : Le modèle capturait les micro-expressions, les plissements d’yeux, les inclinaisons de tête et même la gestuelle des mains. Il transférait ensuite cette “âme” de la performance sur un modèle cible avec une fidélité émotionnelle qui rivalisait avec les productions hollywoodiennes.

Tableau : L’Évolution des Outils de Contrôle

Outil	Problème Résolu	Année de Maturité
Motion Brush	Contrôle spécifique du mouvement d’objets	2024
Director Mode	Mouvements de caméra précis et cinématographiques	2024
Gen-4 Character Consistency	Maintien de l’identité de l’acteur sur plusieurs plans	2025
Act-Two	Animation faciale et corporelle réaliste sans Mocap	2025

IV. L’Impact Hollywoodien : Les Grèves, les Accords et l’Adoption

L’arrivée de ces technologies ne s’est pas faite dans un vide économique ou social. Elle a percuté de plein fouet les structures syndicales, juridiques et financières d’Hollywood, déclenchant une crise existentielle pour les métiers de la création.

4.1 Les Grèves de 2023 : La Première Ligne de Défense Humaine

L’année 2023 restera gravée comme celle de la “Double Grève” historique des scénaristes (WGA) et des acteurs (SAG-AFTRA). Si les salaires et les résiduels du streaming étaient des enjeux majeurs, l’IA générative s’est imposée comme le point de friction le plus futuriste et le plus angoissant.

La Peur du Remplacement et des Répliques Numériques

Scénaristes (WGA) : La crainte principale était que les studios utilisent des LLM pour générer des scripts complets, ne réengageant des scénaristes humains que pour “polir” ou “réécrire” le texte généré par la machine.
Acteurs (SAG-AFTRA) : Le spectre des “Digital Replicas” (Répliques Numériques) hantait les négociations. Les acteurs craignaient d’être scannés une seule fois et que les studios utilisent ensuite leur image et leur voix à perpétuité.

Les Accords d’Octobre 2023 : Des Garde-fous Historiques

Les grèves se sont soldées par des victoires significatives pour les syndicats :

L’IA comme Outil, pas comme Auteur : L’accord de la WGA stipule que l’IA ne peut pas être créditée comme scénariste. Un studio ne peut pas obliger un scénariste à utiliser l’IA.
Consentement et Compensation pour les Répliques : L’accord de la SAG-AFTRA exige le consentement explicite de l’acteur pour la création de toute réplique numérique. L’utilisation doit être rémunérée comme si l’acteur avait travaillé physiquement.

4.2 L’Échec du “Modèle Studio” : Le Cas Lionsgate (2024-2025)

En septembre 2024, le studio Lionsgate a annoncé un partenariat retentissant avec Runway, espérant capitaliser sur la technologie tout en contournant les problèmes de droits d’auteur.

Le Deal : Lionsgate a ouvert son coffre-fort — accès exclusif à leur catalogue complet (John Wick, Hunger Games, Twilight, American Psycho) pour entraîner un modèle IA personnalisé.

Cependant, en septembre 2025, des rapports ont qualifié ce partenariat de “désastre au ralenti” (slowly unfolding disaster) :

Le Problème de la “Data Scarcity” : Même le catalogue d’un grand studio est insuffisant pour entraîner un modèle vidéo de classe mondiale. Les modèles comme Sora apprennent la physique en ingérant des milliards de vidéos issues de tout l’internet.
L’Impasse Juridique : Si l’IA génère une scène sans intervention humaine significative, cette scène est-elle protégée par le copyright ? Les experts penchaient pour le non.

4.3 La Réussite Silencieuse : Netflix et les VFX Invisibles

Si le fantasme de “générer un film complet” a échoué chez Lionsgate, l’intégration pragmatique a triomphé chez Netflix. En 2025, la plateforme a confirmé l’utilisation de l’IA générative pour des plans finaux dans la série argentine The Eternaut.

Le Cas d’Usage : Une séquence complexe d’effondrement de bâtiment et des environnements post-apocalyptiques. Traditionnellement, cela aurait nécessité des simulations physiques coûteuses et des semaines de rendu.

L’Argument Économique : Ted Sarandos, co-CEO de Netflix, a affirmé que l’utilisation de l’IA avait permis de réaliser la séquence “10 fois plus vite” et pour un coût dérisoire.

La véritable révolution : L’IA ne remplace pas (encore) les acteurs principaux. Elle remplace les textures, les arrière-plans, les foules et les destructions. Elle s’infiltre dans les “pixels invisibles”, ceux que le spectateur ne remarque pas consciemment, mais qui coûtent habituellement des millions à produire.

4.4 Les Tensions Culturelles : L’IA et l’Appropriation de la Danse

L’impact de l’IA s’est également étendu aux arts vivants, soulevant des questions éthiques profondes sur l’appropriation culturelle.

Le Cas de la “Bird Dance” : Des membres de la tribu Cahuilla ont dénoncé les tentatives de l’IA de reproduire leur danse traditionnelle. Les modèles, entraînés sur des vidéos YouTube sans contexte, généraient des imitations jugées “irrespectueuses” et dénuées de la signification spirituelle originale.

Menace sur les Danseurs Commerciaux : Les danseurs de backup pour les stars de la pop ont exprimé leur crainte d’être remplacés par des avatars générés ou des hologrammes dans les clips et les concerts.

Conclusion : Vers une Réalité Synthétique Hybride

La trajectoire parcourue entre 2023 et 2026 est vertigineuse. Nous sommes passés en trois ans de vidéos floues de 4 secondes (Gen-2) à des simulations physiques complexes, sonores et cohérentes (Sora 2, Gen-4).

Trois Enseignements Majeurs

La Victoire de la Simulation sur l’Animation : L’approche architecturale gagnante (DiT + Spacetime Patches) traite la vidéo comme une simulation de monde. Les modèles ne cherchent plus à “animer des images”, ils cherchent à “comprendre la physique”. L’initiative General World Models de Runway confirme que l’objectif final n’est pas le cinéma, mais la création de simulateurs universels pour la robotique, le jeu vidéo et la réalité virtuelle.
Le Contrôle est Roi : La puissance brute de génération (Sora) ne suffit pas. C’est l’interface de contrôle (Runway Director Mode, Act-Two) qui transforme la technologie en outil professionnel. La capacité à diriger l’IA comme on dirige un acteur ou une caméra a été le facteur décisif d’adoption.
L’Hybridité Industrielle : Les peurs apocalyptiques d’un remplacement total d’Hollywood ne se sont pas matérialisées. Au lieu de cela, l’industrie s’est hybridée. Les acteurs humains jouent les rôles principaux (protégés par la SAG-AFTRA), tandis que l’IA gère les décors, les foules et les destructions. L’IA est devenue le “pinceau infini” des VFX, réduisant les coûts de production sans éliminer le besoin de vision artistique humaine.

La Question de 2027

À l’aube de 2027, la question n’est plus “l’IA peut-elle créer de la vidéo ?”, mais “quelle part de notre réalité visuelle sera désormais synthétique ?”.

Avec la démocratisation des outils comme Act-Two, la barrière entre le créateur amateur et le studio professionnel s’est effondrée, promettant une nouvelle ère de narration visuelle où la seule limite restante est, littéralement, l’imagination.

Publié le 28 mars 2026