Del Vídeo al World Model: La Evolución de Runway y OpenAI Sora (2023-2026)

El periodo comprendido entre 2023 y 2026 constituye una etapa clave en la historia de la informática visual, marcando el paso de la simple generación de imágenes animadas a la simulación compleja de realidades físicas. Esta transición, a menudo resumida por el desplazamiento semántico de “Texto-a-Vídeo” (Text-to-Video) a “Modelos de Mundo” (World Models), representa mucho más que una mejora en la resolución o fluidez de las imágenes. Señala la emergencia de sistemas de inteligencia artificial capaces de construir representaciones internas coherentes de la física, la causalidad y la dinámica temporal.

Este informe técnico propone una crónica exhaustiva de esta evolución, centrándose en los dos actores que han polarizado el campo de la investigación y la aplicación industrial: Runway, la startup pionera surgida del mundo artístico neoyorquino, y OpenAI, el laboratorio de investigación que persigue la inteligencia general. A través del análisis de sus arquitecturas técnicas respectivas —desde los modelos de difusión latente hasta los transformadores de difusión (DiT)— y de sus estrategias de despliegue, examinaremos cómo estas tecnologías han impactado de lleno a la centenaria industria de Hollywood, redefiniendo las nociones de creatividad, trabajo y verdad visual.

I. Los Inicios Artísticos: La Historia de RunwayML

Para comprender la trayectoria del vídeo generativo, es imperativo analizar sus raíces. Contrariamente a una idea preconcebida, la revolución no comenzó con la generación ex nihilo, sino por la automatización de las tareas más laboriosas de la postproducción tradicional. RunwayML, fundada por Cristóbal Valenzuela, Anastasis Germanidis y Alejandro Matamala, no buscó inicialmente reemplazar la cámara, sino asistir al montador.

1.1 El Legado Utilitario: Del “Green Screen” a la Comprensión Semántica

Antes de 2023, el cuello de botella principal de los efectos visuales (VFX) residía en el rotoscopio. Esta técnica, esencial para aislar a un actor u objeto de su fondo con el fin de insertar efectos o modificar el decorado, requería históricamente una intervención manual cuadro a cuadro. Un grafista debía trazar curvas de Bézier alrededor de la silueta de un personaje, ajustando estas curvas a cada movimiento, por mínimo que fuera. Era un proceso costoso, lento y propenso al error humano.

La introducción de la herramienta Green Screen por parte de Runway marcó una primera ruptura paradigmática. Apoyándose en modelos de aprendizaje automático entrenados para la segmentación semántica de vídeo, Runway propuso un enfoque donde el usuario ya no necesitaba definir matemáticamente curvas, sino simplemente indicar semánticamente el objeto de interés.

El funcionamiento técnico del Green Screen se basaba en una interacción humano-máquina novedosa para la época:

Inicialización Semántica: El usuario colocaba algunos clics sobre el objeto a recortar (clics de inclusión) y sobre las zonas a ignorar (clics de exclusión) en una imagen clave (keyframe).
Propagación Temporal: El modelo utilizaba entonces el flujo óptico y la coherencia de las características visuales (color, textura, forma) para propagar esta máscara sobre todo el clip de vídeo.
Refinamiento Interactivo: Si el modelo perdía el sujeto (por ejemplo, durante una oclusión o un movimiento rápido), el usuario podía intervenir en un fotograma intermedio para corregir, recalculando el modelo la trayectoria de la máscara en tiempo real.

Esta etapa, aunque no “generativa” en sentido estricto (no creaba nuevos píxeles), fue fundamental por dos razones. Primero, permitió a Runway constituir una base de datos masiva sobre cómo los humanos recortan y comprenden una escena de vídeo. Segundo, validó la arquitectura técnica de una plataforma web en tiempo real capaz de procesar flujos de vídeo pesados, una infraestructura que resultaría crítica para el despliegue futuro de los modelos Gen.

Resultado: El enfoque “asistido por IA” redujo el tiempo de rotoscopio de varias horas a unos minutos, anclando a Runway como socio de los creativos más que como sustituto, una filosofía que iba a ponerse a prueba con la llegada de los modelos generativos.

1.2 Gen-1: La Estructura como Ancla de la Realidad (Febrero 2023)

En febrero de 2023, Runway desveló Gen-1, marcando oficialmente la entrada en la era de la síntesis de vídeo neuronal. En aquella época, la generación de imágenes estáticas a través de modelos como Midjourney o Stable Diffusion ya estaba bien establecida, pero el vídeo seguía siendo un desafío importante debido a la dimensión temporal. Los intentos ingenuos de aplicar modelos de imagen cuadro a cuadro provocaban un parpadeo (flickering) insoportable, donde los objetos cambiaban de identidad o textura aleatoriamente cada segundo.

Gen-1 sorteó este problema adoptando un enfoque Vídeo-a-Vídeo (Video-to-Video). En lugar de pedirle al modelo que alucinara tanto el movimiento como la apariencia, Gen-1 utilizaba un vídeo existente para proporcionar la “estructura” (el movimiento, la profundidad, los contornos) y solo generaba el “estilo” (la apariencia, la textura).

Arquitectura y Modos de Funcionamiento

Técnicamente, Gen-1 se basaba en modelos de difusión latente (Latent Diffusion Models – LDM) modificados para aceptar un condicionamiento estructural fuerte. El modelo aprendía a mapear la estructura geométrica del vídeo de entrada hacia el espacio latente del vídeo de salida, guiado por un prompt textual o una imagen de referencia.

Los modos de Gen-1 ilustran esta separación entre estructura y estilo:

Modo	Descripción	Casos de uso
Modo 01 (Estilización)	Transferencia de estilo puro	Transformar un vídeo en animación “cyberpunk” o “pintura al óleo”
Modo 02 (Storyboard)	Renderizado de animáticas 3D	Validar la iluminación y el ambiente sin esperar el render final
Modo 03 (Máscara)	Generación dirigida	Cambiar un sujeto específico sin alterar el fondo

Recepción y Rendimiento

Los estudios de usuarios realizados por Runway mostraron una preferencia marcada por los resultados de Gen-1:

73,53 % de los usuarios preferían Gen-1 a Stable Diffusion 1.5 aplicado cuadro a cuadro
88,24 % lo preferían a Text2Live

Esta superioridad se explicaba por la coherencia temporal: Gen-1 no “adivinaba” el movimiento, lo tomaba prestado de la realidad. Sin embargo, esta dependencia era también su limitación principal: no se podía crear lo que no se podía filmar o modelar aproximadamente de antemano.

1.3 Gen-2: El Salto al Vacío del Texto-a-Vídeo (Junio 2023)

La verdadera ruptura conceptual llegó unos meses después, en junio de 2023, con el lanzamiento de Gen-2. Anastasis Germanidis, CTO de Runway, describió este paso como la eliminación de la necesidad de una estructura condicional. Gen-2 fue el primer modelo comercial de gran consumo capaz de realizar Texto-a-Vídeo (Text-to-Video), es decir, generar una secuencia de vídeo animada a partir de una simple frase, sin ningún vídeo fuente.

El Desafío de la “Generación Ciega”

Pasar de Gen-1 a Gen-2 requirió resolver un problema fundamental: ¿cómo puede una IA imaginar el movimiento? En Gen-1, el movimiento era dado. En Gen-2, debía ser alucinado de manera plausible. El modelo debía comprender no solo a qué se parece un “gato”, sino cómo se mueve un gato, cómo su pelaje reacciona a la luz cambiante, y cómo la cámara virtual debería seguirlo.

Los primeros resultados de Gen-2, aunque impresionantes para 2023, traicionaban la dificultad de la tarea:

Duración Limitada: Los clips estaban inicialmente restringidos a 4 segundos. Más allá, la coherencia a menudo se desmoronaba, los objetos transformándose en una masa abstracta.
Movimientos Oníricos: La física a menudo era “líquida”. Los objetos no se desplazaban tanto como “fluían” de un punto A a un punto B.
Falta de Control: El usuario escribía un prompt y esperaba lo mejor. No había forma de decir “la cámara debe hacer un travelling hacia adelante”.

A pesar de estos defectos, Gen-2 desencadenó una explosión creativa. Permitió la creación de “Tráilers de IA” virales (como las parodias de películas al estilo Wes Anderson), demostrando un apetito masivo del público por esta nueva forma de expresión.

Cuadro Comparativo: Gen-1 vs Gen-2

Característica	Gen-1 (Feb 2023)	Gen-2 (Jun 2023)
Paradigma	Vídeo-a-Vídeo	Texto-a-Vídeo
Input Requerido	Vídeo fuente + Prompt/Imagen	Prompt (Texto) o Imagen sola
Coherencia Temporal	Alta (derivada de la fuente)	Variable (a menudo baja al principio)
Casos de Uso Principal	Estilización, Renderizado de animática	Creación ex nihilo, Ideación
Arquitectura	Difusión Latente + Guía Estructural	Difusión Latente Multi-modal

II. El Choque Sora: Análisis de los ‘Spacetime Patches’ y la Arquitectura DiT

Si 2023 fue el año de la experimentación con Runway, el inicio de 2024 estuvo marcado por un terremoto tecnológico. En febrero, OpenAI presentó Sora, un modelo que redefinió instantáneamente el estado del arte. Donde Gen-2 producía clips cortos y borrosos, Sora generaba secuencias de un minuto en alta definición (1080p), con múltiples personajes, movimientos de cámara complejos y una persistencia de objetos asombrosa.

Este salto cualitativo no fue fruto de la casualidad o de un simple aumento de la potencia de cálculo, sino el resultado de una reforma arquitectural profunda documentada en el informe técnico “Video Generation Models as World Simulators”.

2.1 La Unificación de Datos: La Revolución de los ‘Spacetime Patches’

La innovación central de Sora reside en su manera de representar los datos visuales. Los enfoques anteriores a menudo trataban el vídeo como una sucesión rígida de imágenes de tamaño fijo (ej: 256×256 píxeles), lo que limitaba la calidad e imponía recortes destructivos. Sora, en cambio, se inspira directamente en los Grandes Modelos de Lenguaje (LLM) como GPT-4.

Principio fundamental: Al igual que los LLM dividen el texto en “tokens” (fichas), Sora divide el vídeo en Spacetime Patches (Parches Espacio-Temporales).

El Proceso de Parcheificación

Compresión Latente Espacio-Temporal: El vídeo bruto no se procesa píxel a píxel. Primero pasa por una Red de Compresión de Vídeo (similar a un VAE) que reduce su dimensionalidad tanto en el espacio como en el tiempo.
Extracción de Parches: Este volumen latente se divide en pequeños cubos. Cada cubo representa una pequeña porción de la imagen (espacio) durante un corto periodo (tiempo).
Linealización: Estos cubos se aplastan en una larga secuencia de vectores, exactamente como una oración es una serie de palabras.

Las Ventajas Críticas de este Método

Independencia de Resolución y Ratio: Sora puede entrenarse con vídeos de cualquier tamaño (Pantalla panorámica 1920×1080, Vertical 1080×1920, Cuadrado). Ya no es necesario recortar todo en cuadrado.
Escalabilidad: Este método permite aplicar las técnicas de entrenamiento masivas de los LLM al vídeo. Cuanto más datos y cálculo se añaden, más mejora el modelo, siguiendo leyes de escala (scaling laws) predecibles.

2.2 La Arquitectura DiT: Cuando el Transformer Reemplaza la U-Net

Una vez el vídeo se transforma en sopa de parches, ¿cómo generar nuevos contenidos? Aquí interviene la arquitectura Diffusion Transformer (DiT). Históricamente, los modelos de difusión (como Stable Diffusion) utilizaban una arquitectura llamada U-Net para el proceso de desruido. Aunque eficaz para imágenes, la U-Net gestiona mal las dependencias complejas de largo alcance necesarias para el vídeo coherente.

Sora utiliza un Transformer estándar como columna vertebral (backbone) de difusión.

El Mecanismo de Atención Global

La fuerza del Transformer reside en su mecanismo de atención. En una oración, permite relacionar un pronombre con un nombre citado tres párrafos antes. En un vídeo, el DiT permite a Sora relacionar un parche al inicio del vídeo (t=0s) con un parche al final (t=60s).

La Permanencia del Objeto: Gracias a esta atención global, el modelo “recuerda” los objetos. Si un hombre pasa detrás de un pilar, el modelo sabe que debe salir por el otro lado con la misma ropa y el mismo rostro, porque los parches “antes” y “después” de la oclusión están conectados en la red de atención.

2.3 Emergencia de la Simulación y Límites Físicos

El informe técnico de OpenAI hace una afirmación audaz: al aumentar la escala del entrenamiento, capacidades de simulación emergen espontáneamente, sin haber sido explícitamente programadas.

Coherencia 3D Implícita: Sora genera movimientos de cámara dinámicos donde la perspectiva cambia correctamente (paralaje), como si la escena existiera realmente en 3D.
Simulación de Mundos Digitales: El ejemplo más sorprendente fue la capacidad de Sora de simular el videojuego Minecraft. Alimentado con vídeos de gameplay, el modelo aprendió a generar no solo los gráficos, sino también la lógica del juego.

Sin embargo, Sora (v1) no era perfecto. El modelo sufría de alucinaciones físicas notables: un vaso que cae sin romperse, una persona que come una galleta sin que aparezca la marca de la mordida.

2.4 Sora 2: El Refinamiento (Septiembre 2025)

En septiembre de 2025, OpenAI lanzó Sora 2. Esta iteración buscó cerrar las lagunas de la primera versión:

Audio Sincronizado: Generación conjunta del audio (pasos, voces, ambientes) sincronizada con la acción visual.
Edición y Remix: Funcionalidades de “Remix” permitiendo modificar elementos específicos sin recalcular todo.
Seguridad y Procedencia: Marcas de agua C2PA robustas y filtros de seguridad reforzados.

III. El Control Temporal: La Evolución de las Herramientas de Cámara Virtual

Si la calidad de imagen de Sora deslumbró al gran público, los profesionales de la imagen plantearon inmediatamente un problema crítico: la falta de control. Generar un bonito vídeo aleatorio es inútil para contar una historia precisa. El período 2024-2026 estuvo por tanto marcado por una carrera frenética hacia la “controlabilidad” (controllability).

3.1 De la Lotería al Pilotaje: Motion Brush y Director Mode

Al inicio de la era generativa, el usuario escribía un prompt y esperaba que el resultado correspondiera a su visión. Era la era de la “máquina tragaperras” (slot machine approach). Runway fue el primero en entender que, para ser adoptada por la industria, la IA debía convertirse en una herramienta pilotable.

El Motion Brush (Pincel de Movimiento)

Lanzado a principios de 2024, el Motion Brush introdujo el control local. En lugar de dejar que la IA decidiera qué se mueve, el usuario podía “pintar” una zona de la imagen y definir una dirección e intensidad de movimiento.

Ejemplo de aplicación: En un plano fijo de un hombre mirando el mar, un director podía inmovilizar al hombre (estático), hacer mover las olas hacia la derecha (velocidad media) y hacer avanzar nubes hacia la cámara (velocidad lenta).

El Director Mode (Modo Director)

Para los movimientos de cámara, Runway introdujo el Director Mode. Esta herramienta reemplazó las palabras clave vagas (“zoom in”) por controles paramétricos precisos que simulan una cámara física:

Zoom
Pan (Panorámica)
Tilt (Inclinación)
Roll (Balanceo)

3.2 El Santo Grial: La Coherencia de los Personajes

El mayor obstáculo para la narración de larga duración seguía siendo la inconstancia de los personajes. En una película tradicional, Brad Pitt se parece a Brad Pitt del primer al último plano. En los vídeos de IA de 2023, el protagonista podía cambiar de rostro, de ropa, incluso de edad, entre dos planos sucesivos.

Con Gen-4 (Marzo 2025), Runway hizo de la “Coherencia Infinita de Personajes” su estandarte.

Mecanismo de Anclaje de Identidad: Gen-4 permitía importar una sola imagen de referencia de un personaje. El modelo bloqueaba entonces las características semánticas de ese rostro en su espacio latente.

Resultados: Se podía generar una secuencia donde este personaje pasaba de una escena nocturna bajo la lluvia a una escena diurna en interior, cambiando de expresión emocional, permaneciendo indudablemente la misma persona.

3.3 Lipsync y Act-Two: ¿El Fin de la Mocap Tradicional?

La animación facial y el diálogo eran los últimos bastiones de la complejidad. Los primeros herramientas de sincronización labial se contentaban con deformar la parte inferior del rostro de una imagen fija para corresponder a una pista de audio, creando un efecto “marioneta” poco convincente.

A finales de 2024, Runway lanzó Act-Two, un modelo de captura de performance generativa (Generative Motion Capture) que trastornó la industria de la animación.

El Concepto “Driving Video”: En lugar de utilizar combinaciones de captura de movimiento (Mocap) costosas con marcadores reflectantes, Act-Two permitía utilizar una simple vídeo de un actor (filmado con un smartphone) para pilotar un personaje generado.

Transferencia de Performance Matizada: El modelo capturaba las micro-expresiones, los fruncimientos de cejas, las inclinaciones de cabeza e incluso la gesticulación de manos. Transfería luego esta “alma” de la performance a un modelo objetivo con una fidelidad emocional que rivalizaba con las producciones de Hollywood.

Cuadro: La Evolución de las Herramientas de Control

Herramienta	Problema Resuelto	Año de Madurez
Motion Brush	Control específico del movimiento de objetos	2024
Director Mode	Movimientos de cámara precisos y cinematográficos	2024
Gen-4 Character Consistency	Mantenimiento de la identidad del actor en varios planos	2025
Act-Two	Animación facial y corporal realista sin Mocap	2025

IV. El Impacto Hollywoodiense: Las Huelgas, los Acuerdos y la Adopción

La llegada de estas tecnologías no se produjo en un vacío económico o social. Impactó de lleno las estructuras sindicales, jurídicas y financieras de Hollywood, desencadenando una crisis existencial para los oficios de la creación.

4.1 Las Huelgas de 2023: La Primera Línea de Defensa Humana

El año 2023 quedará grabado como el de la “Doble Huelga” histórica de guionistas (WGA) y actores (SAG-AFTRA). Si los salarios y los residuales del streaming eran temas importantes, la IA generativa se impuso como el punto de fricción más futurista y angustiante.

El Miedo al Reemplazo y las Réplicas Digitales

Guionistas (WGA): El temor principal era que los estudios utilizaran LLM para generar guiones completos, reenganchando a guionistas humanos solo para “pulir” o “reescribir” el texto generado por la máquina.
Actores (SAG-AFTRA): El espectro de los “Digital Replicas” (Réplicas Digitales) perseguía las negociaciones. Los actores temían ser escaneados una sola vez y que los estudios utilizaran luego su imagen y voz a perpetuidad.

Los Acuerdos de Octubre 2023: Salvaguardas Históricas

Las huelgas terminaron con victorias significativas para los sindicatos:

La IA como Herramienta, no como Autor: El acuerdo de la WGA estipula que la IA no puede ser acreditada como guionista. Un estudio no puede obligar a un guionista a usar IA.
Consentimiento y Compensación para las Réplicas: El acuerdo de la SAG-AFTRA exige el consentimiento explícito del actor para la creación de cualquier réplica digital. El uso debe ser remunerado como si el actor hubiera trabajado físicamente.

4.2 El Fracaso del “Modelo Estudio”: El Caso Lionsgate (2024-2025)

En septiembre de 2024, el estudio Lionsgate anunció una asociación resonante con Runway, esperando capitalizar la tecnología mientras sorteaba los problemas de derechos de autor.

El Trato: Lionsgate abrió su caja fuerte — acceso exclusivo a su catálogo completo (John Wick, Hunger Games, Twilight, American Psycho) para entrenar un modelo IA personalizado.

Sin embargo, en septiembre de 2025, informes calificaron esta asociación de “desastre a cámara lenta” (slowly unfolding disaster):

El Problema de la “Escasez de Datos”: Incluso el catálogo de un gran estudio es insuficiente para entrenar un modelo de vídeo de clase mundial. Los modelos como Sora aprenden física ingiriendo miles de millones de vídeos de todo Internet.
El Callejón Jurídico: Si la IA genera una escena sin intervención humana significativa, ¿esa escena está protegida por copyright? Los expertos se inclinaban por el no.

4.3 El Éxito Silencioso: Netflix y los VFX Invisibles

Si el fantasma de “generar una película completa” fracasó en Lionsgate, la integración pragmática triunfó en Netflix. En 2025, la plataforma confirmó el uso de la IA generativa para planos finales en la serie argentina The Eternaut.

El Caso de Uso: Una secuencia compleja de colapso de edificio y ambientes post-apocalípticos. Tradicionalmente, esto habría requerido simulaciones físicas costosas y semanas de renderizado.

El Argumento Económico: Ted Sarandos, co-CEO de Netflix, afirmó que el uso de la IA había permitido realizar la secuencia “10 veces más rápido” y por un costo ridículo.

La verdadera revolución: La IA no reemplaza (aún) a los actores principales. Reemplaza las texturas, los fondos, las multitudes y las destrucciones. Se infiltra en los “píxeles invisibles”, aquellos que el espectador no nota conscientemente, pero que suelen costar millones producir.

4.4 Las Tensiones Culturales: La IA y la Apropiación de la Danza

El impacto de la IA también se extendió a las artes escénicas, planteando profundas cuestiones éticas sobre la apropiación cultural.

El Caso de la “Bird Dance”: Miembros de la tribu Cahuilla denunciaron los intentos de la IA de reproducir su danza tradicional. Los modelos, entrenados con vídeos de YouTube sin contexto, generaban imitaciones juzgadas “irrespetuosas” y desprovistas del significado espiritual original.

Amenaza sobre los Bailarines Comerciales: Los bailarines de apoyo para las estrellas del pop expresaron su temor de ser reemplazados por avatares generados u hologramas en los videoclips y conciertos.

Conclusión: Hacia una Realidad Sintética Híbrida

La trayectoria recorrida entre 2023 y 2026 es vertiginosa. Hemos pasado en tres años de vídeos borrosos de 4 segundos (Gen-2) a simulaciones físicas complejas, sonoras y coherentes (Sora 2, Gen-4).

Tres Enseñanzas Mayores

La Victoria de la Simulación sobre la Animación: El enfoque arquitectónico ganador (DiT + Spacetime Patches) trata el vídeo como una simulación de mundo. Los modelos ya no buscan “animar imágenes”, buscan “comprender la física”. La iniciativa General World Models de Runway confirma que el objetivo final no es el cine, sino la creación de simuladores universales para la robótica, los videojuegos y la realidad virtual.
El Control es Rey: La potencia bruta de generación (Sora) no basta. Es la interfaz de control (Runway Director Mode, Act-Two) la que transforma la tecnología en herramienta profesional. La capacidad de dirigir la IA como se dirige a un actor o una cámara ha sido el factor decisivo de adopción.
La Hibridación Industrial: Los temores apocalípticos de un reemplazo total de Hollywood no se han materializado. En cambio, la industria se ha hibridado. Los actores humanos interpretan los papeles principales (protegidos por la SAG-AFTRA), mientras que la IA gestiona los decorados, las multitudes y las destrucciones. La IA se ha convertido en el “pincel infinito” de los VFX, reduciendo los costes de producción sin eliminar la necesidad de visión artística humana.

La Pregunta de 2027

Al alba de 2027, la pregunta ya no es “¿puede la IA crear vídeo?”, sino “¿qué parte de nuestra realidad visual será ahora sintética?”.

Con la democratización de herramientas como Act-Two, la barrera entre el creador amateur y el estudio profesional se ha derrumbado, prometiendo una nueva era de narración visual donde el único límite restante es, literalmente, la imaginación.

Publicado el 28 de marzo de 2026