Do Vídeo ao Modelo de Mundo: A Evolução da Runway e OpenAI Sora (2023-2026)

O período temporal que se estende de 2023 a 2026 constitui um marco na história da computação visual, assinalando a passagem da simples geração de imagens animadas para a simulação complexa de realidades físicas. Esta transição, frequentemente resumida pelo desvio semântico de “Texto-para-Vídeo” (Text-to-Video) para “Modelos de Mundo” (World Models), representa muito mais do que uma melhoria na resolução ou fluidez das imagens. Sinaliza a emergência de sistemas de inteligência artificial capazes de construir representações internas coerentes da física, da causalidade e da dinâmica temporal.

Este relatório técnico propõe uma crónica exaustiva desta evolução, focando-se nos dois atores que polarizaram o campo da investigação e da aplicação industrial: a Runway, a startup pioneira oriunda do mundo artístico nova-iorquino, e a OpenAI, o laboratório de investigação com vista à inteligência geral. Através da análise das suas arquiteturas técnicas respetivas — dos modelos de difusão latente aos transformadores de difusão (DiT) — e das suas estratégias de implementação, examinaremos como estas tecnologias impactaram de cheio a indústria centenária de Hollywood, redefinindo as noções de criatividade, trabalho e verdade visual.

I. Os Inícios Artísticos: A História da RunwayML

Para compreender a trajetória do vídeo generativo, é imperativo analisar as suas raízes. Ao contrário de uma ideia preconcebida, a revolução não começou pela geração ex nihilo, mas pela automatização das tarefas mais laboriosas da pós-produção tradicional. A RunwayML, fundada por Cristóbal Valenzuela, Anastasis Germanidis e Alejandro Matamala, não procurou inicialmente substituir a câmara, mas sim assistir o montador.

1.1 A Herança Utilitária: Do “Green Screen” à Compreensão Semântica

Antes de 2023, o estrangulamento principal dos efeitos visuais (VFX) residia no rotoscopia. Esta técnica, essencial para isolar um ator ou objeto do seu fundo de forma a inserir efeitos ou modificar o cenário, necessitava historicamente de uma intervenção manual imagem a imagem. Um designer teria de traçar curvas de Bézier em torno da silhueta de uma personagem, ajustando essas curvas a cada movimento, por mínimo que fosse. Era um processo dispendioso, lento e propenso a erro humano.

A introdução da ferramenta Green Screen pela Runway marcou uma primeira ruptura paradigmática. Ao basear-se em modelos de aprendizagem automática treinados para a segmentação semântica de vídeo, a Runway propôs uma abordagem em que o utilizador já não precisava de definir matematicamente curvas, mas simplesmente indicar semanticamente o objeto de interesse.

O funcionamento técnico do Green Screen baseava-se numa interação homem-máquina inovadora para a época:

Inicialização Semântica: O utilizador colocava alguns cliques no objeto a recortar (cliques de inclusão) e nas zonas a ignorar (cliques de exclusão) numa imagem-chave (keyframe).
Propagação Temporal: O modelo utilizava depois o fluxo ótico e a coerência das características visuais (cor, textura, forma) para propagar esta máscara ao longo de todo o clip de vídeo.
Refinamento Interativo: Se o modelo perdesse o objeto (por exemplo, durante uma oclusão ou movimento rápido), o utilizador podia intervir numa frame intermédia para corrigir, sendo o modelo recalculado então a trajetória da máscara em tempo real.

Esta etapa, embora não fosse “generativa” no sentido estrito (não criava novos pixels), foi fundamental por duas razões. Primeiro, permitiu à Runway constituir uma base de dados massiva sobre a forma como os humanos decidem e compreendem uma cena de vídeo. Segundo, validou a arquitetura técnica de uma plataforma web em tempo real capaz de processar fluxos de vídeo pesados, uma infraestrutura que se revelaria crítica para a futura implementação dos modelos Gen.

Resultado: A abordagem “assistida por IA” reduziu o tempo de rotoscopia de várias horas a alguns minutos, ancorando a Runway como parceira dos criativos em vez de substituta, uma filosofia que seria posta à prova com a chegada dos modelos generativos.

1.2 Gen-1: A Estrutura como Âncora da Realidade (Fevereiro 2023)

Em fevereiro de 2023, a Runway revelou o Gen-1, marcando oficialmente a entrada na era da síntese de vídeo neural. Nessa altura, a geração de imagens estáticas através de modelos como Midjourney ou Stable Diffusion já estava bem estabelecida, mas o vídeo permanecia um desafio maior devido à dimensão temporal. As tentativas ingénuas de aplicar modelos de imagem imagem a imagem resultavam num cintilação (flickering) insuportável, em que os objetos mudavam de identidade ou textura aleatoriamente a cada segundo.

O Gen-1 contornou este problema ao adotar uma abordagem Vídeo-para-Vídeo (Video-to-Video). Em vez de pedir ao modelo para alucinar tanto o movimento como a aparência, o Gen-1 utilizava um vídeo existente para fornecer a “estrutura” (o movimento, a profundidade, os contornos) e apenas gerava o “estilo” (a aparência, a textura).

Arquitetura e Modos de Funcionamento

Tecnicamente, o Gen-1 baseava-se em modelos de difusão latente (Latent Diffusion Models – LDM) modificados para aceitar um condicionamento estrutural forte. O modelo aprendia a mapear a estrutura geométrica do vídeo de entrada para o espaço latente do vídeo de saída, guiado por um prompt de texto ou uma imagem de referência.

Os modos do Gen-1 ilustram esta separação entre estrutura e estilo:

Modo	Descrição	Caso de uso
Modo 01 (Stylization)	Transferência de estilo puro	Transformar um vídeo em animação “cyberpunk” ou “pintura a óleo”
Modo 02 (Storyboard)	Renderização de animáticos 3D	Validar a iluminação e ambiente sem esperar pelo render final
Modo 03 (Mask)	Geração direcionada	Mudar um objeto específico sem alterar o fundo

Receção e Desempenho

Os estudos de utilizadores realizados pela Runway demonstraram uma preferência marcada pelos resultados do Gen-1:

73,53 % dos utilizadores preferiam o Gen-1 ao Stable Diffusion 1.5 aplicado imagem a imagem
88,24 % preferiam-nos ao Text2Live

Esta superioridade explicava-se pela coerência temporal: o Gen-1 não “adivinhava” o movimento, emprestava-o da realidade. No entanto, esta dependência era também a sua maior limitação: não se podia criar aquilo que não se conseguia filmar ou modelar grosseiramente de antemão.

1.3 Gen-2: O Salto no Vazio do Texto-para-Vídeo (Junho 2023)

A verdadeira ruptura conceptual ocorreu poucos meses depois, em junho de 2023, com o lançamento do Gen-2. O Anastasis Germanidis, CTO da Runway, descreveu este passo como a eliminação da necessidade de uma estrutura condicional. O Gen-2 foi o primeiro modelo comercial de grande público capaz de realizar Texto-para-Vídeo (Text-to-Video), ou seja, gerar uma sequência de vídeo animada a partir de uma simples frase, sem qualquer vídeo fonte.

O Desafio da “Geração Cega”

Passar do Gen-1 para o Gen-2 exigiu resolver um problema fundamental: como pode uma IA imaginar o movimento? No Gen-1, o movimento era dado. No Gen-2, tinha de ser alucinado de forma plausível. O modelo tinha de compreender não apenas como é um “gato”, mas como um gato se move, como o seu pelo reage à luz cambiante, e como a câmara virtual o deveria seguir.

Os primeiros resultados do Gen-2, embora impressionantes para 2023, traíam a dificuldade da tarefa:

Duração Limitada: Os clips estavam inicialmente restritos a 4 segundos. Para além disso, a coerência frequentemente desmoronava-se, os objetos transformando-se em papas abstratas.
Movimentos Oníricos: A física era frequentemente “líquida”. Os objetos não se deslocavam tanto como “escoavam” de um ponto A para um ponto B.
Falta de Controlo: O utilizador escrevia um prompt e esperava pelo melhor. Não havia forma de dizer “a câmara deve fazer um travelling para a frente”.

Apesar destes defeitos, o Gen-2 desencadeou uma explosão criativa. Permitiu a criação de “Trailers IA” virais (como as paródias de filmas à moda Wes Anderson), demonstrando um apetite massivo do público por esta nova forma de expressão.

Quadro Comparativo: Gen-1 vs Gen-2

Característica	Gen-1 (Fev 2023)	Gen-2 (Jun 2023)
Paradigma	Vídeo-para-Vídeo	Texto-para-Vídeo
Input Necessário	Vídeo fonte + Prompt/Imagem	Prompt (Texto) ou Imagem apenas
Coerência Temporal	Elevada (derivada da fonte)	Variável (frequentemente fraca no início)
Casos de Uso Principal	Estilização, Renderização de animático	Criação ex nihilo, Ideação
Arquitetura	Difusão Latente + Structure Guidance	Difusão Latente Multi-modal

II. O Choque Sora: Análise dos ‘Spacetime Patches’ e da Arquitetura DiT

Se 2023 foi o ano da experimentação com a Runway, o início de 2024 foi marcado por um sismo tecnológico. Em fevereiro, a OpenAI apresentou o Sora, um modelo que redefiniu instantaneamente o estado da arte. Enquanto o Gen-2 produzia clips curtos e desfocados, o Sora gerava sequências de um minuto em alta definição (1080p), com personagens múltiplos, movimentos de câmara complexos e uma persistência de objeto espantosa.

Este salto qualitativo não era fruto do acaso ou de uma simples aumento de poder de computação, mas o resultado de uma refundação arquitetural profunda documentada no relatório técnico “Video Generation Models as World Simulators”.

2.1 A Unificação dos Dados: A Revolução dos ‘Spacetime Patches’

A inovação central do Sora reside na sua forma de representar os dados visuais. As abordagens anteriores tratavam frequentemente o vídeo como uma sucessão rígida de imagens de tamanho fixo (ex: 256×256 pixels), o que limitava a qualidade e impunha recortes destrutivos. O Sora, pelo contrário, inspira-se diretamente nos Grandes Modelos de Linguagem (LLM) como o GPT-4.

Princípio fundamental: Tal como os LLM dividem o texto em “tokens” (símbolos), o Sora divide o vídeo em Spacetime Patches (Blocos Espaço-Temporais).

O Processo de Patchificação

Compressão Latente Espaço-Temporal: O vídeo bruto não é processado pixel a pixel. Passa primeiro por uma Video Compression Network (semelhante a um VAE) que reduz a sua dimensionalidade tanto no espaço como no tempo.
Extração de Blocos: Este volume latente é depois dividido em pequenos cubos. Cada cubo representa uma pequena porção da imagem (espaço) durante um curto período de tempo (tempo).
Linearização: Estes cubos são achatados numa longa sequência de vetores, exatamente como uma frase é uma sequência de palavras.

As Vantagens Críticas deste Método

Independência de Resolução e Rácio: O Sora pode ser treinado em vídeos de qualquer tamanho (Widescreen 1920×1080, Vertical 1080×1920, Quadrado). Já não é necessário recortar tudo para quadrado.
Escalabilidade: Este método permite aplicar as técnicas de treino massivas dos LLM ao vídeo. Quanto mais dados e computação se adicionam, melhor o modelo fica, seguindo leis de escala (scaling laws) previsíveis.

2.2 A Arquitetura DiT: Quando o Transformer Substitui a U-Net

Uma vez o vídeo transformado em sopa de blocos, como gerar novos conteúdos? É aqui que entra a arquitetura Diffusion Transformer (DiT). Historicamente, os modelos de difusão (como o Stable Diffusion) utilizavam uma arquitetura chamada U-Net para o processo de remoção de ruído. Embora eficaz para imagens, a U-Net gere mal as dependências complexas de longo alcance necessárias para vídeo coerente.

O Sora utiliza um Transformer standard como espinha dorsal (backbone) de difusão.

O Mecanismo de Atenção Global

A força do Transformer reside no seu mecanismo de atenção. Numa frase, permite ligar um pronome a um nome citado três parágrafos antes. Numa vídeo, o DiT permite ao Sora ligar um bloco no início do vídeo (t=0s) a um bloco no final (t=60s).

A Permanência do Objeto: Graças a esta atenção global, o modelo “recorda” dos objetos. Se um homem passar atrás de um pilar, o modelo sabe que deve sair do outro lado com as mesmas roupas e o mesmo rosto, pois os blocos “antes” e “depois” da oclusão estão ligados na rede de atenção.

2.3 Emergência da Simulação e Limites Físicas

O relatório técnico da OpenAI faz uma afirmação audaciosa: ao aumentar a escala do treino, capacidades de simulação emergem espontaneamente, sem terem sido explicitamente programadas.

Coerência 3D Implícita: O Sora gera movimentos de câmara dinâmicos onde a perspetiva muda corretamente (paralaxe), como se a cena existisse realmente em 3D.
Simulação de Mundos Digitais: O exemplo mais marcante foi a capacidade do Sora em simular o videojogo Minecraft. Alimentado com vídeos de gameplay, o modelo aprendeu a gerar não apenas os gráficos, mas também a lógica do jogo.

No entanto, o Sora (v1) não era perfeito. O modelo sofria de alucinações físicas notáveis: um copo que cai sem se partir, uma pessoa que come uma bolacha sem que a marca da mordida apareça.

2.4 Sora 2: O Refinamento (Setembro 2025)

Em setembro de 2025, a OpenAI lançou o Sora 2. Esta iteração visou colmatar as lacunas da primeira versão:

Áudio Sincronizado: Geração conjunta de áudio (passos, vozes, ambientes) sincronizado com a ação visual.
Edição e Remix: Funcionalidades de “Remix” permitindo modificar elementos específicos sem recalcular tudo.
Segurança e Proveniência: Filigranas C2PA robustos e filtros de segurança reforçados.

III. O Controlo Temporal: A Evolução das Ferramentas de Câmara Virtual

Se a qualidade de imagem do Sora deslumbrou o grande público, os profissionais de imagem levantaram imediatamente um problema crítico: a falta de controlo. Gerar um bonito vídeo aleatório é inútil para contar uma história precisa. O período 2024-2026 foi, portanto, marcado por uma corrida desenfreada em direção à “controlabilidade” (controllability).

3.1 Da Lotaria ao Pilotagem: Motion Brush e Director Mode

No início da era generativa, o utilizador escrevia um prompt e esperava que o resultado correspondesse à sua visão. Era a era da “máquina de sorte” (slot machine approach). A Runway foi a primeira a compreender que, para ser adotada pela indústria, a IA tinha de tornar-se uma ferramenta pilotável.

O Motion Brush (Pincel de Movimento)

Lançado no início de 2024, o Motion Brush introduziu o controlo local. Em vez de deixar a IA decidir o que se move, o utilizador podia “pintar” uma zona da imagem e definir uma direção e intensidade de movimento.

Exemplo de aplicação: Numa tomada fixa de um homem a olhar para o mar, um realizador podia imobilizar o homem (imóvel), fazer as ondas moverem-se para a direita (velocidade média) e fazer as nuvens avançarem em direção à câmara (velocidade lenta).

O Director Mode (Modo Realizador)

Para os movimentos de câmara, a Runway introduziu o Director Mode. Esta ferramenta substituiu as palavras-chave vagas (“zoom in”) por controlos paramétricos precisos simulando uma câmara física:

Zoom
Pan (Panorâmica)
Tilt (Inclinação)
Roll (Rolamento)

3.2 O Santo Graal: A Coerência das Personagens

O maior obstáculo à narração de longa duração permanecia a inconstância das personagens. Numa filme tradicional, o Brad Pitt parece o Brad Pitt do primeiro ao último plano. Nos vídeos IA de 2023, o protagonista podia mudar de rosto, de roupa, ou mesmo de idade, entre dois planos sucessivos.

Com o Gen-4 (Março 2025), a Runway fez da “Coerência Infinita das Personagens” o seu estandarte de armas.

Mecanismo de Ancoragem de Identidade: O Gen-4 permitia importar uma única imagem de referência de uma personagem. O modelo bloqueava então as características semânticas deste rosto no seu espaço latente.

Resultados: Podia-se gerar uma sequência em que esta personagem passava de uma cena noturna sob chuva para uma cena diurna em interior, mudando de expressão emocional, permanecendo indubitavelmente a mesma pessoa.

3.3 Lipsync e Act-Two: O Fim da Mocap Tradicional?

A animação facial e o diálogo eram os últimos bastiões da complexidade. Os primeiros ferramentas de lipsync limitavam-se a deformar a parte inferior do rosto de uma imagem fixa para corresponder a uma faixa de áudio, criando um efeito “marioneta” pouco convincente.

No final de 2024, a Runway lançou o Act-Two, um modelo de captura de performance generativa (Generative Motion Capture) que revolucionou a indústria da animação.

O Conceito “Driving Video”: Em vez de utilizar fato de captura de movimento (Mocap) dispendiosos com marcadores refletores, o Act-Two permitia utilizar uma simples vídeo de um ator (filmado com um smartphone) para pilotar uma personagem gerada.

Transferência de Performance Nuanceada: O modelo capturava as micro-expressões, as contrações dos olhos, as inclinações de cabeça e até a gestualidade das mãos. Transferia depois esta “alma” da performance para um modelo alvo com uma fidelidade emocional que rivalizava com as produções de Hollywood.

Quadro: A Evolução das Ferramentas de Controlo

Ferramenta	Problema Resolvido	Ano de Maturidade
Motion Brush	Controlo específico do movimento de objetos	2024
Director Mode	Movimentos de câmara precisos e cinematográficos	2024
Gen-4 Character Consistency	Manutenção da identidade do ator em vários planos	2025
Act-Two	Animação facial e corporal realista sem Mocap	2025

IV. O Impacto Hollywoodiano: As Greves, os Acordos e a Adoção

A chegada destas tecnologias não ocorreu num vazio económico ou social. Impactou de cheio as estruturas sindicais, jurídicas e financeiras de Hollywood, desencadeando uma crise existencial para as profissões da criação.

4.1 As Greves de 2023: A Primeira Linha de Defesa Humana

O ano de 2023 permanecerá gravado como o da “Dupla Greve” histórica dos argumentistas (WGA) e atores (SAG-AFTRA). Se os salários e os residuais do streaming eram questões principais, a IA generativa impôs-se como o ponto de fricção mais futurista e angustiante.

O Medo da Substituição e das Réplicas Digitais

Argumentistas (WGA): O medo principal era que os estúdios utilizassem LLM para gerar argumentos completos, apenas recontratando argumentistas humanos para “polir” ou “reescrever” o texto gerado pela máquina.
Atores (SAG-AFTRA): O espetro das “Digital Replicas” (Réplicas Digitais) perseguia as negociações. Os atores temiam ser digitalizados uma única vez e os estúdios utilizarem depois a sua imagem e voz perpetuamente.

Os Acordos de Outubro 2023: Salvaguardas Históricas

As greves terminaram em vitórias significativas para os sindicatos:

A IA como Ferramenta, não como Autor: O acordo da WGA estipula que a IA não pode ser creditada como argumentista. Um estúdio não pode obrigar um argumentista a utilizar IA.
Consentimento e Compensação para Réplicas: O acordo da SAG-AFTRA exige o consentimento explícito do ator para a criação de qualquer réplica digital. A utilização deve ser remunerada como se o ator tivesse trabalhado fisicamente.

4.2 O Fracasso do “Modelo Estúdio”: O Caso Lionsgate (2024-2025)

Em setembro de 2024, o estúdio Lionsgate anunciou uma parceria retumbante com a Runway, esperando capitalizar a tecnologia enquanto contornava os problemas de direitos de autor.

O Acordo: A Lionsgate abriu o seu cofre — acesso exclusivo ao seu catálogo completo (John Wick, Hunger Games, Twilight, American Psycho) para treinar um modelo IA personalizado.

No entanto, em setembro de 2025, relatórios qualificaram esta parceria de “desastre em câmara lenta” (slowly unfolding disaster):

O Problema da “Escassez de Dados”: Mesmo o catálogo de um grande estúdio é insuficiente para treinar um modelo de vídeo de classe mundial. Os modelos como o Sora aprendem física ingerindo milhares de milhões de vídeos de toda a internet.
O Impasse Jurídico: Se a IA gera uma cena sem intervenção humana significativa, essa cena é protegida por copyright? Os especialistas inclinavam-se para o não.

4.3 O Sucesso Silencioso: A Netflix e os VFX Invisíveis

Se o fantasma de “gerar um filme completo” falhou na Lionsgate, a integração pragmática triunfou na Netflix. Em 2025, a plataforma confirmou a utilização da IA generativa para planos finais na série argentina The Eternaut.

O Caso de Uso: Uma sequência complexa de colapso de edifício e ambientes pós-apocalípticos. Tradicionalmente, isto teria necessitado de simulações físicas dispendiosas e semanas de renderização.

O Argumento Económico: O Ted Sarandos, co-CEO da Netflix, afirmou que a utilização da IA permitiu realizar a sequência “10 vezes mais rápido” e por um custo irrisório.

A verdadeira revolução: A IA não substitui (ainda) os atores principais. Substitui as texturas, os fundos, as multidões e as destruições. Infiltra-se nos “pixels invisíveis”, aqueles que o espectador não nota conscientemente, mas que normalmente custam milhões a produzir.

4.4 As Tensões Culturais: A IA e a Apropriação da Dança

O impacto da IA estendeu-se também às artes performativas, levantando questões éticas profundas sobre a apropriação cultural.

O Caso da “Bird Dance”: Membros da tribo Cahuilla denunciaram as tentativas da IA em reproduzir a sua dança tradicional. Os modelos, treinados em vídeos YouTube sem contexto, geravam imitações consideradas “irrespeitosas” e despidas do significado espiritual original.

Ameaça sobre os Dançarinos Comerciais: Os dançarinos de apoio para as estrelas da pop expressaram o seu medo de serem substituídos por avatares gerados ou hologramas nos clips e concertos.

Conclusão: Para uma Realidade Sintética Híbrida

A trajetória percorrida entre 2023 e 2026 é vertiginosa. Passámos em três anos de vídeos desfocados de 4 segundos (Gen-2) para simulações físicas complexas, sonoras e coerentes (Sora 2, Gen-4).

Três Ensinamentos Maiores

A Vitória da Simulação sobre a Animação: A abordagem arquitetural vencedora (DiT + Spacetime Patches) trata o vídeo como uma simulação de mundo. Os modelos já não procuram “animar imagens”, procuram “compreender a física”. A iniciativa General World Models da Runway confirma que o objetivo final não é o cinema, mas a criação de simuladores universais para robótica, videojogos e realidade virtual.
O Controlo é Rei: A potência bruta de geração (Sora) não é suficiente. É a interface de controlo (Runway Director Mode, Act-Two) que transforma a tecnologia numa ferramenta profissional. A capacidade de dirigir a IA como se dirige um ator ou uma câmara foi o fator decisivo de adoção.
A Hibridez Industrial: Os medos apocalípticos de uma substituição total de Hollywood não se materializaram. Em vez disso, a indústria hibidizou-se. Os atores humanos interpretam os papéis principais (protegidos pela SAG-AFTRA), enquanto a IA gere os cenários, as multidões e as destruições. A IA tornou-se o “pincel infinito” dos VFX, reduzindo os custos de produção sem eliminar a necessidade de visão artística humana.

A Questão de 2027

À alvorada de 2027, a questão já não é “a IA pode criar vídeo?”, mas “que parte da nossa realidade visual será doravante sintética?”.

Com a democratização das ferramentas como o Act-Two, a barreira entre o criador amador e o estúdio profissional desmoronou-se, prometendo uma nova era de narração visual onde a única limitação remanescente é, literalmente, a imaginação.

Publicado a 28 de março de 2026