Tecnologia

A nova IA de geração de vídeo da Runway, Gen-3, oferece controles aprimorados

A corrida por vídeos de alta qualidade gerados por IA está esquentando.

Na segunda-feira, Pistauma empresa que desenvolve ferramentas generativas de IA voltadas para criadores de conteúdo de filmes e imagens, revelado Gen-3 Alpha, seu mais recente modelo de IA para gerar videoclipes a partir de descrições de texto e imagens estáticas. Runway diz que o Gen-3 oferece uma “grande” melhoria na velocidade de geração e fidelidade em relação ao modelo de vídeo carro-chefe anterior da Runway, Geração 2bem como controles refinados sobre a estrutura, estilo e movimento dos vídeos que ele cria.

Gen-3 estará disponível nos próximos dias para assinantes da Runway, incluindo clientes corporativos e empresas do programa de parceiros criativos da Runway.

“A Gen-3 Alpha é excelente na geração de personagens humanos expressivos com uma ampla gama de ações, gestos e emoções”, escreve a Runway em um post em seu blog. “Ele foi projetado para interpretar uma ampla gama de estilos e terminologia cinematográfica [and enable] transições imaginativas e enquadramento preciso dos elementos da cena.”

Gen-3 Alpha tem suas limitações, talvez a mais óbvia delas seja que sua filmagem atinge no máximo 10 segundos de duração. No entanto, o cofundador da Runway, Anastasis Germanidis, promete que o Gen-3 é apenas o primeiro – e o menor – de vários modelos de geração de vídeo a entrar em uma família de modelos de próxima geração treinados em infraestrutura atualizada.

“O modelo pode lutar com interações complexas de personagens e objetos, e as gerações nem sempre seguem as leis da física com precisão”, disse Germanidis ao TechCrunch esta manhã em uma entrevista. “Esta implementação inicial suportará gerações de alta resolução de 5 e 10 segundos, com tempos de geração visivelmente mais rápidos do que o Gen-2. Um clipe de 5 segundos leva 45 segundos para ser gerado e um clipe de 10 segundos leva 90 segundos para ser gerado.”

O Gen-3 Alpha, como todos os modelos de geração de vídeo, foi treinado em um grande número de exemplos de vídeos – e imagens – para que pudesse “aprender” os padrões nesses exemplos para gerar novos clipes. De onde vieram os dados de treinamento? A pista não diria. Poucos fornecedores de IA generativa oferecem essas informações hoje em dia, em parte porque veem os dados de treinamento como uma vantagem competitiva e, portanto, mantêm-nos, bem como as informações relacionadas a eles, sob controle.

“Temos uma equipe de pesquisa interna que supervisiona todo o nosso treinamento e usamos conjuntos de dados internos selecionados para treinar nossos modelos”, disse Germanidis – e deixou por isso mesmo.

Uma amostra do modelo Gen-3 da Runway. Observe que o borrão e a baixa resolução são provenientes de uma ferramenta de conversão de vídeo para GIF usada pelo TechCrunch, não da Gen-3.
Créditos da imagem: Pista

Os detalhes dos dados de treinamento também são uma fonte potencial de ações judiciais relacionadas à PI se o fornecedor treinasse com dados públicos, incluindo dados protegidos por direitos autorais, da web – e, portanto, outro desincentivo para revelar muita coisa. Diversos casos percorrendo os tribunais rejeitam os fornecedores defesas de dados de treinamento de uso justoargumentando que as ferramentas generativas de IA reproduzem os estilos dos artistas sem a permissão dos artistas e permitem que os usuários gerem novos trabalhos semelhantes aos originais dos artistas, pelos quais os artistas não recebem pagamento.

Na postagem do blog anunciando o Gen-3 Alpha, a Runway aborda um pouco a questão dos direitos autorais, dizendo que consultou artistas no desenvolvimento do modelo. (Quais artistas? Não está claro.) Isso reflete o que Germanidis me disse durante um serão na conferência Disrupt do TechCrunch em 2023:

“Estamos trabalhando em estreita colaboração com os artistas para descobrir quais são as melhores abordagens para resolver isso”, disse ele. “Estamos explorando várias parcerias de dados para podermos crescer ainda mais… e construir a próxima geração de modelos.”

Na postagem do blog, a Runway também diz que planeja lançar o Gen-3 com um novo conjunto de salvaguardas, incluindo um sistema de moderação para bloquear tentativas de gerar vídeos a partir de imagens protegidas por direitos autorais e conteúdo que não esteja de acordo com os termos de serviço da Runway. Também está em desenvolvimento um sistema de proveniência – compatível com o padrão C2PA, que é apoiado pela Microsoft, Adobe, OpenAI e outros – para identificar se os vídeos vieram da Gen-3.

“Nosso novo e aprimorado sistema interno de moderação visual e de texto emprega supervisão automática para filtrar conteúdo impróprio ou prejudicial”, disse Germanidis. “A autenticação C2PA verifica a procedência e autenticidade da mídia criada com todos os modelos Gen-3. À medida que aumentam as capacidades do modelo e a capacidade de gerar conteúdo de alta fidelidade, continuaremos a investir significativamente em nossos esforços de alinhamento e segurança.”

Pista Gen-3
Créditos da imagem: Pista

Na postagem de hoje, a Runway também revelou que fez parceria e colaborou com “organizações líderes de entretenimento e mídia” para criar versões personalizadas do Gen-3 que permitem personagens mais “estilisticamente controlados” e consistentes e atendem a “requisitos artísticos e narrativos específicos”. A empresa acrescenta: “Isso significa que os personagens, cenários e elementos gerados podem manter uma aparência e comportamento coerentes em várias cenas”.

Um grande problema não resolvido com modelos de geração de vídeo é o controle – ou seja, conseguir um modelo para gerar vídeo consistente alinhado com as intenções artísticas do criador. Como meu colega Devin Coldewey escreveu recentemente, questões simples no cinema tradicional, como escolher uma cor nas roupas de um personagem, exigem soluções alternativas com modelos generativos porque cada cena é criada independentemente das outras. Às vezes, nem mesmo soluções alternativas resolvem o problema – deixando um extenso trabalho manual para os editores.

A Runway, que arrecadou mais de US$ 236,5 milhões de investidores, incluindo Google (que possui créditos de computação em nuvem) e Nvidia, bem como VCs como Amplify Partners, Felicis e Coatue, alinhou-se estreitamente com a indústria criativa à medida que seus investimentos em geração A tecnologia de IA cresce. A Runway opera a Runway Studios, uma divisão de entretenimento que atua como parceira de produção para clientes empresariais, e hospeda o AI Film Festival, um dos primeiros eventos dedicados à exibição de filmes produzidos total ou parcialmente por IA.

Mas a competição está ficando mais acirrada.

Pista Gen-3
Créditos da imagem: Pista

Startup de IA generativa Luma na semana passada anunciado Dream Machine, um gerador de vídeo que se tornou viral por sua aptidão para animar memes. E apenas alguns meses atrás, a Adobe revelado que está desenvolvendo seu próprio modelo de geração de vídeo treinado no conteúdo de sua biblioteca de mídia Adobe Stock.

Em outros lugares, existem titulares como o OpenAI Sora, que permanece estritamente fechado, mas que a OpenAI tem semeado com agências de marketing e diretores de filmes independentes e de Hollywood. (OpenAI CTO Mira Murati esteve presente no Festival de Cinema de Cannes de 2024.) O Tribeca Festival deste ano – que também tem parceria com a Runway para fazer a curadoria de filmes feitos com ferramentas de IA – apresentou curtas-metragens produzidos com Sora por diretores que tiveram acesso antecipado.

O Google também colocou seu modelo de geração de imagens, Eu vejonas mãos de criadores selecionados, incluindo Donald Glover (também conhecido como Childish Gambino) e sua agência criativa Gilga, enquanto trabalha para trazer o Veo para produtos como o YouTube Shorts.

Seja qual for a forma como as várias colaborações acontecem, uma coisa está ficando clara: as ferramentas generativas de vídeo de IA ameaçam derrubar a indústria cinematográfica e televisiva como a conhecemos.

Pista Gen-3
Créditos da imagem: Pista

O cineasta Tyler Perry disse recentemente que ele suspendeu uma expansão planejada de US$ 800 milhões de seu estúdio de produção depois de ver o que Sora poderia fazer. Joe Russo, diretor de filmes de sustentação da Marvel como “Vingadores: Ultimato”, prevê que dentro de um ano, a IA será capaz de criar um filme completo.

Um 2024 estudar encomendado pelo Animation Guild, um sindicato que representa animadores e cartunistas de Hollywood, descobriu que 75% das produtoras de filmes que adotaram a IA reduziram, consolidaram ou eliminaram empregos após incorporarem a tecnologia. O estudo também estima que, até 2026, mais de 100 mil empregos no setor de entretenimento nos EUA serão interrompidos pela IA generativa.

Serão necessárias proteções trabalhistas muito fortes para garantir que as ferramentas de geração de vídeo não sigam os passos de outras tecnologias de IA generativa e levem a declínios acentuados na demanda por trabalho criativo.

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button