O novo modelo de IA do Google para geração de vídeo Lumière Um é usado Um novo modelo de difusão é chamado Space-Time-U-Net, ou STUNet, que determina onde estão os objetos no vídeo (espaço) e como eles se movem e mudam ao mesmo tempo (tempo). Ars Técnica Este método permite que Lumiere crie o vídeo em um único processo, em vez de unir quadros estáticos menores, observa este método.
Lumiere começa criando um quadro básico a partir do vetor. Em seguida, ele usa a estrutura STUNet para começar a aproximar onde os objetos se moverão dentro desse quadro para criar mais quadros que fluem uns para os outros, criando a aparência de movimento suave. O Lumiere também cria 80 quadros em comparação com 25 quadros do Stable Video Diffusion.
Reconheço que sou mais um repórter de texto do que uma pessoa de vídeo, mas o comunicado à imprensa do Google, junto com um artigo científico pré-impresso, mostra que as ferramentas de criação e edição de vídeo com IA passaram de um vale misterioso para quase real em apenas alguns anos . Também estabelece a tecnologia do Google em um espaço já ocupado por concorrentes como Runway, Stable Video Diffusion ou Meta's Emu. Runway, uma das primeiras plataformas de texto para vídeo produzidas em massa, lançou Runway Gen-2 em março do ano passado e começou a oferecer vídeos mais realistas. Os vídeos das passarelas também têm dificuldade em capturar a ação.
O Google teve a gentileza de colocar os clipes e as instruções no site do Lumiere, permitindo-me colocar as mesmas instruções na Runway para comparação. Aqui estão os resultados:
Sim, alguns dos clipes apresentados têm um toque industrial, principalmente se você observar atentamente a textura da pele ou se a cena for mais atmosférica. mas Olha aquela tartaruga! Ela se move como uma tartaruga na água! Parece uma tartaruga de verdade! Enviei o vídeo de introdução do Lumiere para um amigo que é editor de vídeo profissional. Embora ela tenha notado que “você pode dizer claramente que isso não é bem real”, ela achou impressionante que se eu não lhe dissesse que era IA, ela pensaria que era CGI. (Ela também disse: “Isso tiraria meu emprego, não é?”)
Outros modelos unem videoclipes a partir de quadros-chave gerados onde a ação realmente ocorreu (pense em desenhos em um livro de papel), enquanto o STUNet permite que Lumiere se concentre na ação em si com base em onde o conteúdo gerado deveria estar no momento específico do vídeo.
O Google não tem sido um grande player na categoria de texto para vídeo, mas aos poucos lançou modelos de IA mais avançados e mudou para um foco multimídia. Seu Gemini Grand Language Model acabará por trazer a geração de imagens para o Bardo. O Lumiere ainda não está disponível para teste, mas mostra a capacidade do Google de desenvolver uma plataforma de vídeo de IA que seja comparável – e possivelmente um pouco melhor – aos geradores de vídeo de IA geralmente disponíveis, como Runway e Pika. E só para constar, foi aqui que o Google estava com o vídeo de IA alguns anos atrás.
Além de criar conversão de texto para vídeo, o Lumiere também permitirá a criação de conversão de imagem para vídeo, criação estilizada, permitindo aos usuários criar vídeos em um estilo específico, gráficos cinematográficos que animam apenas parte do vídeo e desenho para mascare uma área do vídeo para alterar a cor ou estilo.
No entanto, o estudo do Google Lumiere observou que “existe o risco de abuso na criação de conteúdo falso ou malicioso usando nossa tecnologia, e acreditamos que é essencial desenvolver e implementar ferramentas para detectar preconceitos e instâncias de uso malicioso para garantir uma experiência segura e justa”. .” é usado.” Os autores do artigo não explicaram como isso poderia ser alcançado.