Em abril passado, uma startup de Nova York chamada Runway AI revelou uma tecnologia que permite às pessoas criar vídeos, como uma vaca em uma festa de aniversário ou um cachorro falando em um smartphone, simplesmente digitando uma frase em uma caixa na tela do computador.
Os vídeos de quatro segundos estavam borrados, entrecortados, distorcidos e irritantes. Mas foi um sinal claro de que as tecnologias de IA irão gerar vídeos cada vez mais atraentes nos próximos meses e anos.
Apenas dez meses depois, a startup OpenAI de São Francisco revelou um sistema semelhante que cria vídeos que parecem ter sido retirados de um filme de Hollywood. A manifestação incluiu vídeos curtos – capturados em minutos – de mamutes peludos trotando por uma campina nevada, um monstro olhando para uma vela derretida e uma cena em uma rua de Tóquio aparentemente capturada por uma câmera que atravessava a cidade.
A OpenAI, empresa por trás do chatbot ChatGPT e do gerador de imagens estáticas DALL-E, está entre muitas empresas que correm para melhorar esse tipo de gerador de vídeo instantâneo, incluindo startups como Runway e gigantes da tecnologia como Google e Meta, dona do Facebook e Instagram. Esta tecnologia pode acelerar o trabalho de cineastas experientes, ao mesmo tempo que substitui completamente os artistas digitais menos experientes.
Também pode tornar-se uma forma rápida e barata de criar desinformação online, tornando mais difícil saber o que é real online.
“Estou absolutamente aterrorizado que este tipo de coisa tenha impacto numa eleição disputada por pouco”, disse Oren Etzioni, professor da Universidade de Washington especializado em inteligência artificial. Ele também é o fundador da True Media, uma organização sem fins lucrativos que trabalha para identificar desinformação online em campanhas políticas.
A OpenAI chama seu novo sistema de Sora, em homenagem à palavra japonesa para céu. A equipe por trás da tecnologia, incluindo os pesquisadores Tim Brooks e Bill Peebles, escolheu o nome porque “evoca a ideia de potencial criativo ilimitado”.
Em entrevista, disseram ainda que a empresa ainda não divulgou o Sora ao público porque ainda está trabalhando para entender os riscos do sistema. Em vez disso, a OpenAI está a partilhar a tecnologia com um pequeno grupo de académicos e outros investigadores externos que formarão uma “equipa vermelha”, um termo que se refere à procura de formas de abuso.
“A intenção aqui é dar uma ideia do que está por vir, para que as pessoas possam ver as capacidades desta tecnologia e possamos obter feedback”, disse o Dr. Brooks.
A OpenAI já coloca marcas d'água em vídeos produzidos pelo sistema que os identificam como gerados por IA, mas a empresa admite que podem ser removidas. Também pode ser difícil de detectar. (O New York Times adicionou marcas d'água “Gerado por IA” aos vídeos que contêm esta história.)
O sistema é um exemplo de IA generativa, que pode gerar texto, imagens e sons no local. Como outras tecnologias generativas de IA, o sistema OpenAI aprende analisando dados digitais – neste caso, vídeos e legendas que descrevem o que esses vídeos contêm.
A OpenAI se recusou a dizer quantos vídeos o sistema aprendeu ou de onde veio, exceto para dizer que o treinamento incluiu vídeos disponíveis publicamente e vídeos licenciados por detentores de direitos autorais. A empresa fala pouco sobre os dados usados para treinar sua tecnologia, provavelmente porque deseja manter uma vantagem sobre os concorrentes – e já foi processada diversas vezes por usar material protegido por direitos autorais.
(O New York Times processou a OpenAI e sua parceira, a Microsoft, em dezembro, alegando violação de direitos autorais em conteúdo de notícias relacionado a sistemas de IA.)
Sora cria vídeos em resposta a descrições curtas, como “um lindo mundo de recifes de coral feito de papel, cheio de peixes coloridos e criaturas marinhas”. Embora os vídeos possam ser impressionantes, nem sempre são perfeitos e podem incluir imagens estranhas e ilógicas. Por exemplo, o sistema gerou recentemente um vídeo de alguém comendo um biscoito – mas o biscoito nunca ficou menor.
DALL-E, Midjourney e outros geradores de imagens estáticas melhoraram tão rapidamente nos últimos anos que agora produzem imagens que são quase indistinguíveis das fotografias. Isto tornou mais difícil a identificação de desinformação online, e muitos artistas digitais queixam-se de que isso dificultou a procura de trabalho.
“Todos nós rimos em 2022, quando Midjourney foi lançado e dissemos: 'Oh, isso é fofo'”, disse Reid Southin, o artista conceitual do filme baseado em Michigan. “Agora as pessoas estão perdendo seus empregos para Midjourney.”
“Estudante amigável. Jogador certificado. Evangelista de mídia social. Fanático pela Internet. Cai muito. Futuro ídolo adolescente.”