sexta-feira, novembro 22, 2024

O novo gerador de imagens de IA da OpenAI ultrapassa os limites com detalhes e resolução rápidos – Ars Technica

Deve ler

Na quarta-feira, OpenAI Anunciar DALL-E 3, a versão mais recente do modelo de síntese de imagens AI que apresenta integração total com ChatGPT. O DALL-E 3 exibe imagens seguindo de perto descrições complexas e lidando com a criação de texto dentro da imagem (como rótulos e tags), o que é um desafio para os modelos anteriores. Atualmente em visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.

Assim como seu antecessor, o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado nenhum detalhe técnico sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas das quais são licenciadas em estoque. sites como o Shutterstock. O DALL-E 3 provavelmente segue a mesma fórmula, mas com novas técnicas de treinamento e maior tempo de treinamento computacional.

A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de fotomontagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido cuidadosamente escolhidos por sua eficácia, eles parecem seguir instruções rápidas de maneira fiel e convincente para renderizar objetos com distorções mínimas. Comparado ao DALL-E 2, a OpenAI afirma que o DALL-E 3 otimiza pequenos detalhes, como mãos, de forma mais eficaz, criando imagens virtualmente atraentes sem a necessidade de hacking ou engenharia rápida.

Em comparação, Midjourney, um modelo concorrente de síntese de imagem de IA de outro fornecedor, exibe bem detalhes realistas, mas ainda requer uma quantidade significativa de ajustes não intuitivos com prompts para obter qualquer controle sobre a saída da imagem.

READ  Kuo: Apenas os modelos do iPhone 14 Pro recebem chip 'A16', modelos padrão para manter o A15

O DALL-E 3 também parece lidar com texto dentro de imagens de uma forma que seus antecessores não conseguiam (alguns modelos concorrentes como o Stable Diffusion XL e Deep Floyd Eles ficam melhores nisso.) Por exemplo, um desenho de abacate com a citação do personagem foi perfeitamente criado, uma mensagem incluindo as palavras: “Ilustração de um abacate sentado na cadeira de um terapeuta dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de uma cratera no meio. ” Encapsulado em um balão de fala.

Notavelmente, a OpenAI diz que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo melhorias conversacionais nas imagens de uma forma que usa o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de criar imagens em chat desde março.

O bule que criou a tempestade

Imagem gerada pela inteligência artificial do DALL-E 3
Mais Zoom / Imagem DALL-E 3 gerada por IA de “uma renderização 3D de uma xícara de café colocada no parapeito de uma janela durante um dia de vento. A tempestade fora da janela é refletida no café, com relâmpagos em miniatura e ondas turbulentas visíveis dentro da xícara. A sala está mal iluminada, aumentando a atmosfera dramática.”

OpenAI

A versão original do DALL-E apareceu em janeiro de 2021, e OpenAI lançou sua sequência dramaticamente mais capaz em abril de 2022, lançando uma nova era de imagens geradas por IA com um alarde tão incrível que cativou seus testadores beta fechados iniciais. Os modelos DALL-E usam uma tecnologia chamada Propagação latente Isso refina o ruído em imagens que “reconhece” a partir do conhecimento que obtém com o treinamento no conjunto de dados e a orientação do vetor. A mesma tecnologia permitiu que o modelo de peso aberto Stable Diffusion surgisse em agosto do ano passado.

READ  Como os músicos de jazz e empresários passam seus domingos

Dada a forma como o DALL-E aprende conceitos sobre imagens em treinamento, explorando um enorme conjunto de dados de obras de arte geradas por humanos, a tecnologia de geração de imagens de IA tem sido altamente controversa desde sua introdução no ano passado. A tecnologia gerou protestos de artistas que temem que ela substitua ou reproduza de forma antiética seus métodos, processos judiciais por violação de direitos autorais com base em imagens roubadas usadas como dados de treinamento sem consultar os detentores de direitos autorais e novas decisões de direitos autorais do Copyright Office. . Juiz do Tribunal Distrital.

Em homenagem a essas controvérsias, a OpenAI afirma que o DALL-E 3 foi projetado para rejeitar solicitações que solicitem uma imagem no estilo de um artista ao vivo. OpenAI também Fornece um modelo Os criadores podem optar por não ter suas imagens usadas para treinar modelos futuros. Parece improvável que estas medidas satisfaçam os artistas que normalmente acreditam que o treinamento em IA deveria ser apenas opcional, em vez de incluído em conjuntos de dados de imagens por padrão.

Comparação entre
Mais Zoom / Comparação de “Uma expressiva pintura a óleo de um jogador de basquete mergulhando, retratada como uma explosão de nebulosa” criada por DALL-E 2 (esquerda) e DALL-E 3 (direita).

OpenAI

Atualmente, a política de direitos autorais dos EUA afirma que apenas obras de arte criadas por IA não podem receber proteção de direitos autorais, portanto, tecnicamente, qualquer imagem criada com DALL-E 3 cairia em domínio público. Embora a OpenAI não reconheça isso explicitamente, ela diz que “as imagens que você cria com o DALL-E 3 são suas para uso e não precisam de nossa permissão para reimprimi-las, vendê-las ou comercializá-las”. Esta é uma mudança marcante em relação ao ano passado, quando OpenAI Uso restrito da imagem DALE-2 Baseado em uma licença que afirma que a OpenAI “é dona de todas as gerações”.

READ  O suporte real para Markdown está chegando ao Google Docs, e não tão cedo

Em termos de segurança, a OpenAI afirma que, assim como o DALL-E 2, implementou filtros de detecção de palavras-chave e imagens no DALL-E 3 para limitar sua capacidade de produzir conteúdo violento, sexual ou de ódio. O sistema também está programado para rejeitar solicitações que gerem fotos de figuras públicas pelo nome, o que causou problemas com o gerador de fotos rival Midjourney, alimentado por IA, quando criou fotos falsas de prisão de Donald Trump.

A OpenAI afirma que trabalhou com especialistas conhecidos como “Equipe Vermelha” para identificar e mitigar riscos potenciais, como preconceitos prejudiciais ou geração de propaganda e desinformação. OpenAI não ofereceu nenhuma palavra sobre o potencial de sua ferramenta para fazer isso Dobre o recorde histórico Porém, com insultos mal disfarçados, ele diz que está experimentando uma ferramenta de “classificador de origem” que pode ajudar a determinar se uma imagem foi criada pelo DALL-E 3 ou não.

No momento, ainda não temos acesso ao DALL-E 3 para testá-lo, mas a OpenAI diz que o gerador de imagens de IA está em testes fechados. Ela planeja disponibilizá-lo para clientes ChatGPT Plus e Enterprise “em outubro por meio da API e no Labs no final deste outono”.

Últimos artigos