O novo gerador de imagens de IA da OpenAI ultrapassa os limites com detalhes e resolução rápidos

Na quarta-feira, OpenAI Anunciar DALL-E 3, a versão mais recente do modelo de síntese de imagens AI que apresenta integração total com ChatGPT. O DALL-E 3 exibe imagens seguindo de perto descrições complexas e lidando com a criação de texto dentro da imagem (como rótulos e tags), o que é um desafio para os modelos anteriores. Atualmente em visualização de pesquisa, estará disponível para clientes ChatGPT Plus e Enterprise no início de outubro.

Assim como seu antecessor, o DALLE-3 é um gerador de texto para imagem que cria novas imagens com base em descrições escritas chamadas prompts. Embora a OpenAI não tenha divulgado nenhum detalhe técnico sobre o DALL-E 3, o modelo de IA no centro das versões anteriores do DALL-E foi treinado em milhões de imagens criadas por artistas e fotógrafos humanos, algumas das quais são licenciadas em estoque. sites como o Shutterstock. O DALL-E 3 provavelmente segue a mesma fórmula, mas com novas técnicas de treinamento e maior tempo de treinamento computacional.

A julgar pelos exemplos fornecidos pela OpenAI em seu blog promocional, o DALL-E 3 parece ser um modelo de fotomontagem radicalmente mais capaz do que qualquer outro disponível em termos de seguir instruções. Embora os exemplos do OpenAI tenham sido cuidadosamente escolhidos por sua eficácia, eles parecem seguir instruções rápidas de maneira fiel e convincente para renderizar objetos com distorções mínimas. Comparado ao DALL-E 2, a OpenAI afirma que o DALL-E 3 otimiza pequenos detalhes, como mãos, de forma mais eficaz, criando imagens virtualmente atraentes sem a necessidade de hacking ou engenharia rápida.

Imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Ilustração de um abacate sentado na cadeira de um terapeuta dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de um buraco no meio. Terapeuta, colher, rabisca notas.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Uma vasta paisagem feita inteiramente de carnes diferentes se espalha diante do observador. Colinas finas e suculentas de rosbife, árvores de coxas de frango, rios de bacon e pedras de porco criam um cena surreal”, mas a visão é apetitosa. O céu está decorado com sol de calabresa e nuvens de salame.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com o prompt: “Miniatura de um café decorado com plantas de interior. Vigas de madeira se cruzam acima, destacando uma estação de bebidas geladas com pequenas garrafas e copos.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Um close-up de um caranguejo eremita aninhado na areia molhada, com espuma do mar próxima e destacando detalhes de sua concha e textura de areia.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “A arte artesanal em papel retrata uma garota dando um abraço gentil em seu gato. Os dois sentam-se em meio a vasos de plantas, com o gato ronronando contente enquanto a garota sorri. A cena é decorada com papel artesanal flores e folhas.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Uma vista em pixel art da Coit Tower erguida no Telegraph Hill, com uma vista panorâmica da cidade abaixo e pássaros voando ao redor.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Os pequenos reis da batata usam coroas majestosas, sentam-se em tronos e supervisionam um vasto reino da batata cheio de temas e castelos de batata.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Ilustração de um coração humano feito de vidro transparente, em pé sobre um pedestal no meio de um mar tempestuoso. A luz do sol rompe as nuvens, iluminando o coração, revelando um pequeno universo dentro .” “A citação ‘Encontre o universo dentro de você’ está gravada em negrito no horizonte.”

OpenAI
Imagem DALL-E 3 fornecida pela OpenAI com a afirmação: “Mulher de meia idade de ascendência asiática, seu cabelo escuro com mechas prateadas, quebrado e rachado, intrinsecamente incrustado em um mar de porcelana quebrada. A porcelana brilha com respingos de tinta. Padrões em uma mistura harmoniosa de azul “Brilhante e fosco, verde, laranja e vermelho, sua dança é capturada em uma justaposição surreal de movimento e quietude. Seu tom de pele, um leve tom de porcelana, adiciona uma qualidade quase mística à sua forma.”

OpenAI

Em comparação, Midjourney, um modelo concorrente de síntese de imagem de IA de outro fornecedor, exibe bem detalhes realistas, mas ainda requer uma quantidade significativa de ajustes não intuitivos com prompts para obter qualquer controle sobre a saída da imagem.

O DALL-E 3 também parece lidar com texto dentro de imagens de uma forma que seus antecessores não conseguiam (alguns modelos concorrentes como o Stable Diffusion XL e Deep Floyd Eles ficam melhores nisso.) Por exemplo, um desenho de abacate com a citação do personagem foi perfeitamente criado, uma mensagem incluindo as palavras: “Ilustração de um abacate sentado na cadeira de um terapeuta dizendo ‘Sinto-me tão vazio por dentro’ com um buraco do tamanho de uma cratera no meio. ” Encapsulado em um balão de fala.

Notavelmente, a OpenAI diz que o DALL-E 3 foi “construído nativamente” no ChatGPT e chegará como um recurso integrado do ChatGPT Plus, permitindo melhorias conversacionais nas imagens de uma forma que usa o assistente de IA como parceiro de brainstorming. Isso também significa que o ChatGPT será capaz de gerar imagens com base no contexto da conversa atual, o que pode levar a novos recursos. O assistente Bing Chat AI da Microsoft, também baseado na tecnologia OpenAI, é capaz de criar imagens em chat desde março.

O bule que criou a tempestade

Imagem gerada pela inteligência artificial do DALL-E 3 — Mais Zoom / Imagem DALL-E 3 gerada por IA de “uma renderização 3D de uma xícara de café colocada no parapeito de uma janela durante um dia de vento. A tempestade fora da janela é refletida no café, com relâmpagos em miniatura e ondas turbulentas visíveis dentro da xícara. A sala está mal iluminada, aumentando a atmosfera dramática.”

OpenAI

A versão original do DALL-E apareceu em janeiro de 2021, e OpenAI lançou sua sequência dramaticamente mais capaz em abril de 2022, lançando uma nova era de imagens geradas por IA com um alarde tão incrível que cativou seus testadores beta fechados iniciais. Os modelos DALL-E usam uma tecnologia chamada Propagação latente Isso refina o ruído em imagens que “reconhece” a partir do conhecimento que obtém com o treinamento no conjunto de dados e a orientação do vetor. A mesma tecnologia permitiu que o modelo de peso aberto Stable Diffusion surgisse em agosto do ano passado.

Dada a forma como o DALL-E aprende conceitos sobre imagens em treinamento, explorando um enorme conjunto de dados de obras de arte geradas por humanos, a tecnologia de geração de imagens de IA tem sido altamente controversa desde sua introdução no ano passado. A tecnologia gerou protestos de artistas que temem que ela substitua ou reproduza de forma antiética seus métodos, processos judiciais por violação de direitos autorais com base em imagens roubadas usadas como dados de treinamento sem consultar os detentores de direitos autorais e novas decisões de direitos autorais do Copyright Office. . Juiz do Tribunal Distrital.

Em homenagem a essas controvérsias, a OpenAI afirma que o DALL-E 3 foi projetado para rejeitar solicitações que solicitem uma imagem no estilo de um artista ao vivo. OpenAI também Fornece um modelo Os criadores podem optar por não ter suas imagens usadas para treinar modelos futuros. Parece improvável que estas medidas satisfaçam os artistas que normalmente acreditam que o treinamento em IA deveria ser apenas opcional, em vez de incluído em conjuntos de dados de imagens por padrão.

Comparação entre — Mais Zoom / Comparação de “Uma expressiva pintura a óleo de um jogador de basquete mergulhando, retratada como uma explosão de nebulosa” criada por DALL-E 2 (esquerda) e DALL-E 3 (direita).

OpenAI

Atualmente, a política de direitos autorais dos EUA afirma que apenas obras de arte criadas por IA não podem receber proteção de direitos autorais, portanto, tecnicamente, qualquer imagem criada com DALL-E 3 cairia em domínio público. Embora a OpenAI não reconheça isso explicitamente, ela diz que “as imagens que você cria com o DALL-E 3 são suas para uso e não precisam de nossa permissão para reimprimi-las, vendê-las ou comercializá-las”. Esta é uma mudança marcante em relação ao ano passado, quando OpenAI Uso restrito da imagem DALE-2 Baseado em uma licença que afirma que a OpenAI “é dona de todas as gerações”.

Em termos de segurança, a OpenAI afirma que, assim como o DALL-E 2, implementou filtros de detecção de palavras-chave e imagens no DALL-E 3 para limitar sua capacidade de produzir conteúdo violento, sexual ou de ódio. O sistema também está programado para rejeitar solicitações que gerem fotos de figuras públicas pelo nome, o que causou problemas com o gerador de fotos rival Midjourney, alimentado por IA, quando criou fotos falsas de prisão de Donald Trump.

A OpenAI afirma que trabalhou com especialistas conhecidos como “Equipe Vermelha” para identificar e mitigar riscos potenciais, como preconceitos prejudiciais ou geração de propaganda e desinformação. OpenAI não ofereceu nenhuma palavra sobre o potencial de sua ferramenta para fazer isso Dobre o recorde histórico Porém, com insultos mal disfarçados, ele diz que está experimentando uma ferramenta de “classificador de origem” que pode ajudar a determinar se uma imagem foi criada pelo DALL-E 3 ou não.

No momento, ainda não temos acesso ao DALL-E 3 para testá-lo, mas a OpenAI diz que o gerador de imagens de IA está em testes fechados. Ela planeja disponibilizá-lo para clientes ChatGPT Plus e Enterprise “em outubro por meio da API e no Labs no final deste outono”.

Lourenço Cortês

“Estudante amigável. Jogador certificado. Evangelista de mídia social. Fanático pela Internet. Cai muito. Futuro ídolo adolescente.”

O novo gerador de imagens de IA da OpenAI ultrapassa os limites com detalhes e resolução rápidos – Ars Technica

Deve ler

Último naufrágio do iate bayesiano: a esposa de Mike Lynch ‘não queria sair do barco sem a família’ enquanto a tripulação era investigada

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Tufão japonês Shanshan: milhões de pessoas devem evacuar enquanto o tufão mais forte atinge o Japão em décadas

Lucros da Best Buy (BBY) no segundo trimestre de 2025

O bule que criou a tempestade

Últimos artigos

Último naufrágio do iate bayesiano: a esposa de Mike Lynch ‘não queria sair do barco sem a família’ enquanto a tripulação era investigada

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Tufão japonês Shanshan: milhões de pessoas devem evacuar enquanto o tufão mais forte atinge o Japão em décadas

Lucros da Best Buy (BBY) no segundo trimestre de 2025

Os Patriots começarão a usar o quarterback Jacoby Brissett na semana 1, segundo fontes

Últimas Notícias

Último naufrágio do iate bayesiano: a esposa de Mike Lynch ‘não queria sair do barco sem a família’ enquanto a tripulação era investigada

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Notícias populares

Eleições no Paquistão: aliança de Imran Khan obtém maioria em resultados chocantes

Bactérias perigosas encontradas em solo dos EUA pela primeira vez

Menu