OpenAI traz geração de imagens nativa para o ChatGPT
A OpenAI integrou capacidades de geração de imagens diretamente no ChatGPT, substituindo a integração anterior com o DALL-E. O novo sistema visa oferecer resultados mais consistentes, com menos restrições quanto ao conteúdo.
A empresa já iniciou o lançamento da nova funcionalidade de geração de imagens, apresentada juntamente com o GPT-4o em maio de 2024. Segundo a OpenAI, esse recurso se tornará o gerador de imagens padrão para todos os usuários do ChatGPT, abrangendo desde a versão gratuita até clientes corporativos. O acesso à API para desenvolvedores está previsto para as próximas semanas, enquanto o DALL-E permanecerá disponível como uma opção separada.
Melhor precisão por meio do processamento multimodal
O novo sistema processa texto e imagens de forma integrada, o que resulta em respostas mais precisas. Conforme informado pela empresa, ele é capaz de lidar com até 20 objetos distintos simultaneamente, mantendo as relações corretas entre eles. Essa funcionalidade se mostra especialmente eficaz na geração de textos dentro de imagens, como na criação de infográficos ou logotipos.
O sistema se destaca quando confrontado com conceitos não convencionais. Por exemplo, ao ser solicitado a gerar “um cavalo montando um astronauta”, modelos anteriores costumavam reproduzir o cenário mais comum de um astronauta montando um cavalo. Em contrapartida, o GPT-4o cria com exatidão essa disposição inusitada, demonstrando uma compreensão mais profunda das relações espaciais, e não apenas a reprodução de padrões frequentes do treinamento. Essa capacidade pode ampliar significativamente as possibilidades criativas na geração de imagens por IA.
O modelo é capaz de aprender em contexto, permitindo analisar imagens enviadas e incorporar seus detalhes em novas gerações. Os usuários podem refinar os resultados através de conversas naturais, com a IA mantendo o contexto ao longo de várias interações, facilitando a melhoria progressiva de uma imagem.
Testes iniciais indicam que o sistema gera imagens mais consistentes do que o DALL-E 3, embora ainda apresente pequenas falhas. Pode ocorrer, por exemplo, variações sutis no penteado ou nos detalhes das roupas entre gerações.
A OpenAI é transparente quanto às limitações atuais do sistema. Em algumas ocasiões, o modelo corta as imagens de maneira incorreta, gera alucinações semelhantes às observadas em modelos de texto e enfrenta desafios com cenas que reúnem muitos conceitos distintos. Além disso, há dificuldades na renderização precisa de textos em alfabetos não latinos, e a empresa trabalha para aprimorar a edição de áreas específicas das imagens geradas.
A empresa também adiciona metadados C2PA a todas as imagens geradas, identificando-as claramente como criações de IA, e implementou um sistema interno de busca para rastrear e identificar as imagens produzidas pelo novo recurso.
Caminho para políticas menos restritivas
Em contraste com a moderação rigorosa do DALL-E 3, o CEO da OpenAI anunciou que o novo sistema permite uma liberdade criativa maior, inclusive para conteúdos potencialmente ofensivos, desde que “dentro do razoável”. Entretanto, a plataforma continua a bloquear solicitações para deepfakes, violência e representações não autorizadas de pessoas reais.
Esse lançamento ocorre após a recente implementação, pelo Google, de uma função semelhante em seu modelo Gemini, que também destacou benefícios como a consistência entre imagens, a edição por meio de diálogos e a renderização precisa de textos.
Embora geradores de imagens dedicados, como Midjourney e Ideogram, ofereçam interfaces específicas para a criação de imagens, eles podem não atingir a precisão apresentada pelo recurso multimodal integrado no ChatGPT, o que pode ser fundamental para determinadas tarefas de criação.