O Novo Conjunto de Dados Pico-Banana-400K da Apple Prepara o Cenário para Edições de Imagem em IA Mais Inteligentes

Apple Pico-Banana

Apple lançou um novo conjunto de dados de pesquisa chamado Apple Pico-Banana-400K, e é uma das maiores iniciativas que a empresa fez na pesquisa em IA recentemente.

O conjunto de dados contém 400.000 imagens editadas, cada uma feita e revisada cuidadosamente para treinar sistemas de IA que podem editar imagens com base em instruções de texto escritas.

Esse novo lançamento ajuda a resolver um dos principais problemas na edição de imagens por IA, que é a falta de conjuntos de dados abertos e de boa qualidade para pesquisa.

O que torna isso mais interessante é que a Apple usou os modelos Gemini-2.5 do Google para ajudar a gerar e filtrar os dados.

Isso mostra como ambas as empresas estão abertas a trabalhar além das fronteiras de pesquisa para melhorar o futuro da IA.

Por que esse conjunto de dados é importante?

Em seu artigo intitulado “Pico-Banana-400K: Um Conjunto de Dados em Grande Escala para Edição de Imagens Guiada por Texto”, a equipe da Apple mencionou que a maioria dos conjuntos de dados de edição de IA existentes são pequenos, não diversos ou estão bloqueados em sistemas proprietários.

Por causa disso, os pesquisadores frequentemente acham difícil treinar ou testar novos modelos de maneira consistente.

O conjunto de dados Apple Pico-Banana resolve diretamente esse problema. Ele está aberto para uso não comercial, o que significa que os pesquisadores podem acessá-lo livremente no GitHub, estudá-lo e usá-lo em seus projetos de IA. No entanto, não pode ser usado para qualquer propósito comercial ou com fins lucrativos.

Pico-Banana

Como a Apple construiu o conjunto de dados Pico-Banana?

Os pesquisadores da Apple começaram coletando um grande conjunto de imagens reais do conjunto de dados OpenImages, que inclui pessoas, objetos e cenas com texto.

Em seguida, prepararam 35 diferentes instruções de edição divididas em oito categorias principais. Algumas edições eram simples, como aplicar um filtro, enquanto outras eram complexas, como transformar uma pessoa em uma figura de cartoon ou versão estilo brinquedo.

Apple Pico-Banana-400K

Para realmente criar as imagens editadas, a Apple usou o modelo Nano-Banana do Google (Gemini-2.5-Flash-Image).

Depois disso, cada imagem gerada foi revisada por outro modelo, Gemini-2.5-Pro, que verificou quão bem a edição correspondia ao prompt e quão realista a imagem parecia.

Apenas as imagens que passaram em ambas as verificações foram adicionadas ao conjunto de dados final Apple Pico-Banana-400K. Esse processo garantiu que o conjunto de dados mantivesse uma forte qualidade e variedade.

Leitura Adicional:

Apple M5 vs. M4: Principais Diferenças para Ajudá-lo a Escolher Melhor
Google Vibe Coding Inaugura uma Nova Era de Criatividade em IA no Gemini Studio
Microsoft Revela MAI Image 1, um Gerador de Imagens de IA Revolucionário

O que torna o conjunto de dados Apple Pico-Banana único?

Diferente de outros conjuntos de dados que mostram apenas um par de imagens antes e depois, o Pico-Banana-400K também inclui edições de múltiplas etapas, onde uma imagem passa por uma série de até cinco mudanças. Isso ajuda os modelos a aprender como seguir um processo de edição mais longo e passo a passo.

Ele também inclui pares de preferência, que comparam uma boa edição com uma ruim. Isso ajuda os modelos de IA a aprender o que evitar, melhorando a precisão e a confiabilidade em tarefas do mundo real.

A Apple admitiu que ainda existem alguns problemas menores, especialmente com detalhes finos ou texto dentro das imagens, mas, no geral, o conjunto de dados é sólido.

Ele foi projetado para ajudar a construir melhores sistemas de edição de imagens guiados por texto que entendem os prompts de forma mais clara e produzem edições mais limpas e naturais. Os pesquisadores podem ler o estudo completo no arXiv e baixar o conjunto de dados diretamente do GitHub.

Por que esse conjunto de dados é importante?

Como a Apple construiu o conjunto de dados Pico-Banana?

O que torna o conjunto de dados Apple Pico-Banana único?

Receba novas postagens na sua caixa de entrada