AI Research · 2 min read · Mar 26, 2026
Il nuovo dataset Pico-Banana-400K di Apple prepara il terreno per un editing delle immagini AI più intelligente

Apple ha rilasciato un nuovo dataset di ricerca chiamato Apple Pico-Banana-400K, ed è una delle mosse più significative che l’azienda ha fatto nella ricerca sull’AI ultimamente.
Il dataset contiene 400.000 immagini modificate, ognuna realizzata e revisionata con attenzione per addestrare sistemi AI in grado di modificare immagini in base a istruzioni testuali scritte.
Questa nuova release aiuta a risolvere uno dei principali problemi nell’editing delle immagini AI, ovvero la mancanza di dataset aperti e di buona qualità per la ricerca.
Ciò che lo rende ancora più interessante è che Apple ha utilizzato i modelli Gemini-2.5 di Google per aiutare a generare e filtrare i dati.
Dimostra come entrambe le aziende siano aperte a lavorare oltre i confini della ricerca per migliorare il futuro dell’AI.
Perché questo dataset è importante?
Nel loro articolo intitolato “Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing”, il team di Apple ha menzionato che la maggior parte dei dataset di editing AI esistenti è piccola, non diversificata o bloccata dietro sistemi proprietari.
A causa di ciò, i ricercatori spesso trovano difficile addestrare o testare nuovi modelli in modo coerente.
Il dataset Apple Pico-Banana risolve direttamente questo problema. È aperto per uso non commerciale, il che significa che i ricercatori possono accedervi liberamente da GitHub, studiarlo e utilizzarlo nei loro progetti AI. Tuttavia, non può essere utilizzato per scopi commerciali o a scopo di lucro.

Come ha costruito Apple il dataset Pico-Banana?
I ricercatori di Apple hanno iniziato raccogliendo un ampio set di immagini reali dal dataset OpenImages, che include persone, oggetti e scene con testo.
Poi hanno preparato 35 diverse istruzioni di modifica suddivise in otto categorie principali. Alcune modifiche erano semplici, come applicare un filtro, mentre altre erano complesse, come trasformare una persona in una figura di cartone animato o in una versione in stile giocattolo.

Per creare effettivamente le immagini modificate, Apple ha utilizzato il modello Nano-Banana di Google (Gemini-2.5-Flash-Image).
Dopo di che, ogni immagine generata è stata revisionata da un altro modello, Gemini-2.5-Pro, che ha controllato quanto bene la modifica corrispondesse al prompt e quanto fosse realistica l’immagine.
Solo le immagini che hanno superato entrambi i controlli sono state aggiunte al dataset finale Apple Pico-Banana-400K. Questo processo ha garantito che il dataset mantenesse una forte qualità e varietà.
Ulteriori letture:
Apple M5 vs. M4: Differenze chiave per aiutarti a scegliere meglio
Google Vibe Coding segna l’inizio di una nuova era di creatività AI in Gemini Studio
Microsoft svela MAI Image 1, un generatore di immagini AI rivoluzionario
Cosa rende unico il dataset Apple Pico-Banana?
A differenza di altri dataset che mostrano solo una coppia di immagini prima e dopo, Pico-Banana-400K include anche modifiche multi-turno, dove un’immagine subisce una serie di fino a cinque cambiamenti. Questo aiuta i modelli a imparare come seguire un processo di modifica più lungo e passo dopo passo.
Include anche coppie di preferenza, che confrontano una buona modifica con una cattiva. Questo aiuta i modelli AI a imparare cosa evitare, migliorando l’accuratezza e l’affidabilità nei compiti del mondo reale.
Apple ha ammesso che ci sono ancora alcuni problemi minori, specialmente con i dettagli fini o il testo all’interno delle immagini, ma nel complesso, il dataset è solido.
È progettato per aiutare a costruire sistemi di editing delle immagini guidati da testo migliori che comprendano i prompt in modo più chiaro e producano modifiche più pulite e naturali. I ricercatori possono leggere lo studio completo su arXiv e scaricare il dataset direttamente da GitHub.
Ricevi i nuovi post nella tua casella di posta.
Nessuno spam. Disiscriviti in qualsiasi momento.