Искусственный интеллект · 2 min read · Mar 26, 2026

Новый набор данных Apple Pico-Banana-400K закладывает основу для более умного редактирования изображений ИИ

Apple Pico-Banana

Apple выпустила новый исследовательский набор данных под названием Apple Pico-Banana-400K, и это один из самых значительных шагов компании в области исследований ИИ в последнее время.

Набор данных содержит 400,000 отредактированных изображений, каждое из которых было создано и тщательно проверено для обучения систем ИИ, которые могут редактировать изображения на основе письменных текстовых инструкций.

Этот новый выпуск помогает решить одну из основных проблем в редактировании изображений ИИ, а именно нехватку открытых наборов данных хорошего качества для исследований.

Что делает это еще более интересным, так это то, что Apple использовала модели Gemini-2.5 от Google для генерации и фильтрации данных.

Это показывает, как обе компании открыты к сотрудничеству за пределами исследовательских границ для улучшения будущего ИИ.

Почему этот набор данных важен?

В своей статье под названием “Pico-Banana-400K: большой набор данных для редактирования изображений с текстовыми подсказками” команда Apple упомянула, что большинство существующих наборов данных для редактирования ИИ либо малы, либо не разнообразны, либо заблокированы за проприетарными системами.

Из-за этого исследователям часто трудно обучать или тестировать новые модели последовательным образом.

Набор данных Apple Pico-Banana напрямую решает эту проблему. Он открыт для некоммерческого использования, что означает, что исследователи могут свободно получить к нему доступ через GitHub, изучать его и использовать в своих проектах ИИ. Однако его нельзя использовать для каких-либо бизнес- или прибыльных целей.

Pico-Banana

Как Apple создала набор данных Pico-Banana?

Исследователи Apple начали с сбора большого набора реальных изображений из набора данных OpenImages, который включает людей, объекты и сцены с текстом.

Затем они подготовили 35 различных инструкций по редактированию, разделенных на восемь основных категорий. Некоторые редактирования были простыми, такими как применение фильтра, в то время как другие были сложными, например, превращение человека в мультяшную фигуру или игрушечную версию.

Apple Pico-Banana-400K

Для фактического создания отредактированных изображений Apple использовала модель Nano-Banana (Gemini-2.5-Flash-Image) от Google.

После этого каждое сгенерированное изображение проверялось другой моделью, Gemini-2.5-Pro, которая проверяла, насколько хорошо редактирование соответствовало подсказке и насколько реалистично выглядело изображение.

Только изображения, прошедшие обе проверки, были добавлены в финальный набор данных Apple Pico-Banana-400K. Этот процесс обеспечил высокое качество и разнообразие набора данных.

Дополнительное чтение:

  • Apple M5 против M4: ключевые различия, которые помогут вам сделать лучший выбор

  • Google Vibe Coding открывает новую эру креативности ИИ в Gemini Studio

  • Microsoft представляет MAI Image 1, революционный генератор изображений ИИ

Что делает набор данных Apple Pico-Banana уникальным?

В отличие от других наборов данных, которые показывают только одну пару изображений до и после, Pico-Banana-400K также включает многоходовые редактирования, где изображение проходит через серию до пяти изменений. Это помогает моделям учиться следовать более длинному, пошаговому процессу редактирования.

Он также включает пары предпочтений, которые сравнивают хорошее редактирование с плохим. Это помогает моделям ИИ учиться, чего избегать, улучшая точность и надежность в реальных задачах.

Apple признала, что все еще есть некоторые незначительные проблемы, особенно с мелкими деталями или текстом внутри изображений, но в целом набор данных является надежным.

Он предназначен для помощи в создании лучших систем редактирования изображений с текстовыми подсказками, которые более четко понимают подсказки и производят более чистые и естественные редактирования. Исследователи могут прочитать полное исследование на arXiv и скачать набор данных напрямую с GitHub.

Share: X/Twitter LinkedIn

Get new posts in your inbox

No spam. Unsubscribe anytime.