Apple představil dataset Pico-Banana-400K: 400 000 obrázků pro výzkum AI úprav obrazu

- Apple zveřejnil rozsáhlý dataset obsahující 400 000 obrázků určený pro AI výzkum
- Dataset vznikl ve spolupráci s Googlem s využitím modelů Gemini-2.5
- Projekt má poskytnout vědcům a vývojářům kvalitní základ pro trénink a testování nových AI modelů
Společnost Apple zveřejnila nový výzkumný dataset s názvem Pico-Banana-400K, který obsahuje 400 000 pečlivě vybraných obrázků určených pro akademické a výzkumné účely v oblasti umělé inteligence. Zajímavostí je, že dataset vznikl s pomocí modelů Google Gemini-2.5, konkrétně varianty označované jako Nano-Banana.
Apple dataset představil spolu se studií „Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing“, jejímž cílem je zlepšit dostupnost kvalitních dat pro výzkum textem řízené editace obrázků. Dataset je uvolněn pod nekomerční licencí, což znamená, že jej mohou volně využívat vědci a vývojáři – ovšem pouze pro nekomerční účely, tedy výzkum a akademickou činnost.
Kvalitní data pro AI výzkum
Podle výzkumného týmu Apple je současný pokrok v oblasti modelů pro úpravu obrázků značný, ale otevřený výzkum trpí nedostatkem velkých, kvalitních a sdílitelných datasetů. Stávající sady dat často pocházejí ze synteticky generovaných obrázků, z uzavřených systémů nebo z malých lidsky kurátorovaných vzorků.
To podle Applu vede k několika problémům:
- nevyvážené rozložení typů úprav
- nekonzistentní kvalita
- posun v doméně (domain shift)
- a omezené možnosti pro trénink robustních modelů.
Jak vznikal Pico-Banana-400K?
Prvním krokem bylo získání reálných fotografií z veřejné databáze OpenImages, přičemž výzkumníci dbali na rozmanitost scén – od lidí přes objekty až po textové nápisy. Apple následně vytvořil seznam 35 typů úprav, rozdělených do osmi kategorií. Mezi příklady patří:
- Pixel & Photometric: přidání filmového zrna nebo vintage filtru
- Human-Centric: vytvoření postavičky ve stylu Funko Pop podle osoby na fotce
- Scene Composition & Multi-Subject: změna počasí (slunečno, déšť, sníh)
- Object-Level Semantic: přesunutí objektu (změna pozice nebo vztahu v prostoru)
- Scale: přiblížení (zoom)
Zajímavostí je, že výzkumníci použili i písmo Comic Sans, aby otestovali modely v oblasti typografie.
Spolupráce s Googlem a model Nano-Banana
Pro samotné generování upravených obrázků Apple využil model Google Gemini-2.5-Flash-Image, interně označovaný jako Nano-Banana. Tento model patří mezi nejpokročilejší systémy pro úpravu obrázků na světě.
Postup byl následující:
- Výzkumníci nahráli původní obrázek spolu s konkrétním textovým zadáním.
- Model Nano-Banana vytvořil upravenou verzi.
- Výsledek následně posoudil model Gemini-2.5-Pro, který schválil nebo odmítl výstup podle kvality a souladu s instrukcí.
Co dataset obsahuje?
Pico-Banana-400K zahrnuje:
- Jednokrokové úpravy (single-turn edits) – obrázek upravený na základě jediného zadání.
- Vícekrokové sekvence úprav (multi-turn edits) – postupné modifikace s více prompty.
- Párová srovnání výsledků (preference pairs) – pro trénink modelů rozpoznávajících úspěšné a neúspěšné úpravy.
Apple přiznává, že Nano-Banana má jistá omezení, například v jemném prostorovém ladění, extrapolaci rozložení nebo práci s typografií. Přesto vědci doufají, že Pico-Banana-400K se stane pevnou základnou pro vývoj a testování nové generace modelů řízených textem.
Kde dataset najít?
Studie je veřejně dostupná na arXiv, zatímco samotný dataset lze volně stáhnout z GitHubu. Pro výzkumnou komunitu jde o významný krok směrem k otevřenější a kvalitnější spolupráci v oblasti AI editace obrazu.






