Novinky

Apple představil dataset Pico-Banana-400K: 400 000 obrázků pro výzkum AI úprav obrazu

  • Apple zveřejnil rozsáhlý dataset obsahující 400 000 obrázků určený pro AI výzkum
  • Dataset vznikl ve spolupráci s Googlem s využitím modelů Gemini-2.5 
  • Projekt má poskytnout vědcům a vývojářům kvalitní základ pro trénink a testování nových AI modelů

Společnost Apple zveřejnila nový výzkumný dataset s názvem Pico-Banana-400K, který obsahuje 400 000 pečlivě vybraných obrázků určených pro akademické a výzkumné účely v oblasti umělé inteligence. Zajímavostí je, že dataset vznikl s pomocí modelů Google Gemini-2.5, konkrétně varianty označované jako Nano-Banana.

Apple dataset představil spolu se studií „Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing“, jejímž cílem je zlepšit dostupnost kvalitních dat pro výzkum textem řízené editace obrázků. Dataset je uvolněn pod nekomerční licencí, což znamená, že jej mohou volně využívat vědci a vývojáři – ovšem pouze pro nekomerční účely, tedy výzkum a akademickou činnost.

Kvalitní data pro AI výzkum

Podle výzkumného týmu Apple je současný pokrok v oblasti modelů pro úpravu obrázků značný, ale otevřený výzkum trpí nedostatkem velkých, kvalitních a sdílitelných datasetů. Stávající sady dat často pocházejí ze synteticky generovaných obrázků, z uzavřených systémů nebo z malých lidsky kurátorovaných vzorků.

To podle Applu vede k několika problémům:

  • nevyvážené rozložení typů úprav
  • nekonzistentní kvalita
  • posun v doméně (domain shift)
  • a omezené možnosti pro trénink robustních modelů.

Jak vznikal Pico-Banana-400K?

Prvním krokem bylo získání reálných fotografií z veřejné databáze OpenImages, přičemž výzkumníci dbali na rozmanitost scén – od lidí přes objekty až po textové nápisy. Apple následně vytvořil seznam 35 typů úprav, rozdělených do osmi kategorií. Mezi příklady patří:

  • Pixel & Photometric: přidání filmového zrna nebo vintage filtru
  • Human-Centric: vytvoření postavičky ve stylu Funko Pop podle osoby na fotce
  • Scene Composition & Multi-Subject: změna počasí (slunečno, déšť, sníh)
  • Object-Level Semantic: přesunutí objektu (změna pozice nebo vztahu v prostoru)
  • Scale: přiblížení (zoom)

Zajímavostí je, že výzkumníci použili i písmo Comic Sans, aby otestovali modely v oblasti typografie.

Spolupráce s Googlem a model Nano-Banana

Pro samotné generování upravených obrázků Apple využil model Google Gemini-2.5-Flash-Image, interně označovaný jako Nano-Banana. Tento model patří mezi nejpokročilejší systémy pro úpravu obrázků na světě.

Postup byl následující:

  1. Výzkumníci nahráli původní obrázek spolu s konkrétním textovým zadáním.
  2. Model Nano-Banana vytvořil upravenou verzi.
  3. Výsledek následně posoudil model Gemini-2.5-Pro, který schválil nebo odmítl výstup podle kvality a souladu s instrukcí.

Co dataset obsahuje?

Pico-Banana-400K zahrnuje:

  • Jednokrokové úpravy (single-turn edits) – obrázek upravený na základě jediného zadání.
  • Vícekrokové sekvence úprav (multi-turn edits) – postupné modifikace s více prompty.
  • Párová srovnání výsledků (preference pairs) – pro trénink modelů rozpoznávajících úspěšné a neúspěšné úpravy.

Apple přiznává, že Nano-Banana má jistá omezení, například v jemném prostorovém ladění, extrapolaci rozložení nebo práci s typografií. Přesto vědci doufají, že Pico-Banana-400K se stane pevnou základnou pro vývoj a testování nové generace modelů řízených textem.

Kde dataset najít?

Studie je veřejně dostupná na arXiv, zatímco samotný dataset lze volně stáhnout z GitHubu. Pro výzkumnou komunitu jde o významný krok směrem k otevřenější a kvalitnější spolupráci v oblasti AI editace obrazu.

Richard Streit

Pisálek, fanoušek mobilní a výpočetní techniky. Vyznává a aktivně provozuje adrenalinové sporty. Mezi další zájmy patří cestování, rodina, elektronická hudba, příroda a moderní technologie.

Doporučené články

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Back to top button