Články

Apple představil unikání model pro vytváření 3D scén z jediné fotky. Funguje to neuvěřitelně dobře

  • Apple představil model SHARP, který dokáže z jediné fotografie rekonstruovat fotorealistickou 3D scénu
  • Model  reálné měřítko, vzdálenosti i stabilitu scény, což umožňuje realistický pohyb kamery
  • SHARP je dostupný na GitHubu a uživatelé již sdílejí vlastní výsledky, včetně experimentů s videem

Apple zveřejnil novou výzkumnou studii s názvem Sharp Monocular View Synthesis in Less Than a Second, ve které detailně popisuje vývoj modelu SHARP. Ten dokáže z jediné 2D fotografie rekonstruovat fotorealistickou 3D scénu v reálném měřítku a to za méně než jednu sekundu na běžném GPU. Výsledkem je 3D reprezentace scény, kterou lze v reálném čase vykreslovat z blízkých pohledů bez nutnosti dalších vstupních snímků.

Co přesně je SHARP a jak funguje

Apple ve studii představuje SHARP jako nový přístup k fotorealistické syntéze pohledů z jediného snímku. Model je navržen tak, aby z jedné fotografie odhadl kompletní 3D reprezentaci scény, a to pomocí 3D Gaussově rozdělení. Jak výzkumníci Applu popisují:

Představujeme SHARP, přístup k fotorealistické syntéze pohledů z jediného obrázku. Na základě jediné fotografie SHARP regresí odhaduje parametry 3D reprezentace zobrazené scény. To je provedeno za méně než jednu sekundu na standardním GPU pomocí jediného průchodu neuronovou sítí. Výsledná 3D reprezentace může být následně vykreslována v reálném čase, čímž vznikají vysoce kvalitní fotorealistické snímky z blízkých pohledů. Reprezentace je metrická, s absolutním měřítkem, a podporuje metrické pohyby kamery. Experimentální výsledky ukazují, že SHARP dosahuje robustní zero-shot generalizace napříč datovými sadami. Nastavuje nový stav techniky na více datech, snižuje LPIPS o 25–34 % a DISTS o 21–43 % oproti dosud nejlepšímu modelu, a zároveň zkracuje dobu syntézy o tři řády.

Stručně řečeno: model předpovídá 3D reprezentaci scény, kterou lze následně vykreslovat z blízkých úhlů pohledu.

Co jsou 3D Gaussians a proč jsou klíčové

3D Gaussian (Gaussovy funkce) si lze představit jako malý, rozmazaný oblak barvy a světla, umístěný v prostoru. Když se spojí miliony těchto „blobů“, vznikne 3D scéna, která z určitého úhlu působí velmi realisticky.

Většina současných metod tzv. Gaussian splattingu však vyžaduje desítky nebo stovky snímků téže scény, pořízených z různých úhlů. Tyto snímky se následně optimalizují pro konkrétní scénu, což je výpočetně náročné a pomalé. Model SHARP se od tohoto přístupu zásadně liší.

Rekonstrukce 3D scény z jediné fotografie

Apple dokázal, že je možné předpovědět kompletní 3D Gaussian reprezentaci celé scény z jediné fotografie, a to v jednom průchodu neuronovou sítí. Aby toho dosáhl, Apple trénoval SHARP na velkém množství syntetických i reálných dat, díky čemuž se model naučil obecné vzorce hloubky, geometrie a prostorových vztahů napříč různými scénami.

Když pak model dostane nový snímek:

  1. Odhadne hloubku scény.

  2. Hloubku zpřesní na základě naučených vzorců.

  3. V jednom kroku předpoví pozici i vzhled milionů 3D Gaussian prvků.

Výsledkem je věrohodná 3D rekonstrukce bez nutnosti více snímků nebo pomalé optimalizace pro každou scénu zvlášť.

Kompromis mezi rychlostí a rozsahem

Tento přístup má ale i své omezení. SHARP je optimalizovaný pro vykreslování blízkých pohledů, nikoliv pro generování zcela neviděných částí scény. To znamená, že:

  • uživatel se nemůže příliš vzdálit od původního úhlu, ze kterého byla fotografie pořízena

  • model negeneruje kompletně nové části scény, které na původním snímku nejsou vůbec vidět

Právě tento kompromis však umožňuje Applu udržet extrémní rychlost (méně než 1 sekunda) a zároveň stabilitu a věrohodnost výsledku. Apple ve studii také ukazuje srovnání SHARP s metodou Gen3C, která patří mezi dosud nejsilnější přístupy v této oblasti.

SHARP je dostupný na GitHubu a uživatelé experimentují

Zajímavé je, že Apple zpřístupnil SHARP veřejně na GitHubu. Díky tomu si jej mohou vývojáři a výzkumníci sami vyzkoušet a sdílet výsledky. Na sociální síti X se v posledních dnech objevila řada příspěvků s ukázkami výsledků, které uživatelé pomocí SHARP vytvořili.

Jeden z příspěvků je dokonce video, což už jde nad rámec původního záměru Applu. To naznačuje, že samotný model – nebo alespoň jeho základní princip – by mohl být v budoucnu rozšířen i na další scénáře využití, například práci s pohybem nebo sekvencemi snímků.

Budoucnost 3D rekonstrukce z jednoho snímku

SHARP ukazuje, že rekonstrukce realistických 3D scén z jediné fotografie nemusí být pomalá ani výpočetně extrémně náročná. Přestože má model své limity v rozsahu pohybu kamery, představuje výrazný posun v oblasti počítačového vidění, AR/VR i 3D obsahu. Pokud se rozhodnete SHARP sami vyzkoušet, Apple vyzývá k tomu, aby uživatelé sdíleli své výsledky a zkušenosti. Potenciál tohoto přístupu je zjevně mnohem širší, než původní výzkumný záměr.

Richard Streit

Pisálek, fanoušek mobilní a výpočetní techniky. Vyznává a aktivně provozuje adrenalinové sporty. Mezi další zájmy patří cestování, rodina, elektronická hudba, příroda a moderní technologie.

Doporučené články

Jeden komentář

  1. GS je super, ale k jeho vytváření vždy byla potřeba NVIDIA, pokud to vážně půjde obejít tak super zpráva ..

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Back to top button