Apple představil unikání model pro vytváření 3D scén z jediné fotky. Funguje to neuvěřitelně dobře
- Apple představil model SHARP, který dokáže z jediné fotografie rekonstruovat fotorealistickou 3D scénu
- Model reálné měřítko, vzdálenosti i stabilitu scény, což umožňuje realistický pohyb kamery
- SHARP je dostupný na GitHubu a uživatelé již sdílejí vlastní výsledky, včetně experimentů s videem
Apple zveřejnil novou výzkumnou studii s názvem Sharp Monocular View Synthesis in Less Than a Second, ve které detailně popisuje vývoj modelu SHARP. Ten dokáže z jediné 2D fotografie rekonstruovat fotorealistickou 3D scénu v reálném měřítku a to za méně než jednu sekundu na běžném GPU. Výsledkem je 3D reprezentace scény, kterou lze v reálném čase vykreslovat z blízkých pohledů bez nutnosti dalších vstupních snímků.
Co přesně je SHARP a jak funguje
Apple ve studii představuje SHARP jako nový přístup k fotorealistické syntéze pohledů z jediného snímku. Model je navržen tak, aby z jedné fotografie odhadl kompletní 3D reprezentaci scény, a to pomocí 3D Gaussově rozdělení. Jak výzkumníci Applu popisují:
Představujeme SHARP, přístup k fotorealistické syntéze pohledů z jediného obrázku. Na základě jediné fotografie SHARP regresí odhaduje parametry 3D reprezentace zobrazené scény. To je provedeno za méně než jednu sekundu na standardním GPU pomocí jediného průchodu neuronovou sítí. Výsledná 3D reprezentace může být následně vykreslována v reálném čase, čímž vznikají vysoce kvalitní fotorealistické snímky z blízkých pohledů. Reprezentace je metrická, s absolutním měřítkem, a podporuje metrické pohyby kamery. Experimentální výsledky ukazují, že SHARP dosahuje robustní zero-shot generalizace napříč datovými sadami. Nastavuje nový stav techniky na více datech, snižuje LPIPS o 25–34 % a DISTS o 21–43 % oproti dosud nejlepšímu modelu, a zároveň zkracuje dobu syntézy o tři řády.
Stručně řečeno: model předpovídá 3D reprezentaci scény, kterou lze následně vykreslovat z blízkých úhlů pohledu.
Co jsou 3D Gaussians a proč jsou klíčové
3D Gaussian (Gaussovy funkce) si lze představit jako malý, rozmazaný oblak barvy a světla, umístěný v prostoru. Když se spojí miliony těchto „blobů“, vznikne 3D scéna, která z určitého úhlu působí velmi realisticky.
Většina současných metod tzv. Gaussian splattingu však vyžaduje desítky nebo stovky snímků téže scény, pořízených z různých úhlů. Tyto snímky se následně optimalizují pro konkrétní scénu, což je výpočetně náročné a pomalé. Model SHARP se od tohoto přístupu zásadně liší.
Rekonstrukce 3D scény z jediné fotografie
Apple dokázal, že je možné předpovědět kompletní 3D Gaussian reprezentaci celé scény z jediné fotografie, a to v jednom průchodu neuronovou sítí. Aby toho dosáhl, Apple trénoval SHARP na velkém množství syntetických i reálných dat, díky čemuž se model naučil obecné vzorce hloubky, geometrie a prostorových vztahů napříč různými scénami.
Když pak model dostane nový snímek:
-
Odhadne hloubku scény.
-
Hloubku zpřesní na základě naučených vzorců.
-
V jednom kroku předpoví pozici i vzhled milionů 3D Gaussian prvků.
Výsledkem je věrohodná 3D rekonstrukce bez nutnosti více snímků nebo pomalé optimalizace pro každou scénu zvlášť.
Apple’s SHARP model generates photorealistic 3D Gaussian reps from a single img in secs.
GitHub: https://t.co/wU6yTWRdCl
Paper: https://t.co/xUtr40pEJ9
SHARP enables photorealistic NVS from one photo by regressing 3D Gaussian params via single NN fwd pass (<1s on std GPU).… pic.twitter.com/Wo6EyZIPvL
— QuestGlitch (@AIRevSpot) December 17, 2025
Kompromis mezi rychlostí a rozsahem
Tento přístup má ale i své omezení. SHARP je optimalizovaný pro vykreslování blízkých pohledů, nikoliv pro generování zcela neviděných částí scény. To znamená, že:
-
uživatel se nemůže příliš vzdálit od původního úhlu, ze kterého byla fotografie pořízena
-
model negeneruje kompletně nové části scény, které na původním snímku nejsou vůbec vidět
Právě tento kompromis však umožňuje Applu udržet extrémní rychlost (méně než 1 sekunda) a zároveň stabilitu a věrohodnost výsledku. Apple ve studii také ukazuje srovnání SHARP s metodou Gen3C, která patří mezi dosud nejsilnější přístupy v této oblasti.
New paper from Apple – Sharp Monocular View Synthesis in Less than a Second
Mescheder et al. @ Apple just released a very impressive paper (congrats! 🎉🥳). You give it an image and it generates a really great looking 3d Gaussian representation. Uses depth pro. It’s really good.… pic.twitter.com/XSZCZA8iio
— Tim Davison ᯅ (@timd_ca) December 16, 2025
SHARP je dostupný na GitHubu a uživatelé experimentují
Zajímavé je, že Apple zpřístupnil SHARP veřejně na GitHubu. Díky tomu si jej mohou vývojáři a výzkumníci sami vyzkoušet a sdílet výsledky. Na sociální síti X se v posledních dnech objevila řada příspěvků s ukázkami výsledků, které uživatelé pomocí SHARP vytvořili.
Jeden z příspěvků je dokonce video, což už jde nad rámec původního záměru Applu. To naznačuje, že samotný model – nebo alespoň jeho základní princip – by mohl být v budoucnu rozšířen i na další scénáře využití, například práci s pohybem nebo sekvencemi snímků.
Single image to Splat in just 2 seconds.
Testing out in AirVis app. Apple ML team did an amazing job. pic.twitter.com/3ATNDLA4En— Arun Kurian (@AKurian001) December 16, 2025
Budoucnost 3D rekonstrukce z jednoho snímku
SHARP ukazuje, že rekonstrukce realistických 3D scén z jediné fotografie nemusí být pomalá ani výpočetně extrémně náročná. Přestože má model své limity v rozsahu pohybu kamery, představuje výrazný posun v oblasti počítačového vidění, AR/VR i 3D obsahu. Pokud se rozhodnete SHARP sami vyzkoušet, Apple vyzývá k tomu, aby uživatelé sdíleli své výsledky a zkušenosti. Potenciál tohoto přístupu je zjevně mnohem širší, než původní výzkumný záměr.




GS je super, ale k jeho vytváření vždy byla potřeba NVIDIA, pokud to vážně půjde obejít tak super zpráva ..