A Microsoft egy olyan új mesterséges intelligencián dolgozik, amely egyetlen fotó és hangminta alapján képes olyan hiperrealisztikus videót készíteni rólunk, amin beszélünk, írja a Tom’sGuide.
A VASA-1 mindössze egyetlen fotó alapján képes olyan videót szerkeszteni, amin a szájmozgás, az arcvonások változásai és a fejmozgás is reálisan történik. A modell jelenleg csak egy kutatási demó, és a Microsoft Research csapatán kívül senki sem próbálhatja ki, a videók azonban lenyűgözőek.
A példákban szereplő emberek mindegyike szintetikus, DALL-E képgeneráló programmal készült, de ha képes valósághű MI-képet animálni, akkor bizonyára a valódi fotók animálásával is elboldogul majd a rendszer.
Az egyik példában Mona Lisa elevenedik meg, az eredmény pedig hátborzongatóan jó.
Külön kiemelendő, hogy a szoftver nemcsak olyan felvételek alapján képes videót létrehozni, amin az alany előre néz, így kevésbé jól sikerült fotókkal is lehet élethű videókat gyártani. A fejlesztők szerint a program fő felhasználása a videójátékokban lehet, ezzel ugyanis élethű NPC-ket létrehozni reális szájmozgással és mimikával.
A csapat azonban azt állítja, hogy nem tervezik nyilvánosságra hozni a programot, és fejlesztők számára sem akarják elérhetővé tenni.
A program mindössze annyi a korlátja, hogy 512×512 pixeles mozgóképeket lehet csak készíteni 45 képkocka/másodperc sebességgel, és ehhez is Nvidia RTX 4090 GPU kell. Mindazonáltal érdemes lesz követni a projekt utóéletét, a Microsoftnak ugyanis komoly részesedése van az OpenAI-ban és akár a Sorában is be lehet majd vetni.
The post Nem meri nyilvánossá tenni döbbenetes, új fejlesztés a Microsoft first appeared on 24.hu.
Tovább az erdeti cikkre:: 24.hu