A technológiai szektor iránt minimálisan is érdeklődő hírfogyasztó számára nem ismeretlen az OpenAI neve: a cég a nagy sikerű ChatGPT fejlesztője.
Ez a “zászlóshajó” termék a megadott utasítások alapján akár egészen speciális szövegeket is képes generálni. A DALL-E képgenerátort is fejlesztő OpenAI legújabb dobása a Sora nevű videógenerátor.
Mit tud az OpenAI Sora?
Az új termék a korábbiakhoz hasonlóan működik: szöveges utasításokra (promptokra) a modell maximum egy perces videókat generál. A Sora állóképeket és videókat is elfogad inputként, vagyis létrehozhatunk videót egy kép alapján, vagy akár egy valóban létező videót is meghosszabbíthatunk vagy megváltoztathatunk.
Pár sornyi szöveg begépelésével a valóságostól olykor nehezen megkülönböztethető videókat hozhatunk létre a modell segítségével. Ez önmagában is futurisztikus technológiai megoldásnak hangzik, de a részletekben rejlő valóság teszi igazán megdöbbentővé.
A Sora ugyanis képes értelmezni és létrehozni olyan összetett jeleneteket, amelyekben több karakter szerepel és egyénileg meghatározott módon mozog. A cég azt állítja, hogy a Sora a szöveges promptok mellett azt is érti, hogyan működnek a valóságos objektumok a világban, ezért valósághű részletgazdagsággal tudja megjeleníteni a témát és annak hátterét is.
A lenyűgöző technológiai előrelépés mellett említsük meg, amit az OpenAI maga is elismert: a modell közel sem tökéletes. Kisebb hibákról egyelőre gyakran felismerhető, hogy generált videót nézünk, és a videókban néha láthatóak olyan mozgások, amelyek nem látszanak engedelmeskedni a fizika törvényeinek… További limitációt jelent az ok-okozatiság értelmezése, de a térbeli tájékozódást és a hosszabb időtávokat is bizonytalanul kezeli a Sora.
Példák: így működik az OpenAI Sora
A Sora bemutatásakor az OpenAI 38 db olyan példavideót tett közzé, amiket a modell generált. A cég állítása szerint ezeket a Sora kizárólag a rövid szöveges utasításokra válaszul generálta, azokon semmilyen további szerkesztést nem végeztek. A videók némelyike megdöbbentően valóságosnak hat, de egy átlagos videójáték vagy animáció szintjét mindenképpen megütik.
A Sora nagy erőssége, hogy képes vágni, vagyis több beállítást is alkalmazni a videókban.
A Telex cikke több példával illusztrálja a Sora képességeit, lássunk ezek közül néhányat – előbb a szöveges promptot, majd az arra válaszul generált videót!
Prompt: „Kínai holdújévi ünnepi videó a kínai sárkánnyal.”
Prompt: „Egy filmelőzetes, amely a harmincéves, piros gyapjúból kötött bukósisakot viselő űrhajós kalandjait mutatja be, kék ég, sós sivatag, filmes stílus, 35 mm-es filmre felvéve, élénk színek.”
Prompt: „Egy nagy, narancssárga polip látható az óceánfenéken pihenve, beleolvadva a homokos és sziklás terepbe. Csápjai szétterülnek a teste körül, és a szemei csukva vannak. Nem veszi észre a királyrákot, amely egy szikla mögül mászik felé, felemelt ollóival, támadásra készen. A rák barna és tüskés, hosszú lábakkal és csápokkal. A jelenet nagy látószögből készült, megmutatva az óceán kiterjedtségét és mélységét. A víz tiszta és kék, a napfény átszűrődő sugaraival. A felvétel éles és tiszta, nagy dinamikatartományú. A polip és a rák van fókuszban, míg a háttér kissé elmosódott, mélységélesség-hatást létrehozva”
Riválisok: a Google Lumiere és mások
Nem az OpenAI-féle Sora azonban az egyetlen mesterségesintelligencia-alapú videógenerátor. A Google január végén mutatta be saját megoldását, a Google Lumiere-t. Erről jóval kevesebb információ került napvilágra, mint az OpenAI termékéről, de a Lumiere funkciója ugyanaz: szöveges utasítások alapján készít maximum 5 másodperces, ám hasonlóan részletes, fotorealisztikus videókat.
A modell képességei nem kevésbé lenyűgözőek, amit az alábbi videó is bizonyít:
A Google megoldásának egyik erőssége, hogy egy példaként szolgáló kép alapján lemásolja annak stílusát, és abban a stílusban gyárt videókat. Így különösen alkalmas állóképek animált “meghosszabbítására”.
Emellett ma már több más, kisebb műhelyből kikerülő AI modell is hozzáférhető, így egyértelműen kijelenthető, hogy a videók automatizált létrehozása már nem egy hagymázas álom, hanem a mindennapok valósága. A technológia üzleti célú felhasználása kézenfekvőnek tűnik, és már ma is elérhető.