Zdaleka ne každá kancelář technologické firmy odpovídá představám jiné než korporátní atmosféry, ale pokud to o nějaké jde říct, rozhodně to platí o prostorách, které mají spolu vědci dvou sesterských firem – startupů Oddin.gg a ValkaAI. Kanceláře se neodchylují od severské mytologie, podle níž jsou oba pojmenované. Provází nás masivní dřevo, tu a tam až mystická estetika tamních legend, stěny mechové barvy, obrazy a detaily bohů, bojovníků a jejich vybavení.
Vlastimil Venclík buduje firmy přesně s touto vervou. Jeho Oddin se vydal na spanilou jízdu, během níž se stal opakovaně nejrychleji rostoucí technologickou společností regionu. Se startupem ValkaAI pojmenovaném po božstvu sloužícím Ódinovi, ve kterém vedle něj stojí jako spoluzakladatel Miloš Lokajíček, mají další plány.
„Ultimátním cílem ValkaAI je vytvořit AI avatary, kteří nebudou jen něco předříkávat podle scénáře, ale budou schopni živě reagovat, vést konverzaci a přirozeně působit v reálném čase. Chceme posunout digitální postavy z fáze ‚generovaného obsahu‘ do fáze skutečně interaktivních osobností,“ říká Venclík.
Firma má vytvářet videoobsah „na požádání“, od gamingu přes sportovní přenosy až třeba po filmy budované na míru. Vše v realistické podobě a správně reagující na prostředí, které si diváci třeba sami vytvoří. Aby to bylo možné, potřebuje propojit generování obrazu, hyperrealistické ztvárnění avatarů, správný děj i audiostopu, a to vše ještě namixovat s odpovídajícími emocemi. Takovými, které se generují právě v tu chvíli, kdy si je divák usmyslí. Dlouhodobá vize je totiž vytvořit platformu, kde každý divák může do obsahu vstupovat a ovlivňovat ho podle sebe.
Ve startupu se pohybuje zhruba čtyřicet pět lidí, z části převzatých ze sesterské Oddin.gg, z části přivedených z velkých amerických laboratoří včetně Mety a DeepMindu. Týmy jsou rozprostřené mezi San Franciskem, Prahou a Dubají, aby firma uměla reagovat ve všech časových pásmech.
Sešli jsme se tak se dvěma vědci, kteří stojí v čele projektu, který má podle představ Venclíka změnit způsob, jakým se díváme na zápasy nebo filmy. Ondřej Texler a Jan Petrov tvoří jádro výzkumného týmu startupu, který loni získal rekordních 300 milionů korun ještě před tím, než měl hotový produkt. Texler vede tým, který učí avatary pohybovat rukama tak přirozeně, že dokážou vzít hrací kartu, a divák ani nezapřemýšlí nad tím, že se snad jediný sval pohybuje nepřirozeně. Petrov řeší, jak vygenerovat správný komentář ve správný moment.
„Jsou to špičkoví vědci ve svých oborech, ale zároveň lidé, kteří nechtějí dělat výzkum „do šuplíku“. Chtějí vidět, že jejich práce má reálné uplatnění, dostane se do produktu a může měnit způsob, jakým lidé s technologiemi skutečně interagují,“ chválí je Venclík.
Nabídka, kterou jsem nedokázal odmítnout
Ondřej Texler vede ve startupu výzkumný tým generativního videa a fotorealistického renderingu lidí. Donedávna působil v Silicon Valley, kde pracoval v Samsungu a ve startupu Comfy.org. Stavěl AI avatary v Los Angeles ve firmě HeyGen, která patří mezi nejvýraznější hráče v oblasti syntetických avatarů a mluvících hlav. Předtím prošel výzkumnými pozicemi v Adobe a Snapu. Pod jeho jménem najdete řadu výzkumných článků a taky patentů především v oblasti generování obrázků a virtuálních avatarů.
Má doktorát z počítačové grafiky na ČVUT, kde studoval pod Danielem Sýkorou, mezinárodně citovaným odborníkem na non-photorealistic rendering. Tématem disertace bylo, jak pomocí strojového učení usnadnit umělcům vytváření animovaných filmů. Tradiční postup vyžaduje malovat snímek po snímku, což u třicetiminutového filmu znamená tisíce obrázků. Texlerova práce ukazovala, jak by mohla neuronová síť proces dramaticky zkrátit: umělec namaluje jeden, dva, nebo například pět vzorových obrázků, model se z nich naučí jeho styl a pak ho aplikuje na celé video. „Před nějakými šesti lety jsme dokázali natrénovat neuronovou síť ‚from scratch‘ z jediného obrázku,“ říká. „V té době to bylo považované za nesmysl. Sítě se tehdy trénovaly na tisících či milionech snímků,“ vysvětluje.
Když ho oslovil Venclík s návrhem postavit výzkumnou laboratoř, která se bude soustředit konkrétně na avatary manipulující s předměty, byla to přesně ta kombinace, na kterou v Americe roky čekal. „Bylo to o úroveň náročnější než cokoli, co jsem dělal předtím. Tomu jsem nedokázal říct ne,“ říká.
Ona náročnost generování pohybujících se avatarů spočívá hned v několika oblastech. Jednou z nich je skutečnost, že pro cíle firmy je třeba to dělat v reálném čase, k čemuž se ještě mnohokrát dostaneme. A druhou je potřeba neřešit jen mluvící obličej, ale přesvědčivě ukázat také třeba ruce. Je to jedna z nejnáročnějších disciplín. Ruce musí být takové, které věrohodně berou předmět ze stolu, jsou schopné ho přemístit, otočit, ukázat divákovi z konkrétního úhlu a v přesný okamžik.
Něco, co lidský mozek dělá automaticky, je pro generativní model peklo. „Ruce mají strašně moc stupňů volnosti. Můžou být otočené nahoru, dolů, prsty se vzájemně překrývají, dělají takzvaný self-occlusion, takže se navzájem překrývají a vrhají na sebe stíny. Když k tomu přidáte ještě nějaký objekt, který avatar drží, je to úplně jiná liga,“ vysvětluje Texler.
Druhým z dvojice, se kterou jsme se v pražské kanceláři sešli, je Jan Petrov, jenž ve firmě vede tým pracující s jazykovými modely a generováním textu. Jeho profil je na české tech scéně netypický: vystudoval nejdříve práva a ekonomii na Karlově univerzitě, pracoval v korporátním právu, ale když ho to přestalo bavit, šel ještě vystudovat umělou inteligenci na FEL ČVUT. Před vstupem do ValkaAI se podílel například na trénování velkého jazykového modelu Sellma pro Seznam.cz. Učil ho nejen rozumět češtině, ale také si hezky povídat a dodržovat instrukce. „Baví mě schopnost porozumět významu,“ říká. „Počítače to v nějaké rozumné kvalitě umí teprve, řekněme, od roku 2018,“ dodává.
Avatar totiž musí nejen vypadat, ale i mluvit, a to už ve chvíli, kdy se něco začíná dít, tedy v reálném čase. Valka právě pracuje na AI komentátorovi pro esport a úplně čerstvě dokončila verzi pro turnaje v Counter-Strike. „Už nejde jen o interní experiment, ale o první veřejný krok směrem k tomu, co chceme ve ValkaAI dlouhodobě stavět. Counter-Strike pro nás byl ideální testovací prostředí, protože je rychlý, velmi kontextový a divácky náročný. Komentátor tam nemůže jen popisovat, co se právě stalo – musí chápat tempo hry, význam konkrétní situace i to, co bude pro diváka zajímavé. Pro nás je launch důležitý hlavně proto, že ověřuje schopnost avatara reagovat živě na komplexní dění v reálném čase, a co je nejdůležitější, s emocemi,“ říká Venclík.
Destilace videa
Současné video modely, které generují obraz na základě textového promptu, jsou v podstatě černé skříňky. Řeknete jim, co chcete, a doufáte, že to vyplivnou. Když po nich chcete, aby avatar v přesně třetí vteřině ukázal divákovi předmět z konkrétního úhlu, možná to udělá – ale možná také ne. „Není to ta kontrola, kterou potřebuju,“ říká Texler. „Já třeba potřebuju, aby měl avatar nějaký objekt zakrytý a v určitou chvíli ho odhalil. To je věc, kterou textový prompt nevyřeší.“
Startup proto vyvíjí to, čemu Venclík říká „language of motion“ – efektivní reprezentaci pohybu, která drží konzistenci napříč snímky a umožňuje uživateli nebo nadstavbovému systému řídit pohyb v reálném čase. Místo toho, aby se video generovalo v celých blocích, řeší se snímek po snímku, podle aktuálních vstupů, jako je hlas, gesta či herní situace. To je technicky výrazně náročnější, ale výsledek je plynulejší. Výzkumný tým experimentuje s pokročilými diffusion architekturami a paralelně i s generative adversarial networks, neboli GANy – staršími, ale na některé úlohy stále vhodnějšími modely. Cílem je syntéza v reálném čase, která zároveň udrží konzistenci, realismus a stylistickou jednotu napříč snímky.
Trénovat takový systém znamená shánět hodně dat. Valka má vlastní studio, kam si najímá herce, kteří před kamerou manipulují s objekty, smějí se, ukazují gesta. Vedle toho se používají veřejné datasety a pokročilá metoda označovaná jako destilace, kdy se z velkého základního modelu, který už během svého trénování viděl miliony hodin videa, vytahuje znalost a komprimuje se do menšího, použitelnějšího modelu. „Často se dnes ten dataset nepoužívá ve formě milionů hodin videa, ale ve formě modelu, který už ta data viděl,“ popisuje Texler. „Snažíme se z toho modelu dostat to, co má v sobě zapamatované,“ rozebírá.
Říká, že na trénování jednoduchého videomodelu je dnes potřeba zhruba dvacet tisíc minutových vzorků, pro pořádný model klidně dvě stě tisíc. „Dvě stě tisíc různých lidí ve videu, to je jak počet obyvatel většího českého města“ srovnává Texler s tím, že takový dataset se přirozeně neshromažďuje ručně.
Instantní emoce
A hlasově?
„Není to tak, že se jazykový model podívá na Counter-Strike a najednou to umí okomentovat,“ vysvětluje Petrov. „Potřebujete velmi kreativně předzpracovat data z té hry pro jazykový model. A pak máte různé typy komentářů. Reaktivní – řekněme, že někdo někoho zastřelil, to není tak těžké. Ale potřebujete tam dodat vhled, kontext, propojit to s tím, co se dělo dřív v zápasu,“ popisuje. Komentátor musí vědět nejen to, o čem mluvit, ale taky kdy danou věci začít komentovat, a kdy naopak mlčet. Někdy je potřeba přerušit svoji vlastní větu, protože se na obrazovce stalo něco, co prostě musí zaznít hned.
„Komentátorův hlas je úzké hrdlo, kterým musíte protlačit informace,“ pokračuje Petrov. „Můžete začít povídat nějaký hluboký vhled na pět vět, ale najednou spolu tři hráči začnou bojovat. Je třeba komentovat jejich přestřelku, a ne vést dlouhý monolog,“ vysvětluje. Modely startupu tak musejí v podstatě předpovídat budoucnost. Na to má výzkumný tým zvaný „Event Generation“, který se zabývá vytvářením pravděpodobnostních simulací průběhu zápasů – v esportech jako Counter-Strike, Dota 2 nebo League of Legends i v tradičním fotbalu. Tým experimentuje s reinforcement learningem a transformer architekturami a snaží se predikovat herní stavy s takovou přesností, aby bylo možné postavit obsah, který divákovi předkládá nejen to, co se právě stalo, ale i to, co se může stát v následujících vteřinách.
A tedy: čím lépe model dokáže odhadnout, co se v dalších několika vteřinách stane, tím lépe se rozhodne, jestli má mlčet a počkat na akci, nebo zaplnit prostor vhledem do strategie.
Vše zmíněné by nefungovalo bez emoce. U komentářů očekáváme okamžitou dramatickou modulaci hlasu, kdy se z běžného tónu ve zlomku vteřiny stává výkřik typu „A je tam!“ a vzápětí se zase vrací k normálu. „Říct text v jedné průměrné emoci je vyřešený problém,“ vysvětluje Petrov. „Říct najednou ‚padl gól‘ a pak hned pokračovat klidným hlasem, to je úplně jiný problém,“ dodává ale. Audio tým proto sbírá audio data nahraná ve více stupních intenzity emoce, od neutrálu po nejvíc vyhrocený projev, a učí model, jak mezi nimi přepínat. K tomu přibývá voice cloning, tedy schopnost reprodukovat konkrétní hlas a osobnost mluvčího z relativně malého referenčního vzorku.
Ke všemu zmíněnému se pak situace komplikuje ještě ve chvíli, kdy se z esportu přesuneme do reálných sportů. „V esportu žije hra v počítači, takže často rovnou máte strojově dobře zpracovatelná data – víte, kde kdo je a například kdo na koho míří,“ popisuje Petrov. „U reálného fotbalu máte v extrému jen videostream. A teď potřebujete pochopit, kde jsou hráči, jaký je záběr kamery, co se vlastně právě stalo. To už není jednoduchá úloha,“ rozebírá.
Na vlně AI
„Celé Silicon Valley je bublina,“ říká Texler. Prasknout ale nemá. „Do video modelů tečou exponenciálně víc peněz a tím se z toho stává sebenaplňující se cyklus. Udělá se pokrok, který odblokuje další možnosti užití, do kterých další investoři nalijí ještě víc peněz, a tím se zase posune pokrok,“ popisuje. Dělat výzkum v oblasti, kam teče kapitál, je výhoda. Firma může stavět na tom, co už vyřešil někdo jiný.
Vědomě se tým drží stranou hlavního proudu, kterým je trénování foundation modelů. „V tom nás Google nebo OpenAI převálcují. Mají data, hardware i lidi. To není hra, kterou bychom jako startup mohli s nimi hrát,“ říká Texler. Valka své aplikace staví kolem těchto modelů. K tomu některé problémy strategicky ovládá. „Mám stoprocentní jistotu, že během následujícího roku vyjdou desítky paperů a modelů, které vyřeší real-time video generování,“ uvádí Texler. „Tak proč na tom budu spalovat zdroje teď, když si můžu počkat, až mi to někdo vyřeší,“ táže se řečnicky.
Stejně tak ale posílá své poznatky do komunity dál, staví na spolupráci s univerzitami a publikuje část svého výzkumu. „Když publikujeme nějakou techniku rychlejšího renderování videa, někdo jiný to použije na úplně jiný use case – třeba na medicínu. Co používáme my, můžou pak používat oni, a naopak,“ říká Texler.
Firmy přicházejí s řadou technologií videomodelů, stejně tak těch jazykových i audio. Ale projektů, které skládají dohromady v reálném čase video, kontrolu pohybu, emocionálně řízené audio a porozumění herní situaci, už tolik není. „Síla ValkaAI je v tom, že tu jsou tři výzkumné týmy,“ věří Petrov. „Můžou spolupracovat na jakémkoli audiovizuálním produktu a dodat ten kompletní balíček. Třeba teď je ve vývoji produkt, kde se protne video, audio i jazykové porozumění,“ těší se.
Investoři chválili, že jde z deeptechového hlediska o důležitou technologii s dopadem v oblasti zábavy, ale i v dalších. Vytvářet avatary není tak výjimečné, ale v reálném čase ovladatelný fotorealistický obsah je daleko méně obsazená disciplína.
Ideální laboratoř
Projekt, o kterém vědci mluví, tedy avatar manipulující v reálném čase s libovolnými objekty, je zatím stále vize. ValkaAI se k ní byznysově hodlá prokousat prostřednictvím zmíněného AI komentátora pro esport.
Pomáhá v tom zmíněný spřízněný startup Oddin.gg. Když vznikla ValkaAI, obě firmy Venclík zastřešil do skupiny Realms Group. Oddin se vypracoval mezi přední světové hráče v oblasti esportových dat a datové infrastruktury, roste o tisíce procent a služby druhého startupu může využívat a nabízet dál. Venclík to ostatně dříve označil jako „startupový hack“.
Esport je z hlediska generativní AI ideální laboratoř. Data jsou strukturovaná, hra běží v počítači a vývojáři poskytují průběžné informace o stavu hry, takže není nutné všechno detekovat z videostreamu. „Pohybujeme se rychle. Ten produkt vznikl za zhruba čtyři měsíce,“ říká Petrov. „A myšlenka ValkaAI není zanořit se hluboko do komentáře jedné hry, ale naučit se obecnější know-how a pak přeskakovat ze hry na hru.“
Esport je obrovský byznys, jen v Česku se na jeho turnajích ročně prosází řádově miliardy korun, a komentátor přizpůsobující se divákovi má tak jasné byznysové užití. Z delšího hlediska se ale nabízejí i další oblasti pro smysluplné a fungující avatary: učitel, který drží v rukou model molekuly nebo planetární soustavy, nebo třeba tlumočník do znakového jazyka. „A desítky způsobů užití, na které dnes nikdo nepřišel, protože technologie zatím neexistuje,“ věří Texler.
„Je skvělé, že se technologie rychle vyvíjí. Jste na zajímavé hraně, kdy vás právě technologie posouvá vpřed, ale zároveň vás ta vlna nezavalí,“ vnímá Petrov. Aby se tak skutečně nestalo, tým startupu musí iterovat rychle. A ke každé vlně přidávat něco, co konkurence nemůže během řádově dnů replikovat.