Systém vytváří z audio klipy video synchronizované na oko

Anonim

Systém vytváří z audio klipy video synchronizované na oko

Věda

Ben Coxworth

12. července 2017

Systém byl vycvičen v hodinách vystoupení Baracka Obamy (Kredit: Michael.worley)

Je již možné vytvořit digitální kopii hlasu někoho, který uživatelům umožňuje vytvářet zvukový soubor, který říká věci, které nikdy neřekli. Posluchači by se však stále nemuseli oklamat, protože tam by nebyla záběry osoby, která tato slova mluví. Dobře .

Výzkumníci z univerzity ve Washingtonu vytvořili systém, který převádí zvukové klipy do videí reproduktorů synchronizovaných na rty.

Aby mohl systém pracovat, musí analyzovat přibližně 14 hodin stávajících záběrů mluvčího - vědci doufají, že toto číslo výrazně sníží, snad až na jednu hodinu. Při využití neuronové sítě se dozví, které z jejich tvarů v ústech doprovázejí, které řečí zní.

Když je systém následně opatřen "cílovým videem" osoby (ve kterém by mohli mluvit o čemkoli), společně se zvukovým souborem těch, kteří mluví o požadovaných slovech, spojuje je dohromady. Dělá to tak, že zruší originální zvuk videa, nahradí ho požadovaným zvukem a mapuje počítačovou animovanou verzi úst reproduktorů namísto jejich ústa ve videu.

Konečným výsledkem je, že je slyší, že lidé mluví o požadovaných slovech a zjevně také vidí, že se jim to podařilo. Ačkoli existuje jistá možnost zrady, vědci vyvinuli technologii s jinými způsoby využití.

"Realistická konverze audio-to-video obsahuje praktické aplikace, jako je například vylepšení videokonferencí pro schůzky, stejně jako futuristické, jako je například schopnost uspořádat konverzaci s historickou postavou ve virtuální realitě tím, že vytvoříte obrazy jen ze zvuku, " říká asistentka profesor Ira Kemelmacher-Shlizerman. "Toto je druh průlomu, který pomůže umožnit další kroky."

V následujícím videu můžete vidět a slyšet používaný systém.

Zdroj: Washingtonská univerzita

Systém byl vycvičen v hodinách vystoupení Baracka Obamy (Kredit: Michael.worley)