Naaalala mo ba ang mga nakakatawang larawan mula sa mga pelikulang Harry Potter? Minsan, si Harry at ang gang ay nagsasalita sa mga kuwadro na ito, na maaaring magbigay ng mga pahiwatig sa kanilang mga problema.
Gumawa kamakailan ang Google ng AI program na maaaring gawing buhay ang mga still image tulad ng mga portrait na iyon: VLOGGER.
BASAHIN: Tinutulungan ng Stanford AI ang mga robot na gumalaw tulad ng mga tao
Ang bagong artificial intelligence ay maaaring makabuo ng audio at makapagsalita at makagalaw ng larawan sa isang maikling clip, na magbubukas ng mga bagong posibilidad para sa teknolohiyang ito.
Paano gumagana ang VLOGGER?
Sinasabi ng VentureBeat na ang “AI model ay maaaring kumuha ng larawan ng isang tao at isang audio clip bilang input, at pagkatapos ay mag-output ng isang video na tumutugma sa audio, na nagpapakita sa taong nagsasalita ng mga salita at gumagawa ng kaukulang mga ekspresyon ng mukha, paggalaw ng ulo, at mga galaw ng kamay.”
Pinangunahan ng Google researcher na si Enric Corona ang isang team na magsanay ng isang modelo ng artificial intelligence sa isang malaking dataset ng video upang gawing posible ang mga feature na ito.
Tinatawag nila ang dataset na MENTOR, na naglalaman ng higit sa 800,000 magkakaibang pagkakakilanlan at 2,200 oras ng video.
Ang napakaraming impormasyon na ito ay nagbibigay-daan sa VLOGGER na bumuo ng mga video ng mga tao ng iba’t ibang etnisidad, edad, at iba pang mga katangian.
Inipon ng mga mananaliksik ang kanilang trabaho sa papel na pinamagatang, “VLOGGER: Multimodal Diffusion para sa Embodied Avatar Synthesis.”
“Kabaligtaran sa nakaraang gawain, ang aming pamamaraan ay hindi nangangailangan ng pagsasanay para sa bawat tao, hindi umaasa sa pag-detect ng mukha at pag-crop, bumubuo ng kumpletong imahe (hindi lamang sa mukha o sa mga labi), at isinasaalang-alang ang isang malawak na spectrum ng mga senaryo (hal. torso o magkakaibang pagkakakilanlan ng paksa) na kritikal upang mai-synthesize nang tama ang mga taong nakikipag-usap,” isinulat ng mga may-akda.
Sinasabi ng VentureBeat na ang AI model na ito ay maaaring magbigay-daan sa mga aktor na maglisensya ng mga detalyadong 3D na modelo ng kanilang mga sarili para sa mga pagtatanghal sa hinaharap.
Ang programa ay maaari ring awtomatikong mag-dub ng mga video sa ibang mga wika sa pamamagitan ng pagpapalit ng audio track.
Marahil ay makakatulong ang teknolohiya sa paggawa ng mga photorealistic na avatar para sa mga video game at virtual reality. Gayunpaman, ang programa ay may mga limitasyon.
Halimbawa, ang mga VLOGGER na video ay maikli at may mga static na background. Bukod dito, ang mga paksa sa mga video ay hindi sumasakop sa isang 3D na kapaligiran at nagpapakita ng mga hindi natural na paggalaw.