Napanood mo na ba ang noontime show, “Eat Bulaga?” Mapapansin mong gumagamit ito ng mga larawan ng tao na ginawa para makipag-usap tulad ng mga miyembro ng pamilya.
Ang gag ay ang mga ito ay parang mga awkward na robotic na boses na may pinalaking American accent.
BASAHIN: Kinukuha ng mga siyentipiko ang mga halaman na “nag-uusap” sa isa’t isa
Ang mga kamakailang pagpapaunlad ng artificial intelligence ay lumampas sa mga karikatura na ito. Ang Microsoft VASA-1 ay ang pinakabagong halimbawa.
Ang pangunahing tech firm ay nag-anunsyo na lumikha ito ng isang modelo ng artificial intelligence na maaaring makapagsalita ng mga mukha at makapagsalita nang malinaw.
Ano ang Microsoft VASA-1?
Ang kumpanyang nagtatag ng Bill Gates ay nag-anunsyo ng VASA, isang AI framework para sa pagbuo ng “mga mukha ng pakikipag-usap ng mga virtual na character” mula sa isang larawan at isang speech audio clip.
Tinawag ng Microsoft ang unang modelong VASA-1. Maaari itong gumawa ng mga galaw ng labi na malapit na sumasabay sa mga sound clip.
Bukod dito, ang AI model ay nakakakuha ng maraming facial nuances at natural na mga galaw ng ulo na ginagawang nakakumbinsi ang mga ito na parang buhay.
Sinabi ng kumpanya na ang VASA-1 ay nagmula sa mga pangunahing inobasyon tulad ng isang holistic na facial dynamics at head movement generation model na gumagana sa isang face latent space.
Kasama rin dito ang maraming sample ng video upang lumikha ng “expressive at disentangled face latent space gamit ang mga video. Bilang resulta, ang mga clip ng VASA ay nagpapakita ng mga sumusunod na katangian:
- Realismo at kasiglahan: Ang modelo ng AI ay maaaring gawing natural na gumagalaw ang mga portrait ng mukha, nang hindi nakadikit sa background.
- Pagkontrol ng henerasyon: Magagawa ng mga user na tingnan ang mga mukha sa mga partikular na direksyon, i-zoom in o out ang mga ito, at maghatid ng iba’t ibang emosyon.
- Out-of-distribution generalization: Maaaring pangasiwaan ng Microsoft VASA-1 ang mga masining na larawan, audio sa pag-awit, at pagsasalita na hindi Ingles, nang walang pagsasanay para sa mga tampok na ito.
- Kapangyarihan ng paghihiwalay: Ang AI program ay nagbibigay-daan sa mga user na baguhin ang hitsura ng mukha, 3D head pose, at facial dynamics nang paisa-isa.
- Real-time na kahusayan: Ang Microsoft AI ay bumubuo ng mga video frame na may 512×512 pixel na laki sa 45fps sa offline na batch processing mode. Gayundin, kaya nitong suportahan ang hanggang 40fps sa online streaming mode.
Ipinapaalala ng Microsoft sa publiko na gumamit ito ng virtual, hindi umiiral na mga pagkakakilanlan na ginawa ng mga AI program na DALL-E-3 at StyleGAN2, maliban sa sample ng Mona Lisa.
Ang mga larawang ito ay hindi nagpapanggap bilang sinumang tao sa totoong mundo. Inilaan ng Microsoft ang mga limitasyong ito dahil nauunawaan nito ang posibilidad ng maling paggamit.
Sinabi ng kumpanya, “Wala kaming planong maglabas ng online na demo, API, produkto, karagdagang mga detalye ng pagpapatupad, o anumang nauugnay na mga alok hanggang sa matiyak namin na ang teknolohiya ay gagamitin nang responsable at alinsunod sa wastong mga regulasyon.”