Ginagawa ng Microsoft VASA-1 ang mga mukha na magsalita at kumanta nang makatotohanan

Napanood mo na ba ang noontime show, “Eat Bulaga?” Mapapansin mong gumagamit ito ng mga larawan ng tao na ginawa para makipag-usap tulad ng mga miyembro ng pamilya.

Ang gag ay ang mga ito ay parang mga awkward na robotic na boses na may pinalaking American accent.

BASAHIN: Kinukuha ng mga siyentipiko ang mga halaman na “nag-uusap” sa isa’t isa

Ang mga kamakailang pagpapaunlad ng artificial intelligence ay lumampas sa mga karikatura na ito. Ang Microsoft VASA-1 ay ang pinakabagong halimbawa.

Ang pangunahing tech firm ay nag-anunsyo na lumikha ito ng isang modelo ng artificial intelligence na maaaring makapagsalita ng mga mukha at makapagsalita nang malinaw.

Ano ang Microsoft VASA-1?

Ibinaba lang ng Microsoft ang VASA-1.

Ang AI na ito ay maaaring gumawa ng solong imahe na kumanta at magsalita mula sa audio reference na nagpapahayag. Katulad ng EMO mula sa Alibaba

10 ligaw na halimbawa:

1. Mona Lisa na nagra-rap ng Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) Abril 18, 2024

Ang kumpanyang nagtatag ng Bill Gates ay nag-anunsyo ng VASA, isang AI framework para sa pagbuo ng “mga mukha ng pakikipag-usap ng mga virtual na character” mula sa isang larawan at isang speech audio clip.

Tinawag ng Microsoft ang unang modelong VASA-1. Maaari itong gumawa ng mga galaw ng labi na malapit na sumasabay sa mga sound clip.

Bukod dito, ang AI model ay nakakakuha ng maraming facial nuances at natural na mga galaw ng ulo na ginagawang nakakumbinsi ang mga ito na parang buhay.

Sinabi ng kumpanya na ang VASA-1 ay nagmula sa mga pangunahing inobasyon tulad ng isang holistic na facial dynamics at head movement generation model na gumagana sa isang face latent space.

Kasama rin dito ang maraming sample ng video upang lumikha ng “expressive at disentangled face latent space gamit ang mga video. Bilang resulta, ang mga clip ng VASA ay nagpapakita ng mga sumusunod na katangian:

Realismo at kasiglahan: Ang modelo ng AI ay maaaring gawing natural na gumagalaw ang mga portrait ng mukha, nang hindi nakadikit sa background.
Pagkontrol ng henerasyon: Magagawa ng mga user na tingnan ang mga mukha sa mga partikular na direksyon, i-zoom in o out ang mga ito, at maghatid ng iba’t ibang emosyon.
Out-of-distribution generalization: Maaaring pangasiwaan ng Microsoft VASA-1 ang mga masining na larawan, audio sa pag-awit, at pagsasalita na hindi Ingles, nang walang pagsasanay para sa mga tampok na ito.
Kapangyarihan ng paghihiwalay: Ang AI program ay nagbibigay-daan sa mga user na baguhin ang hitsura ng mukha, 3D head pose, at facial dynamics nang paisa-isa.
Real-time na kahusayan: Ang Microsoft AI ay bumubuo ng mga video frame na may 512×512 pixel na laki sa 45fps sa offline na batch processing mode. Gayundin, kaya nitong suportahan ang hanggang 40fps sa online streaming mode.

Ipinapaalala ng Microsoft sa publiko na gumamit ito ng virtual, hindi umiiral na mga pagkakakilanlan na ginawa ng mga AI program na DALL-E-3 at StyleGAN2, maliban sa sample ng Mona Lisa.

Ang mga larawang ito ay hindi nagpapanggap bilang sinumang tao sa totoong mundo. Inilaan ng Microsoft ang mga limitasyong ito dahil nauunawaan nito ang posibilidad ng maling paggamit.

Sinabi ng kumpanya, “Wala kaming planong maglabas ng online na demo, API, produkto, karagdagang mga detalye ng pagpapatupad, o anumang nauugnay na mga alok hanggang sa matiyak namin na ang teknolohiya ay gagamitin nang responsable at alinsunod sa wastong mga regulasyon.”

Ano ang On

Nanawagan ang Obispo para sa mga kampana ng simbahan na tumunog gabi-gabi para sa kapayapaan sa buong Negros Island

Mas gusto ng Lazada Philippines CEO na walang sariling opisina

Hindi papayagan ng Philippine coast guard ang pag-reclaim ng China sa pinagtatalunang shoal, sabi ng opisyal

Si Elon Musk ay nagsasalita tungkol sa sistema ng edukasyon

Maaaring nagtatampok ang OpenAI event ng bagong paghahanap at assistant ng AI

Ano ang pinakamababang haba para sa isang secure na password?

Inilabas ng Apple ang iPad Pro, Apple Pencil Pro

Nakatagpo ng problema ang implant ng utak ng Neuralink

Isinasaalang-alang ng OpenAI na hayaan ang mga user na gumawa ng AI porn

Ang PHPC ang unang stablecoin ng Pilipinas

Paano ikonekta ang PS5 controller sa iyong computer

Paano ayusin ang mga problema sa pag-sync ng email sa Android

Mas gusto ng Lazada Philippines CEO na walang sariling opisina

Hindi papayagan ng Philippine coast guard ang pag-reclaim ng China sa pinagtatalunang shoal, sabi ng opisyal

Michael Cohen: Mapanghamong star witness sa hush money trial ni Trump

(ANALYSIS) Mga pagninilay sa turismo ng cherry blossom ng Japan

Ang mga rate ng interes ba ng US ay sapat na mataas upang talunin ang inflation?

Hindi pa hustisya, ngunit ang desisyon ng SC ay nagbibigay sa mga aktibista ng pagkakataong lumaban laban sa red-tagging

Umani ng papuri si Kaila Estrada sa direktor ng ‘Can’t Buy Me Love’ para sa confrontation scene

Naramdaman ng WNBA ang ‘Caitlin Clark effect’ habang patapos ang season

Ano ang On

Ginagawa ng Microsoft VASA-1 ang mga mukha na magsalita at kumanta nang makatotohanan

Ano ang Microsoft VASA-1?

Patuloy na Magbasa