
Nakipagtulungan ang Canadian startup na MyShell sa mga mananaliksik ng MIT at Tsinghua University upang lumikha ng OpenVoice AI. Maaaring i-clone ng tool ang mga boses at payagan ang butil na kontrol sa tono, emosyon, accent, ritmo, atbp. Bukod dito, maaari itong bigkasin ang mga parirala at emosyon sa iba’t ibang wika, na nagbubukas ng maraming potensyal na aplikasyon.
Halimbawa, maaari kang magkaroon ng mataas na kalidad na AI voiceover para sa iyong mga video sa YouTube sa halip na magbayad para sa isang propesyonal. Gayunpaman, ang advanced na teknolohiya ng voice cloning ay maaaring humantong sa mas masasamang layunin, gaya ng mga scam. Iyon ang dahilan kung bakit dapat tayong matuto nang higit pa tungkol sa mga tool na ito habang nagiging mas malawak ang mga ito.
Idetalye ng artikulong ito ang maraming feature ng OpenVoice AI. Sa ibang pagkakataon, tatalakayin ko ang isang katulad na tool mula sa Microsoft at Cornell University upang ilarawan kung gaano kalayo ang aming na-explore ang teknolohiyang ito.
Paano gumagana ang OpenVoice AI?
Ngayon, ipinagmamalaki naming binuksan ang source ng aming OpenVoice algorithm, na tinatanggap ang aming pangunahing ethos – AI para sa lahat.
Damhin ito ngayon: https://t.co/zHJpeVpX3t. I-clone ang mga boses na may walang katulad na katumpakan, na may butil-butil na kontrol ng tono, mula sa emosyon hanggang sa impit, ritmo, pag-pause, at intonasyon, gamit lang ang isang… pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai) Enero 2, 2024
Ipinaliwanag ng MyShell sa pahina ng Github nito na ang OpenVoice AI nito ay may tatlong pakinabang sa mga katulad na tool. Una, mayroon itong Accurate Tone Color Cloning, na nagbibigay-daan upang mai-clone ang kulay ng reference na tono at makabuo ng pagsasalita sa maraming wika at accent.
Pangalawa, ang Flexible Voice Style Control ay nagbibigay-daan sa mga user na baguhin ang mga partikular na katangian ng isang sample ng boses, gaya ng emosyon, impit, pag-pause, at intonasyon. Pangatlo, ang Zero-shot Cross-lingual Voice Cloning ay nagbibigay-daan sa OpenVoice na bumuo ng pagsasalita sa mga wikang hindi kasama sa multi-lingual na dataset ng pagsasanay nito.
Maaaring gusto mo rin ang: AI city planning to revolutionize urban spaces
Alamin ang tungkol sa mga kakayahan ng artificial intelligence na ito sa MyShell research website. Maaari mong marinig kung paano ang tool ay maaaring gumawa ng isang sample ng boses na bigkasin ang iba’t ibang mga linya.
Maaari rin itong makabuo ng mga pagbigkas na naghahatid ng kalungkutan, kaligayahan, at iba pang emosyon. Bukod dito, maaaring ayusin ng programa ang mga boses para magsalita sa iba’t ibang accent, tulad ng British at Indian.
Ang mga katulad na programa ay maaari lamang bumuo ng mga mensahe sa Ingles at ilang iba pang mga wika. Gayunpaman, ang OpenVoice AI ay maaaring isama ang ilang mga wika sa isang solong sipi.
Iba pang vocal AI programs
Nakabuo din ang Microsoft ng katulad na tool na tinatawag na VALL-E, na lumilikha ng personalized na pagsasalita mula sa mga text at acoustic prompt kasama ang Neural Codec Language Modeling nito. Sa madaling salita, maaari itong bumuo ng mga voice message mula sa mga paglalarawan ng teksto at tatlong segundong pag-record ng boses.
Ang tampok na ito ay nagbibigay-daan sa VALL-E na gumawa ng mga pahayag na halos hindi makilala sa boses ng isang tunay na tao, katulad ng OpenVoice AI. Sinasabi ng mga mananaliksik nito na “mapapanatili nito ang damdamin ng nagsasalita at acoustic na kapaligiran ng acoustic sa synthesis.”
Ang Microsoft Program na ito ay maaari ding magdagdag ng nakapaligid na ingay upang mapahusay ang pagiging totoo, na itinatakda ang mga resulta nito bukod sa pasimulang mga tool sa text-to-speech. Bukod dito, isang estudyante ng Cornell University ang kumuha ng AI voice recognition sa susunod na antas sa pamamagitan ng pagsasama nito sa isang pares ng salamin.
Tinawag ng doktor na estudyante na si Ruidong Zhang ang kanyang device na EchoSpeech. Ang kasalukuyang bersyon ay nagbibigay-daan sa mga user na makipag-ugnayan sa iba sa pamamagitan ng smartphone. Gumagamit ito ng AI-powered sonar system para basahin ang mga labi ng user.
Kasama sa Sonar ang pagpapadala ng mga sound wave upang i-bounce ang mga ito laban sa mga bagay sa paligid. Pagkatapos, natatanggap ng transmitter ang bumabalik na tunog upang i-map ang kapaligiran.
Ito ay katulad ng kung paano nag-navigate ang mga paniki sa matinding dilim sa kabila ng mahinang paningin. Gumagamit ang mga salamin ng AI ni Zhang ng sonar upang matukoy ang mga hugis at galaw ng bibig ng isang user habang nagsasalita sila.
Tinutugma ng device ang mga sound wave na iyon sa algorithm ng Smart Computer Interfaces for Future Interactions (SciFi) Lab. Sinusuri ng artificial intelligence na ito ang mga echo profile na may 95% na katumpakan.
Maaari mo ring magustuhan ang: Hayaan ang Artipisyal na Katalinuhan na Maging Boses Mo sa Murf AI
Ang EchoSpeech ay nagtatakda ng sarili bukod sa mga katulad na gadget dahil sa pamamaraang ito ng sonar. Nagbibigay ito ng mas tumpak na pagkilala sa pagsasalita, na ginagawang mas kapaki-pakinabang ang mga ito.
Gayundin, ang mga AI glass na ito ay mukhang hindi mahalata dahil sa kanilang maliliit na mikropono at speaker. Bilang resulta, ang EchoSpeech ay mas praktikal para sa pang-araw-araw na paggamit.
Ang kasalukuyang bersyon ay nagbibigay-daan sa mga tao na makipag-usap sa pamamagitan ng pag-project ng kanilang mga salita sa isang smartphone. Bilang resulta, maaari silang magsalita sa hindi maginhawang kapaligiran, tulad ng isang maingay na kalye o tahimik na library.
Konklusyon
Ang MIT, Tsinghua University, at ang startup na MyShell ay lumikha ng AI voice cloning program na malapit na ginagaya ang pagsasalita ng tao. Maaari mong gawin ang iyong sample ng boses na magsalita ng ilang mga sipi sa iba’t ibang wika.
Ang OpenVoice AI ay kinokopya ang mga banayad na katangian tulad ng intonasyon at pag-pause para makapaghatid ng mahusay na katumpakan. Gayundin, maaari nitong pangasiwaan ang mga pangungusap na naglalaman ng iba’t ibang wika.
Matuto pa tungkol sa voice cloning na artificial intelligence sa arXiv webpage nito. Tingnan ang iba pang mga digital na tip at trend sa Inquirer Tech.
MGA PAKSA:










