Ang wika ay nagpapahayag, kultural, dinamiko — at ngayon, nagpapalaya. With the theme of “Wikang Mapagpalaya,” the Komisyon sa Wikang Filipino (KWF) celebrated more than a hundred Filipino languages this month of August.
“Mapagpalaya” elicits a sense of agency and inclusivity. Sa isang webinar noong Agosto 22 ng KWF, binigyang-diin ni DOST-PCIEERD (Philippine Council for Industry, Energy and Emerging Technology Research and Development) Executive Director na si Dr. Enrico C. Paringit ang papel ng pagsulong ng teknolohiya, partikular sa natural language processing (NLP), sa pagpapabuti ng digital accessibility ng mga wika sa Pilipinas.
“’Yung bilang na lamang ng wika na nasa atin ay maaaring maging dahilan para magbuhos pa tayo ng atensiyon sa paglilinang ng wika. At hindi lamang ito dahil gusto nating pagandahin ang wika. Ito rin ang susi upang mapayabong pa natin, mapaganda pa natin ang lebel ng teknolohiya,” sabi ni Dr. Paringit.
(Ang ating bilang ng mga wika ay maaaring maging dahilan para mas bigyan natin ng pansin ang paglinang ng wika, hindi lamang dahil gusto natin itong mapabuti, kundi dahil ito ay susi sa pagpapabuti ng ating teknolohiya.)
Ang natural na pagpoproseso ng wika ay isang subfield ng artificial intelligence na nagbibigay-daan sa mga computer na magproseso, mag-interpret, at, ngayon, makabuo ng mga tekstong nakasulat sa wika ng tao. Kinokolekta ang data mula sa isang set ng nakasulat at pasalitang teksto, kadalasang naka-digitize.
Isang kapansin-pansing pagsisikap na mangolekta ng data para sa isang Philippine Languages Database ay ang ISIP Project 6 ng 2011, na gumawa ng isang corpus na may katutubong pagbigkas at konteksto para sa mga salitang Filipino. Noong 2018, binuo ng mga mananaliksik mula sa UP Diliman ang Marayum, isang web dictionary na binuo ng komunidad para sa mga wikang mababa ang mapagkukunang Asi, Cebuano, Kinaray-A, at Hiligaynon.
“Ang pangarap natin diyan ay hindi lang itong apat na ito ang maitaguyod or malagyan ng corpora o web diksyunaryokung hindi ay pati na rin ang ibang lenggwahe sa Pilipinas.”
(Ang aming pag-asa ay bumuo ng isang web dictionary hindi lamang para sa apat na ito (mga wika), kundi pati na rin sa iba pang mga wika sa Pilipinas.)
Samantala, ang MinNa LProc Research & Development Laboratory ay itinatag noong 2021 para sa NLP research, kabilang ang corpus-building, para sa mga wikang partikular sa Mindanao.
Mula noong boom ng AI noong huling bahagi ng 2010s, ang “natural na pagpoproseso ng wika” ay kolokyal na nauugnay sa generative artificial intelligence. Ang ChatGPT ay isang halimbawa ng NLP algorithm na nakakuha ng atensyon ng publiko noong 2021.
Sa sumunod na taon, binuo ng DOST-ASTI ang mga teknolohiya ng Open AI para sa proyekto ng iTanong, isang interface na nagbibigay-daan sa pakikipag-ugnayan sa mga relational database sa pamamagitan ng mga salitang Filipino, kabilang ang mga terminolohiyang Taglish.
Sa madaling salita, kung ang mga wika ng Pilipinas ay hindi ilalagay sa loob ng mga sistema na malamang na ginagamit o nakikisalamuha ng mga tao bukas – gaya ng mga sistemang gumagamit ng NLP – ang paggamit ng mga wikang ito ay maaaring lumiit, at sa matinding mga kaso, posibleng mawala.
NLPs bilang gateway para sa pakikipag-ugnayan
Ang mga relational database ay mahalaga sa pag-iimbak ng data. Mag-isip, mga sopistikadong Excel-like sheet na naglalaman ng impormasyon ng gobyerno at negosyo. Ayon sa kaugalian, ang hadlang sa pakikipag-ugnayan sa mga nilalaman ng mga database na ito ay teknikal na kasanayan.
Sa iTanong, gayunpaman, maaaring malapit nang maging posible para sa mga Pilipino na direktang makipag-ugnayan sa mga database na ito nang walang teknikal na kaalaman. Ang isang user na nagpoproseso ng isang dokumento ng pamahalaan, halimbawa, ay maaaring hilingin sa interface na kumuha ng impormasyon tungkol sa kanyang aplikasyon at makakuha ng mga nabe-verify na resulta sa kanilang katutubong wika.
Habang ang pananaliksik para sa iTanong ay nagpapatuloy, ang senior research specialist sa DOST-ASTI, Elmer Peramo, sa isang panayam kay AI advocate Dominic Ligot, ay nagpahayag ng mga plano para sa iTanong na lumampas sa English, Tagalog, at Taglish, at magsilbi rin sa iba pang mga wika sa Pilipinas. .
“Ang pag-unawa at pagbibigay-kahulugan sa isang halo ng mga wika at diyalekto ay nagbibigay-daan sa iTanong na pangasiwaan ang data nang mas tumpak, lalo na sa mga konteksto kung saan ang kahulugan at layunin ay maaaring makabuluhang magbago batay sa banayad na lingustic na mga pahiwatig,” sabi ng DOST-ASTI.
“Sa mga kapaligiran kung saan laganap ang mga partikular na terminolohiya at localized na expression, tinitiyak ng nuanced na pang-unawa ng iTanong na matutugunan nito ang mga espesyal na pangangailangan at masusuportahan ang malawak na hanay ng mga operational scenario.”
Ito ay isang halimbawa kung saan sa pamamagitan ng pagbibigay ng opsyon na makipag-usap sa isang sistema sa Filipino, hindi lamang ginagawang mas madali para sa karamihan ng mga Pilipino na gamitin ang isang potensyal na kapaki-pakinabang na teknolohiya, pinapanatili din nito ang paggamit ng wika.
Ang DOST-ASTI ay optimistiko na sa Hunyo 2025, ilang ahensya ng gobyerno, kabilang ang DOST, ang magsisimulang gumamit ng teknolohiya. Nilalayon nila ang mas malawak na paglulunsad sa Enero 2026.
“Kung hindi tayo makikiisa at makikibahagi sa mga pananaliksik ukol sa paggamit ng teknolohiya sa ating wika, maaaring ito rin ay isang kaparaanan upang ang ating wika ay tuluyan nang mawala, sapagkat alam natin na kapag hindi natin naipapasok sa larangan ng tinatawag na ‘digitalization’ ang mga bagay-bagay, parang hindi sila nag-e-exist, ‘di ba?” sabi ni Paringit.
(“Kung hindi tayo magkakaisa, at lumahok sa pagsasaliksik tungkol sa paggamit ng teknolohiya sa wika, ito ay maaaring humantong sa kabuuang pagkawala ng wika. Alam natin na ang mga bagay na hindi sumasailalim sa digitalization ay maaaring mukhang wala, tama?)
Sa kabila ng mga pagsulong na ito, itinampok ni Paringit ang mga pangunahing alalahanin sa NLP ngayon: kalabuan, bias at pagiging patas ng data, mga alalahanin tungkol sa privacy at etika, bukod sa iba pa.
Upang malunasan ang mga isyung ito, hinihikayat niya ang patuloy na pananaliksik at pag-unlad, mga komprehensibong patakaran sa paggamit ng AI, at mga pakikipagtulungan sa mga larangan ng linguistic at AI.
“Isang prospekto na gusto kong ibahagi ay ‘yung pagbubuo ng mga patakaran para sa paglago pa ng artificial intelligence. At sana po ay makita natin ang pagkilala rin sa papel ng wika upang ito ay higit pang malinang at makilala rin. Hindi lamang ito parang topic o subject na gusto lang nating pag-aralan sapagkat gusto lang natin ma-improve yung tool o mapaganda yung tool; kung hindi, meron din tayong malalim na kagustuhan na mapaglinang rin ang ating wika.”
(Isang prospect na nais kong ibahagi ay ang paglikha ng mga patakaran para sa artificial intelligence. Sana ay kilalanin natin ang papel ng linggwistika upang ito ay malinang natin. Ito ay hindi lamang isang paksa o paksa na gusto nating pag-aralan upang mapabuti ang ating mga kasangkapan. – mayroon tayong malalim na pagnanais na paunlarin ang ating mga wika.)
Nakatakdang magtapos ang pananaliksik at pagpapaunlad para sa iTanong sa Disyembre 2024. – Rappler.com