
Nais ng mga eksperto sa teknolohiya na mag-deploy ng mga robot sa mga opisina at iba pang mga panloob na espasyo. Gayunpaman, kailangan nila ng sopistikadong artificial intelligence upang maging mas aware sa kanilang paligid.
Mukhang malapit na ang Google Gemini sa pagiging AI solution na iyon.
Idinetalye ng Google DeepMind sa kanilang arXiv paper kung paano nila ipinatupad ang Gemini 1.5 Pro upang turuan ang isang robot na tumugon sa mga utos at mag-navigate sa paligid ng isang opisina.
BASAHIN: Ang Google Gemini chatbot ay nagpapatuloy sa pag-unlad
Bilang resulta, maaaring humantong ang makina sa isang mananaliksik sa pinakamalapit na saksakan ng kuryente at matandaan kung saan sila nag-iwan ng mga partikular na item. Inamin ng Google na ang mga tampok na ito ay pangkaraniwan pa rin, kaya kakailanganin nila ng karagdagang pagsubok upang makakuha ng mga praktikal na aplikasyon.
Paano nakatulong ang Google Gemini sa robot navigation?
Matutulungan ba ng AI ang mga robot na mag-navigate?
Bilang bahagi ng isang bagong proyekto, ipinatupad ng DeepMind Robotics ng Google ang Google Gemini 1.5 Pro upang turuan ang isang robot na tumugon sa mga utos at mag-navigate sa paligid ng isang opisina 🤖 pic.twitter.com/e6jiIrX3v8
— TechCrunch (@TechCrunch) Hulyo 15, 2024
Sinabi ng TechCrunch na pinangunahan ng mga mananaliksik ang robot sa isang espesyal na guided tour upang matulungan itong maging pamilyar sa opisina ng DeepMind.
Tinatawag ng team ang paraang ito na “Multimodal Instruction Navigation with demonstration Tours (MINT).” Kasama dito ang paglalakad sa robot sa paligid ng opisina habang itinuturo ang iba’t ibang landmark sa pamamagitan ng pagsasalita.
Ang prosesong ito ay nagbibigay-daan sa artificial intelligence na imapa ang panloob na kapaligiran batay sa kung ano ang “nakikita” nito gamit ang mga camera nito.
Susunod, inutusan ng mga siyentipiko ang Google Gemini kung paano isalin ang mga kahilingan ng user sa mga direksyon sa pag-navigate na dapat nitong sundin.
Sa partikular, gumamit sila ng hierarchical na Vision-Language-Action (VLA) na patakaran sa pag-navigate para gawin itong posible. “Pinagsama nito ang pag-unawa sa kapaligiran at pangangatwiran ng sentido komun.”
Sinasabi ng Digital Trends na ang mga resulta ay lubos na matagumpay.
Nakamit ng Google Gemini bot ang “86% at 90% end-to-end na mga rate ng tagumpay sa dati nang hindi magagawa na mga gawain sa pag-navigate na kinasasangkutan ng kumplikadong pangangatwiran at multimodal na mga tagubilin ng user sa isang malaking real-world na kapaligiran.”
Nagawa ng robot na pangunahan ang mga mananaliksik sa pinakamalapit na saksakan ng kuryente at maalala kung saan kukuha ng mga lata ng soda. Bukod dito, dinala sila nito sa whiteboard ng opisina ng DeepMind.
Inamin ng Google DeepMInd na clunky pa rin ang robot ng Google Gemini.
Hindi pa rin magawa ng makina ang paglilibot sa opisina nito nang walang tulong. Gayundin, tumatagal ng 10 hanggang 30 segundo upang tumugon.
Malamang na tumagal pa kami ng ilang taon bago kami magkaroon ng mga Gemini bot na gumagawa ng aming mga gawain.
Gayunpaman, ang mga mananaliksik ay magpapatuloy sa paghahasa ng artificial intelligence upang mapagtanto ang application na ito.
