Ang “chatbot” sa Wikang Portuges ay isang programang kayang umunawa at magsuri ng usapan sa Portuges. Sa ngayon, kayang makipag-usap ng mga chatbot na ito sa tao at computer nang napakaayos.

Ang mga kamakailang pag-unlad sa Natural Language Processing (NLP, tinutukoy dito bilang PLN) ay nagpapahintulot sa paggawa ng mga chatbot sa Portuges, isinasaalang-alang ang mga natatanging katangian ng wika. Ang mga pag-unlad na ito ay gumagamit ng Machine Learning (o ML) para maunawaan hindi lang ang estruktura ng wika kundi pati ang kahulugan ng mga salita at konteksto nito.

Paglikha ng chatbot sa wikang Portuges gamit ang AI

Ang Portuges ang ika-anim na pinakamaraming nagsasalita sa mundo, kalahati nito ay sa Brazil, at kahit malapit ito sa iba pang wikang Latin, may dalawang natatanging katangian:

  • Maraming mga maling magkakatulad na salita, na magkapareho ang anyo ngunit magkaiba ang kahulugan. Sa pt_PT, ang propina ay buwanang bayad, sa pt_BR ito ay suhol. Kahit sa Brazil, nag-iiba ang kahulugan ng mga salita: sa hilagang-silangan, ang "cabra" ay tumutukoy sa lalaki, ngunit sa ibang bahagi ng bansa, hayop lang ang ibig sabihin nito.
  • Ang madalas na paggamit ng konteksto ay nagpapahirap sa chatbot na gumamit ng wikang Portuges. Halimbawa, ang salitang "chega" ay maaaring maging pandiwa ("darating siya bukas") o hudyat ng paghinto ("tama na ang usapan").

Bukod dito, may mga idyomatikong ekspresyon na lubos na naiiba sa pagitan ng mga nagsasalita mula sa iba't ibang bansa, kaya napakahirap intindihin, minsan pati buong pangungusap.

Ginagawa ba ng mga kakaibang ito na mahirap ang trabaho ng isang chat sa Portuges? Hindi na nakakagulat, ang sagot ay oo.

Chatbot sa Portuges: mga hamon ng PLN

Ang nabanggit sa itaas ay nagdudulot ng mga hamon para sa NLP sa mga chatbot na Portuges. Ang unang hakbang para sa anumang Natural Language Processing algorithm ay ang unawain ang wika, ibig sabihin, hatiin ang mga pangungusap sa maliliit na yunit ng kahulugan, o "token". Ang gawaing ito ay tinatawag na "tokenization" (sa katunayan, isang katangian ng Brazilian Portuguese ay ang paggamit ng mga banyagang salita at gawing parang Portuguese). Kaya, kung mas sistematiko at organisado ang wika, mas madali ang tokenization.

Bago natin maintindihan ang ibig sabihin ng mga pinakabagong pag-unlad sa NLP, kailangan muna nating malaman kung paano nilikha ang mga modelo ng pag-unawa sa NLP.

Noong nakaraan

Sa isang banda, ang pag-unawa kung paano ginagawa ang chatbot sa Portuges (o sa alinmang wika) ay tila isang paglalakbay sa kasaysayan.

Ang mga unang pananaliksik upang tugunan ang hindi inaasahang katangian ng wika ay matatagpuan noong dekada 40, sa mga artikulo ng neuroanatomist at psychiatrist na si Warren McCulloch mula sa Massachusetts Institute of Technology, at ng mathematician na si Walter Pitts mula sa University of Illinois. Sila ang naglatag ng mga teoryang naging pundasyon para kay John von Neumann na isulat ang “The General and Logical Theory of Automata”, sa huling bahagi ng dekada 1940.

Ang mga pag-unlad na nagbigay-daan sa mga computer na magkaroon ng mas mataas na kakayahan sa pagproseso ang isa pang haligi na nagdala sa pananaliksik ng PLN mula sa mga laboratoryo ng agham papunta sa mga laboratoryo ng negosyo at ahensya ng pamahalaan na nakatuon sa pang-araw-araw na gamit ng mga bagong teknolohiya.

Ang kasaysayan ng PLN, partikular, ay nagsimula talaga noong dekada 1950, nang inilathala ni Alan Turing ang artikulong “Computing Machinery and Intelligence”, na nagmungkahi ng tinatawag ngayong Turing Test bilang pamantayan ng katalinuhan.

Mula huling bahagi ng dekada 1980, nagkaroon ng rebolusyon sa PLN sa pagpasok ng mga algorithm ng pagkatuto ng makina para sa pagproseso ng wika. Ito ay dahil sa patuloy na pagtaas ng kakayahan ng mga computer at unti-unting pagbaba ng impluwensya ng mga teoryang lingguwistika ni Chomsky, na ang mga teoryang batayan ay hindi pabor sa uri ng linguistic corpus na kailangan ng machine learning approach sa pagproseso ng wika. Ang awtomasyong ito ay ginagawa sa pamamagitan ng paghahati ng mga pangungusap sa mas maliliit na bahagi at paglalapat ng mga estadistikal na tuntunin upang tukuyin at kilalanin ang ugnayan ng mga bahaging ito. Ang prosesong ito ay tinatawag na “tokenization”, na naipaliwanag na sa itaas..

Gayunpaman, ang pag-tokenize ng isang wika ay nangangailangan ng maraming manwal na interbensyon mula sa mananaliksik ng PLN. Bawat wika ay kailangang i-tokenize nang hiwalay at halos mano-mano.

Ang gawaing ito ay lalo pang mahirap para sa mga robot na humaharap sa mga wikang mataas ang konteksto, gaya ng maaari mong isipin.

Kapag na-tokenize na ang wika, maaaring gamitin ang mga algorithm ng AI upang maunawaan ito, ibig sabihin, bumuo ng mapa ng kahulugan kung paano nagkakaugnay ang mga salita sa wika.

Ang hakbang na ito ng pag-unawa sa wika ay maaaring gawing awtomatiko kung maaasahan ang tokenization. Ang problema, gayunpaman, ay komplikado ang tokenization kaya pati ang mga algorithm ng pag-unawa ay kailangang mano-manong i-configure kasabay ng tokenization.

At ang resulta ay hindi maganda. Halimbawa, ang antas ng pag-unawa sa Portuges kumpara sa Ingles ay katamtaman lang. Siyempre, mas maraming pananaliksik ang nakatuon sa Ingles kaysa sa Portuges, ngunit ang hirap ng paghawak sa mga kontekstong sitwasyon ng Portuges ay nagpapahirap makamit ang magandang resulta.

Tulad ng natural na ginagawa ng mga mananaliksik ng AI, naisip nila kung maaari bang gawing pagkatuto ng makina na rin ang mismong tokenization. Sa ganitong paraan, ang mga algorithm ng tokenization at pag-unawa ay magiging hindi na nakadepende sa partikular na wika (tinatawag na agnostiko sa wika) at mapapabilis at mapapabuti ang pagsasanay ng AI sa anumang wika.

Mga Kamakailang Pag-unlad sa Artipisyal na Intelihensiya

At dito naganap ang inobasyon noong huling bahagi ng 2018: maaaring sanayin ang AI sa Portuges nang walang manwal na interbensyon at, bilang resulta, mas gumanda ang performance ng NLP.

Ang mga AI platform para sa chatbot sa Portuges ay biglang naging mas mahusay at ang pag-unawa sa Portuges ay naging katulad ng antas ng ibang wika.

Ang pagkakaroon ng ganitong pag-unlad ay hindi nangangahulugang biglang gumanda ang kalidad ng mga chatbot sa Portuges. Para maramdaman ng mga customer ang benepisyo, kailangang i-update muna ng mga chatbot platform ang kanilang mga algorithm para gamitin ang pinakabagong teknolohiya.

Dahil sa investment sa lumang teknolohiya, hindi ito agad nagawa ng mga platform.

Dagdag pa, may ilang feature na kailangang ipatupad ng mga platform para matiyak na maganda ang karanasan ng mga gumagamit ng chatbot sa Portuges. Halimbawa, ang paggawa ng mga bloke ng kasingkahulugan at paggamit nito sa iba’t ibang konteksto para maitugma ang mga kahulugan at maiwasan ang maling pagkaintindi ng chatbot sa isang salita depende sa gamit nito.

Multilingual na Plataporma

Ang pagtatrabaho gamit ang maraming wika sa iba't ibang plataporma ay maaaring maging mahirap. May ilang plataporma na nangangailangan na ang mga chatbot sa iba't ibang wika ay gawin bilang magkakahiwalay na bot, na hindi epektibo pagdating sa pagpapalawak at pagpapanatili. ‍ Kaya, ang isang mahusay na plataporma ay tunay na dapat sumuporta sa maraming wika at magpapahintulot ng iba't ibang salin ng parehong nilalaman sa interface ng gumagamit. ‍ Bukod dito, kailangang itakda ang wika bilang isang variable ng usapan, upang matukoy ito ng AI nang tama at makapagdisenyo ang mga tagadisenyo ng usapan ng lohika batay dito. ‍ Bukod sa mga tampok na nakatuon sa wika, para makagawa ng mahusay na chatbot sa anumang wika, kailangang mahusay din ang pangkalahatang kakayahan ng plataporma ng chatbot. May dalawang mahalagang kategorya ng kakayahan na dapat isaalang-alang.

  • Ang una ay ang pangkalahatang teknolohiya ng natural language understanding (o, gaya ng nabanggit, ang PLN algorithm). Ang isang mahusay na plataporma ay hindi lang dapat walang pinipiling wika, kundi ang underlying na PLN algorithm ay gumagamit ng pinakabagong teknolohiya at mahusay ang performance. Mahalaga ring may mga PLN feature ang plataporma, tulad ng slot filling (pagkuha ng impormasyon mula sa konteksto para gawing key/value na datos) at context-based na pagtukoy ng layunin sa usapan.
  • Ang pangalawang kategorya ay ang pangkalahatang kakayahan ng plataporma. Dapat nitong pahintulutan ang mga designer na madaling makalikha ng napakagandang karanasan sa chatbot para sa mga end user, kabilang ang madaling integrasyon sa mga lumang sistema at third-party. Kung wala ito o mahirap gamitin, hindi mahalaga kung ito ay nasa Portuges o hindi.

Sa huli, ang kalidad ng karanasan ng user sa chatbot ay direktang nakadepende sa kapangyarihan ng kasangkapang ginamit sa paglikha nito, mula sa pag-unawa sa wika hanggang sa paraan ng pagharap sa grapikal o tekstuwal na interface.

Pagbuo ng pinakamahusay na chatbot sa Wikang Portuges

Kahit may magandang plataporma, may mga hamon pa rin sa paggawa ng chatbot sa Portuges. Limitado ang mga pag-aaral sa Portuges sa mundo ng AI kaya mahirap makahanap ng tamang resources para sa proyekto.

Hindi mo na kailangang maghanap ng resources para magsulat ng mga underlying algorithm ng NLP dahil agad na itong ibinibigay, pero mahirap pa ring makahanap ng mga designer na marunong sa mga idiomatic differences ng iba't ibang grupong gagamit ng chatbot sa Portuges. Lalo na ito sa wikang Portuges dahil sa malawak na paggamit ng mga ekspresyong nakabatay sa konteksto.

Kaya mahalaga na ang plataporma ng chatbot ay nagpapadali sa pag-update at pag-maintain ng content at mga pagsasalin kahit hindi teknikal ang gagawa, dahil malamang na hindi bihasa sa kultura ng iba't ibang anyo ng Portuges ang mga designer at developer.

Siyempre, habang lalong gumagaling ang kalidad ng mga chatbot sa Portuges, mas dadami ang gagamit nito sa mga susunod na taon. Ang pagdami ng paggamit ay tutulong lutasin ang kakulangan sa resources at magbibigay ng malinaw na ideya sa mga gustong bumili ng teknolohiya kung ano ang pinakamainam na paraan para makuha ang pinakamahusay na resulta.

Buod

Ang mga inobasyon sa NLP ay hindi lang para sa mga chatbot sa Portuges kundi pati na rin sa iba pang AI apps. Ngayon, may mga multifaceted na sistema na gumagamit ng AI sa Portuges sa iba't ibang paraan—mula sa sentiment analysis ng balita at komento, hanggang sa pagbuod o paggawa ng mga tekstong dati ay tao lang ang kayang gumawa. Karaniwan, ginagamit ang chatbot sa Portuges bilang user interface hindi lang para sa iba't ibang AI tech kundi para tulungan din ang end user sa paggamit ng iba pang sistema, gaya ng website o web app, o bilang tagapayo sa pagbili at/o pagdedesisyon.

Siyempre, kahit may malaking pag-unlad sa NLP sa Portuges, laging may puwang pa para gumanda ang resulta. Patuloy ang pananaliksik para pagandahin ang NLP engines at tiyak na may mga bagong pag-unlad pa. Hangga't hindi pa naaabot ng NLP ang antas ng tao, laging may kailangang gawin.

Ang susunod na hakbang para sa lahat ng NLP engine, anuman ang wika, ay pagbutihin ang multi-turn dialogue. Ibig sabihin, payagan ang tao na makipag-usap nang sunud-sunod sa bot sa isang tiyak na paksa, hindi lang basta magbigay ng utos o tanong. At ang susunod na hakbang para sa chatbot platforms ay gawing mas madali ang paggawa ng multi-turn dialogue.

Ang multi-turn dialogue ay mahalaga lalo na para sa voice interfaces gaya ng Alexa o mga device tulad ng Google Home.

Kahit napag-usapan na natin ang mga pag-unlad sa machine learning-based tokenization at ang epekto nito sa NLP sa Portuges, kaugnay din dito ang speech-to-text transcription sa Portuges. Ang speech-to-text transcription para sa Portuges ay patuloy pang umuunlad kumpara sa ibang wika—bagamat mabilis nang nababawasan ang agwat ng performance. Inaasahan naming ang NLP progress na nabanggit dito at ginagawa sa buong mundo ay lalo pang magpapaliit sa agwat na ito sa malapit na hinaharap.