Ang Kailangang Malaman ng Mga May-akda ng Chatbot Tungkol sa Natural Language Processing Algorithm

Isang karaniwang hakbang kapag gumagawa ng bot ay ang pagtukoy ng "mga layunin."

Ang isang layunin ay maaaring "i-reset ang aking password", "mag-book ng flight" o "makipag-ugnayan sa suporta". Kailangang maglagay ng maraming parirala ang developer ng bot sa software na lahat ay may parehong kahulugan sa layunin. Halimbawa, ang "Gusto kong lumipad papuntang Paris" ay magiging isang ganoong parirala para sa layuning "mag-book ng flight."

Sa pangkalahatan, hinihiling ng mga platform sa pagbuo ng bot ang mga user na maglagay ng maraming parirala para sa isang partikular na layunin. Ang mga pariralang ito ay data ng pagsasanay para sa Natural Language Processing (NLP) algorithm.

Ang NLP algorithm ay isang machine learning algorithm na nagsasanay sa sarili nito sa data upang makilala ang mga parirala na may parehong kahulugan ngunit magkaibang mga salita (kumpara sa data ng pagsasanay).

Ginagamit ng NLP algorithm ang data ng layunin na ibinigay ng developer ng bot kasama ang malaking corpus ng data patungkol sa wika (na sinanay nito dati) upang i-calibrate ang panloob na modelo nito upang makilala ang mga bagong parirala.

Ang mas maraming halimbawa na ibinigay sa NLP algorithm ng chatbot developer, mas tumpak na makikilala nito ang parehong kahulugan sa ibang mga parirala na may iba't ibang salita. Hindi bababa sa iyon ang mensahe na ibinigay sa mga developer ng bot.

Ang problema ay ang lahat ng data ng pagsasanay ay hindi nilikha nang pantay. Ang kalidad ng data ay mahalaga gaya ng dami.

‍

Halimbawa, isipin na gusto kong lumikha ng isang layunin na tinatawag na "i-reset ang aking password".

Maaaring simulan ng isang may-akda ng bot ang paggawa ng mga sumusunod na parirala:

I-reset ang aking password

Nakalimutan ko ang aking password

Hindi gumagana ang aking password

Bagong password po

Isyu sa password

atbp.

Ang problema sa itaas ay ang lahat ng mga parirala ay gumagamit ng parehong salitang "password". Nangangahulugan ito na kapag sinanay ng algorithm ang sarili sa data na ito, naiintindihan nito ang panuntunan na kung ang salitang "password" ay nasa parirala, ang layunin ay "i-reset ang aking password". Ito, siyempre, ay mali. Ang mga tao ay maaaring magsabi ng maraming iba pang mga parirala nang walang salitang "password" sa mga ito na may parehong kahulugan bilang "i-reset ang aking password". Marami ring mga pariralang may salitang “password” sa mga ito na hindi nangangahulugang “i-reset ang aking password”.

Sa mundo ng mga algorithm, ang problemang ito ay tinatawag na overfitting sa data ng pagsasanay. Ang algorithm ay nag-overfit sa salitang "password" at samakatuwid ay "naniniwala" na ang bawat parirala na may salitang "password" dito ay nangangahulugang "i-reset ang aking password".

‍

Mayroong iba pang mga halimbawa nito para sa parehong layunin. Halimbawa, maaaring ilagay ng developer ng bot ang mga sumusunod na parirala:

Ang aking mga kredensyal ay hindi gumagana

Ang aking pag-login ay hindi gumagana

Hindi gumagana ang aking password

Hindi gumagana ang username ko.

atbp.

Ito ay, siyempre, ay isang mas matinding halimbawa ng problema, ngunit ang pattern ay karaniwan kapag lumilikha ng data ng pagsasanay. Muli itong magiging sanhi ng pag-overfit ng algorithm sa data, ngunit sa pagkakataong ito sa pariralang "hindi gumagana".

‍

Ang solusyon ay sana ay malinaw na sa ngayon. Ang bawat parirala sa data ng pagsasanay ay kailangang magkaiba hangga't maaari sa iba pang mga parirala sa set ng data. Halimbawa:

Ang aking mga kredensyal ay hindi gumagana.

Kailangan ko ng pag-reset ng password.

Paano ko aayusin ang aking problema sa pag-log in?

Sino ang makakatulong sa akin sa pag-sign in sa system.

atbp.

Siyempre, ang paggawa ng set ng data tulad ng nasa itaas ay nangangailangan ng higit na pagsisikap. Maaaring makatulong pa na magkaroon ng isang thesaurus na bukas upang makahanap ng mga kasingkahulugan para sa layunin ng pagpapasigla ng mga ideya para sa mga parirala.

Ang iba pang paraan upang madaig ng mga developer ng bot ang problemang ito ay sa pamamagitan ng pagkakaroon ng access sa data ng chat ng customer service na nagbibigay ng maraming halimbawa ng lahat ng paraan kung paano magtatanong ng parehong tanong ang isang tunay na customer. Ang data na ito ay maaaring maging lubhang mahalaga.

May tanong tungkol sa kung kailan magagawang gumanap nang maayos ang mga NLP algorithm sa isang maliit na set ng data ng pagsasanay. Tiyak na mas mainam na gumana nang perpekto ang bot gamit lamang ang maliit na dataset. Ito ay tiyak na isang bagay na ginagawa ng mga mananaliksik dahil hindi lamang nito mababawasan ang oras at pagsisikap na kailangan upang lumikha ng mga chatbot , ito ay lubos na mapapabuti ang kanilang kalidad.

Ang NLP algorithm ay isang itim na kahon sa karamihan ng mga developer ng bot. Gayunpaman, mahalaga na maunawaan nila ang mga pangunahing kaalaman sa kung paano gumagana ang algorithm upang malaman nila kung anong uri ng data ng pagsasanay (data ng layunin) ang kailangan nilang ibigay sa algorithm upang magbunga ng pinakamahusay na mga resulta.

‍

Talaan ng mga Nilalaman

Hakbang 1. ang pamagat ng hakbang ay napupunta dito gaya ng inaasahan

Manatiling napapanahon sa mga pinakabago sa AI chatbots

Ibahagi ito sa:

Ang Kailangang Malaman ng Mga May-akda ng Chatbot Tungkol sa Natural Language Processing Algorithm

Pwede ChatGPT Gamitin para sa Mga Layuning Pang-edukasyon o Pagtuturo?

Paano bumuo ng Facebook Chatbot upang sagutin ang iyong mga customer

Ang Pagtaas ng Audio at isang Tungkulin para sa Mga Chatbot

Bumuo ng Mas mahusay na may Botpress