แชทบอทภาษาโปรตุเกสที่ดีที่สุด

“แชทบอท” ภาษาโปรตุเกสคือโปรแกรมที่สามารถเข้าใจและวิเคราะห์บทสนทนาในภาษาโปรตุเกส ปัจจุบัน แชทบอทเหล่านี้สามารถสนทนากับมนุษย์ได้อย่างลื่นไหล
‍
ความก้าวหน้าล่าสุดในด้านการประมวลผลภาษาธรรมชาติ (NLP หรือ PLN ในที่นี้) ทำให้สามารถสร้างแชทบอทภาษาโปรตุเกสที่เข้าใจความเฉพาะของภาษาได้ ความก้าวหน้าเหล่านี้ใช้การเรียนรู้ของเครื่อง (ML) เพื่อเข้าใจทั้งโครงสร้างและความหมายของคำในบริบทต่าง ๆ

สร้างแชทบอทภาษาโปรตุเกสด้วย AI

ภาษาโปรตุเกสเป็นภาษาที่มีผู้พูดมากเป็นอันดับหกของโลก โดยครึ่งหนึ่งอยู่ในบราซิล แม้จะใกล้เคียงกับภาษาละตินอื่น ๆ แต่ก็มีลักษณะเฉพาะสองประการ:

มีคำที่คล้ายกันแต่ความหมายต่างกันมากมาย เช่น ในภาษาโปรตุเกส pt_PT "propina" หมายถึงค่าธรรมเนียมรายเดือน แต่ใน pt_BR หมายถึงสินบน แม้แต่ในบราซิลเอง คำก็เปลี่ยนความหมายได้ เช่น ในภาคตะวันออกเฉียงเหนือ "cabra" หมายถึงผู้ชาย แต่ในส่วนอื่น ๆ ของประเทศหมายถึงแพะเท่านั้น
การใช้บริบทมากเกินไปทำให้การตีความของแชทบอทภาษาโปรตุเกสยากขึ้น เช่น คำว่า "chega" อาจหมายถึงกริยา ("เธอมาถึงพรุ่งนี้") หรือเป็นการขอหยุด ("พอแล้วกับการคุยนี้")

นอกจากนี้ยังมีสำนวนเฉพาะที่แตกต่างกันโดยสิ้นเชิงระหว่างผู้พูดในแต่ละประเทศ ทำให้บางครั้งเข้าใจประโยคทั้งประโยคได้ยากมาก
‍
ลักษณะเฉพาะเหล่านี้ทำให้การสร้างแชทในภาษาโปรตุเกสยากหรือไม่? ไม่แปลกใจเลย คำตอบคือใช่

แชทบอทภาษาโปรตุเกส: ความท้าทายของ NLP

สิ่งที่กล่าวมาข้างต้นสร้างความท้าทายให้กับ NLP ในแชทบอทภาษาโปรตุเกส ขั้นตอนแรกของอัลกอริทึมการประมวลผลภาษาธรรมชาติใด ๆ คือการเข้าใจภาษา กล่าวคือ การวิเคราะห์ประโยคให้เป็นหน่วยย่อยของความหมาย หรือที่เรียกว่า "โทเค็น" งานนี้เรียกว่า "tokenization" (ลักษณะหนึ่งของภาษาโปรตุเกสบราซิลคือการนำคำต่างประเทศมาใช้และปรับให้เป็นแบบบราซิล) ดังนั้นยิ่งภาษามีความเป็นระบบและมีระเบียบมากเท่าไร การแบ่งโทเค็นก็จะง่ายขึ้นเท่านั้น
‍
ก่อนที่เราจะเข้าใจความหมายของความก้าวหน้าล่าสุดใน NLP เราต้องเข้าใจก่อนว่ารูปแบบการเข้าใจ NLP ถูกสร้างขึ้นอย่างไร</sty2>

ในอดีต

ในแง่หนึ่ง การเข้าใจว่าการสร้างแชทบอทภาษาโปรตุเกส (หรือภาษาใด ๆ) เป็นอย่างไร ก็เหมือนกับการเดินทางย้อนเวลา
‍
การวิจัยแรก ๆ เพื่อรับมือกับความไม่แน่นอนของภาษาเริ่มขึ้นในยุค 40 จากบทความของ Warren McCulloch นักประสาทกายวิภาคและจิตแพทย์จาก MIT และ Walter Pitts นักคณิตศาสตร์จากมหาวิทยาลัยอิลลินอยส์ พวกเขาวางรากฐานทางทฤษฎีที่ทำให้ John von Neumann เขียน “The General and Logical Theory of Automata” ในปลายยุค 1940
‍
ความก้าวหน้าที่ทำให้คอมพิวเตอร์มีพลังประมวลผลสูงขึ้นเรื่อย ๆ เป็นอีกเสาหลักที่นำงานวิจัย NLP จากห้องแล็บวิทยาศาสตร์สู่แล็บของบริษัทและหน่วยงานรัฐที่มุ่งเน้นการใช้เทคโนโลยีใหม่ในชีวิตประจำวัน
‍
ประวัติของ NLP จริง ๆ เริ่มต้นในยุค 1950 เมื่อ Alan Turing ตีพิมพ์บทความ “Computing Machinery and Intelligence” ที่เสนอสิ่งที่ปัจจุบันเรียกว่า Turing Test เป็นเกณฑ์วัดความฉลาด
‍
ตั้งแต่ปลายยุค 1980 เป็นต้นมา มีการปฏิวัติ NLP ด้วยการนำอัลกอริทึม machine learning มาใช้ในการประมวลผลภาษา ทั้งนี้เพราะพลังประมวลผลที่เพิ่มขึ้นและการลดบทบาทของทฤษฎีภาษาศาสตร์แบบ “chomskyan” ที่ไม่สนับสนุนการใช้คอร์ปัสภาษาแบบที่ machine learning ต้องการ การทำงานอัตโนมัติในยุคนั้นคือการแบ่งประโยคเป็นส่วนย่อย ๆ และใช้กฎทางสถิติเพื่อจัดหมวดหมู่และหาความสัมพันธ์ระหว่างส่วนเหล่านั้น กระบวนการนี้เรียกว่า “tokenization” ซึ่งได้อธิบายไว้ข้างต้น
‍
แต่การ tokenization ต้องใช้แรงงานนักวิจัย NLP อย่างมาก แต่ละภาษาต้อง tokenization แยกกันและแทบจะทำด้วยมือทั้งหมด
‍
งาน tokenization นี้ยากมากสำหรับบอทที่ต้องรับมือกับภาษาที่มีบริบทสูง
‍
เมื่อ tokenization เสร็จแล้ว อัลกอริทึม AI ก็สามารถนำมาใช้เพื่อเข้าใจภาษา หรือสร้างแผนที่ความหมายของความสัมพันธ์ระหว่างคำในภาษาได้
‍
ขั้นตอนการเข้าใจภาษานี้จะเป็นอัตโนมัติได้ถ้า tokenization เชื่อถือได้ แต่ปัญหาคือ tokenization ซับซ้อนมาก แม้แต่ขั้นตอนเข้าใจก็ต้องตั้งค่าด้วยมือควบคู่กับ tokenization
‍
ผลลัพธ์สุดท้ายจึงไม่ดีนัก เช่น ระดับความเข้าใจภาษาโปรตุเกสเมื่อเทียบกับอังกฤษยังอยู่ในระดับกลาง แน่นอนว่างานวิจัยภาษาอังกฤษมีมากกว่าภาษาโปรตุเกส แต่ความยากในการจัดการบริบทของโปรตุเกสก็ทำให้ได้ผลลัพธ์ที่ดีได้ยาก
‍
นักวิจัย AI จึงตั้งคำถามว่าการ tokenization เองจะใช้ machine learning ได้หรือไม่ ถ้าทำได้ อัลกอริทึม tokenization และความเข้าใจภาษาก็จะไม่ขึ้นกับภาษาใด ๆ (เรียกว่า language-agnostic) และทำให้การฝึก AI กับภาษาใหม่ ๆ เร็วและดีขึ้นมาก

ความก้าวหน้าล่าสุดของปัญญาประดิษฐ์

และนี่คือจุดที่เกิดนวัตกรรมในปลายปี 2018: AI สามารถฝึกกับภาษาโปรตุเกสได้โดยไม่ต้องมีการแทรกแซงด้วยมือ ส่งผลให้ประสิทธิภาพของ NLP ดีขึ้นมาก
‍
แพลตฟอร์ม AI สำหรับแชทบอทภาษาโปรตุเกสจึงดีขึ้นทันที และความเข้าใจภาษาโปรตุเกสที่ได้ก็ใกล้เคียงกับภาษาอื่น ๆ
‍
แต่การพัฒนานี้ไม่ได้หมายความว่าแชทบอทภาษาโปรตุเกสจะดีขึ้นทันที แพลตฟอร์มแชทบอทที่ใช้ AI ต้องอัปเดตอัลกอริทึมเพื่อใช้เทคโนโลยีล่าสุดก่อน
‍
เนื่องจากมีการลงทุนกับเทคโนโลยีเดิมไว้มาก จึงไม่ใช่เรื่องที่แพลตฟอร์มเหล่านี้จะทำได้อย่างรวดเร็ว
‍
นอกจากนี้ยังมีฟีเจอร์บางอย่างที่แพลตฟอร์มต้องพัฒนาเพื่อให้แชทบอทภาษาโปรตุเกสมอบประสบการณ์ที่ดีแก่ผู้ใช้ เช่น การสร้างกลุ่มคำพ้องความหมายและการใช้งานในบริบทต่าง ๆ เพื่อจับความหมายและป้องกันไม่ให้แชทบอทเข้าใจผิดจากบริบท

แพลตฟอร์มหลายภาษา

การทำงานกับหลายภาษาในแต่ละแพลตฟอร์มตลาดอาจเป็นเรื่องยาก บางแพลตฟอร์มต้องสร้างแชทบอทแต่ละภาษาขึ้นเป็นบอทแยกกัน ซึ่งแน่นอนว่าไม่มีประสิทธิภาพทั้งด้านการขยายและการดูแลรักษา
‍
ดังนั้น แพลตฟอร์มที่ดีควรเป็นแบบหลายภาษาอย่างแท้จริง และอนุญาตให้แปลเนื้อหาเดียวกันได้หลายภาษาในอินเทอร์เฟซผู้ใช้
‍
นอกจากนี้ ภาษาควรถูกกำหนดเป็นตัวแปรของการสนทนา เพื่อให้ AI ตรวจจับภาษาได้อย่างแม่นยำ และนักออกแบบบทสนทนาสามารถออกแบบตรรกะตามภาษานั้นได้
‍
นอกเหนือจากฟีเจอร์เฉพาะด้านภาษาแล้ว หากต้องการสร้างแชทบอทที่ยอดเยี่ยมในทุกภาษา ฟีเจอร์โดยรวมของแพลตฟอร์มแชทบอทต้องยอดเยี่ยมด้วย มีสองหมวดหมู่ฟีเจอร์ที่สำคัญ

อย่างแรกคือเทคโนโลยีการเข้าใจภาษาธรรมชาติ (หรืออัลกอริทึม NLP) แพลตฟอร์มที่ดีจะไม่เพียงเป็นกลางทางภาษา แต่อัลกอริทึม NLP ควรใช้เทคโนโลยีล่าสุดและทำงานได้ดีโดยรวม ฟีเจอร์สำคัญ เช่น การเติมข้อมูล (slot filling) และการจับเจตนาในบริบทสนทนา ควรมีในแพลตฟอร์มด้วย
หมวดหมู่ที่สองคือความสามารถโดยรวมของแพลตฟอร์ม ควรช่วยให้นักออกแบบสร้างประสบการณ์แชทบอทที่น่าประทับใจสำหรับผู้ใช้ปลายทางได้ง่าย รวมถึงการเชื่อมต่อกับระบบเดิมและระบบอื่น ๆ ได้สะดวก หากไม่มีฟีเจอร์นี้หรือใช้งานยาก ก็ไม่สำคัญว่าจะรองรับภาษาโปรตุเกสหรือไม่

ท้ายที่สุดแล้ว คุณภาพของประสบการณ์แชทบอทที่ผู้ใช้ได้รับขึ้นอยู่กับความสามารถของเครื่องมือที่ใช้สร้าง ตั้งแต่ความเข้าใจภาษาไปจนถึงการออกแบบอินเทอร์เฟซ

สร้างแชทบอทภาษาโปรตุเกสที่ดีที่สุด

แม้จะมีแพลตฟอร์มที่ดีแล้ว การสร้างแชทบอทภาษาโปรตุเกสก็ยังมีความท้าทายอยู่ เนื่องจากมีงานวิจัยด้านภาษาโปรตุเกสในวงการ AI ค่อนข้างจำกัด การหาทรัพยากรที่เหมาะสมสำหรับโครงการจึงอาจใช้เวลามาก
‍
แม้จะไม่จำเป็นต้องหาทรัพยากรเพื่อเขียนอัลกอริทึม PLN พื้นฐาน เพราะมีให้ใช้งานทันที แต่การหานักออกแบบที่เข้าใจความแตกต่างทางภาษาและวัฒนธรรมของกลุ่มเป้าหมายที่แชทบอทภาษาโปรตุเกสต้องรองรับก็เป็นเรื่องท้าทาย โดยเฉพาะอย่างยิ่งสำหรับภาษาโปรตุเกสที่มีการใช้สำนวนตามบริบทอย่างแพร่หลาย
‍
ดังนั้นจึงสำคัญที่แพลตฟอร์มแชทบอทควรเปิดโอกาสให้ผู้ที่ไม่ใช่สายเทคนิคสามารถอัปเดตและดูแลเนื้อหาและการแปลได้ง่าย เพราะนักออกแบบและนักพัฒนาอาจไม่ได้เชี่ยวชาญด้านวัฒนธรรมของภาษาโปรตุเกสในแต่ละภูมิภาค
‍
แน่นอนว่า การที่แชทบอทภาษาโปรตุเกสคุณภาพสูงมีความแม่นยำมากขึ้น จะทำให้การนำเทคโนโลยีนี้ไปใช้เพิ่มขึ้นในอีกไม่กี่ปีข้างหน้า การใช้งานที่เพิ่มขึ้นนี้จะช่วยแก้ปัญหาขาดแคลนทรัพยากร และทำให้ผู้ที่สนใจเทคโนโลยีนี้เห็นแนวทางปฏิบัติที่ดีที่สุดเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

สรุป

นวัตกรรมในเทคโนโลยีประมวลผลภาษาธรรมชาติ (PLN) ไม่ได้จำกัดแค่แชทบอทภาษาโปรตุเกสเท่านั้น แต่ยังขยายไปยังแอปพลิเคชัน AI อื่น ๆ ด้วย ปัจจุบันเรากำลังเห็นระบบที่หลากหลายซึ่งนำ AI ภาษาโปรตุเกสไปใช้ในรูปแบบต่าง ๆ ตั้งแต่การวิเคราะห์อารมณ์ในข่าวและความคิดเห็น ไปจนถึงการสรุปหรือสร้างข้อความที่แต่เดิมมีแต่คนเท่านั้นที่ทำได้ โดยทั่วไปแล้ว แชทบอทภาษาโปรตุเกสมักถูกใช้เป็นอินเทอร์เฟซผู้ใช้ ไม่เพียงแต่สำหรับเทคโนโลยี AI ต่าง ๆ แต่ยังช่วยให้ผู้ใช้ปลายทางเข้าถึงระบบอื่น ๆ เช่น เว็บไซต์หรือแอปพลิเคชันเว็บ หรือแม้แต่ทำหน้าที่เป็นที่ปรึกษาด้านการซื้อสินค้าและการตัดสินใจด้วยเช่นกัน
‍
แน่นอนว่า แม้จะมีการพัฒนาอย่างก้าวกระโดดในด้าน PLN ภาษาโปรตุเกส แต่ผลลัพธ์ก็ยังสามารถพัฒนาให้ดียิ่งขึ้นได้ งานวิจัยยังคงเดินหน้าพัฒนากลไก PLN อย่างต่อเนื่อง และแน่นอนว่าจะมีความก้าวหน้าใหม่ ๆ ตามมา ตราบใดที่ PLN ยังไม่ถึงระดับเดียวกับมนุษย์ ก็ยังมีงานที่ต้องทำต่อไป
‍
ก้าวต่อไปของกลไก PLN ทุกภาษา คือการพัฒนาให้ตอบสนองบทสนทนาแบบหลายรอบได้ดีขึ้น นั่นคือ การเปิดโอกาสให้มนุษย์สามารถสนทนาแบบหลายขั้นตอนกับบอทในหัวข้อที่จำกัดขอบเขตได้ แทนที่จะเป็นแค่การสั่งงานหรือถามคำถามเพียงอย่างเดียว และสำหรับแพลตฟอร์มแชทบอท ก้าวต่อไปคือการทำให้การสร้างบทสนทนาแบบหลายรอบเป็นเรื่องง่ายขึ้น
‍
บทสนทนาแบบหลายรอบมีความสำคัญอย่างยิ่งสำหรับอินเทอร์เฟซเสียง เช่น Alexa หรืออุปกรณ์อย่าง Google Home
‍
แม้เราจะได้พูดถึงความก้าวหน้าในการตัดคำด้วยแมชชีนเลิร์นนิงและผลกระทบต่อ PLN ภาษาโปรตุเกสแล้ว อีกประเด็นที่เกี่ยวข้องคือการถอดเสียงพูดเป็นข้อความในภาษาโปรตุเกส ซึ่งยังคงพัฒนาอยู่เมื่อเทียบกับภาษาอื่น ๆ แม้ว่าความแตกต่างด้านประสิทธิภาพจะลดลงอย่างรวดเร็ว เราคาดว่าความก้าวหน้าของ PLN ที่กล่าวถึงนี้และที่เกิดขึ้นทั่วโลก จะช่วยลดช่องว่างนี้ลงได้อีกในอนาคตอันใกล้