การทดสอบทัวริง

เขียนโดย

มาร์ค เมอร์ซิเอร์

สารบัญ

สรุป

การทดสอบทัวริงเป็นวิธีการที่เสนอโดยอลัน ทัวริง เพื่อดูว่าเครื่องจักรสามารถเลียนแบบการสนทนาของมนุษย์ได้ดีเพียงพอจนคนเราไม่สามารถรู้ได้ว่ากำลังสนทนากับคอมพิวเตอร์อยู่หรือไม่
แทนที่จะพิสูจน์ว่าเครื่องจักร "คิด" เหมือนมนุษย์ การทดสอบนี้จะตรวจสอบว่าเครื่องจักรสามารถเลียนแบบพฤติกรรมมนุษย์ได้อย่างน่าเชื่อถือหรือไม่โดยผ่านบทสนทนา บางครั้งอาจใช้กลวิธี เช่น การพิมพ์ผิดหรือการพูดจาทั่วๆ ไป
การผ่านการทดสอบทัวริงไม่ได้หมายความว่าเครื่องจักรจะมีจิตสำนึก แต่จะแสดงให้เห็นเพียงว่าเครื่องจักรสามารถเลียนแบบการสนทนาของมนุษย์ได้อย่างน่าเชื่อถือ ซึ่งกระตุ้นให้เกิดการถกเถียงเกี่ยวกับสติปัญญาและความหมายของการ "คิด"

การทดสอบทัวริงคืออะไรและทํางานอย่างไร

การทดสอบทัวริงเป็นการทดสอบ AI เพื่อดูว่าคอมพิวเตอร์สามารถโน้มน้าวมนุษย์ว่าเป็นมนุษย์ผ่านการสนทนาทางแชทได้หรือไม่ มนุษย์ถูกขอให้ตัดสินว่า "บุคคล" ที่พวกเขากําลังพูดด้วยเป็นมนุษย์หรือคอมพิวเตอร์ หากพวกเขาตัดสินว่าพวกเขากําลังพูดกับมนุษย์ แต่พวกเขากําลังพูดกับคอมพิวเตอร์จริงๆ แสดงว่าคอมพิวเตอร์ผ่านการทดสอบทัวริงแล้ว

โดยพื้นฐานแล้ว เป็นการทดสอบเพื่อประเมินว่าคอมพิวเตอร์สามารถเลียนแบบมนุษย์ได้อย่างน่าเชื่อถือจนสามารถหลอกมนุษย์ให้คิดว่าพวกเขากําลังพูดกับมนุษย์ได้หรือไม่ แน่นอนว่ามีหลายสิ่งที่ต้องแกะเกี่ยวกับการทดสอบนี้

สร้าง AI Chatbots

สร้างตัวแทนอัตโนมัติที่กำหนดเอง

เริ่มเลย

จุดประสงค์ของการทดสอบทัวริงคืออะไร?

นี่อาจดูเหมือนเป็นคําถามแปลก ๆ เนื่องจากประเด็นนี้ชัดเจน: เพื่อทราบว่าเครื่องสามารถเลียนแบบมนุษย์ในการสนทนาแชทได้อย่างน่าเชื่อถือหรือไม่ อย่างไรก็ตาม มีข้อควรพิจารณาที่ลึกซึ้งกว่านั้น

เรากําลังทดสอบว่าเครื่องจักรสามารถเลียนแบบมนุษย์ได้อย่างแท้จริงในแง่ของความคิดหรือสติปัญญาที่แฝงอยู่ หรือเพียงแค่หลอกมนุษย์ว่าเป็นมนุษย์? มี ความแตกต่าง

การเลียนแบบมนุษย์ในแง่ของความคิดหรือสติปัญญาที่แฝงอยู่คือสิ่งที่ผู้คนมักนึกถึงเมื่อนึกถึงการทดสอบทัวริง – ว่ามนุษย์ไม่สามารถแยกแยะความแตกต่างระหว่างการแชทกับมนุษย์หรือเครื่องจักรได้อย่างแท้จริง นี่ไม่ใช่วิธีการทดสอบในตอนแรกเพราะอนุญาตให้ "หลอก" มนุษย์ได้ ตัวอย่างเช่น การพิมพ์ผิดอาจเป็นวิธีที่คอมพิวเตอร์หลอกให้มนุษย์เชื่อว่าเป็นมนุษย์ เนื่องจากเครื่องจักรจะไม่มีวันสะกดผิด

ปัญหาพื้นฐานคือการทดสอบมีกฎดังนั้นจึงมีข้อบกพร่องอย่างหลีกเลี่ยงไม่ได้ในบางวิธี ตัวอย่างเช่นระยะเวลาที่คุณพูดกับหัวข้อการทดสอบมีความสําคัญ การเลียนแบบมนุษย์นานกว่า 5 นาทีนั้นง่ายกว่าการสนทนามากกว่าหนึ่งร้อยชั่วโมง เทคนิคอาจใช้ได้ผลในเวอร์ชัน 5 นาที แต่ไม่เกินเวอร์ชันร้อยชั่วโมง

สําคัญหรือไม่ว่าใครจะทําการทดสอบทัวริง?

นักวิทยาศาสตร์ที่ได้รับการฝึกอบรมเกี่ยวกับวิธีสังเกตเครื่องจักรเทียบกับมนุษย์จะหลอกได้ยากกว่าคนข้างถนนที่ไม่มีการฝึกอบรม ไม่ใช่แค่เพราะความสามารถของนักวิทยาศาสตร์ในการประเมินคําตอบ แต่ยังเป็นเพราะรู้ว่าจะถามคําถามอะไรด้วย

แม้ว่าคอมพิวเตอร์จะมีระดับ "ความคิด" และสติปัญญาในระดับมนุษย์ แต่ก็อาจไม่เพียงพอที่จะหลอกผู้ทดสอบ นั่นเป็นเพราะคอมพิวเตอร์อาจสมบูรณ์แบบเกินไปหรือไม่ตอบสนองทางอารมณ์มากเกินไป

มีข้อพิจารณาทางปรัชญาเกี่ยวกับการทดสอบทัวริง เช่น หากคอมพิวเตอร์มีสติปัญญาระดับมนุษย์โดยทั่วไป นั่นหมายความว่าเครื่องจักรสามารถ "คิด" หรือมีสติสัมปชัญญะได้หรือไม่ นี่เป็นคําถามส่วนหนึ่งที่ Alan Turing พยายามหลีกเลี่ยงการทดสอบนี้ หากเครื่องจักรสามารถเลียนแบบมนุษย์ได้อย่างถูกต้องสําหรับเจตนาและวัตถุประสงค์ทั้งหมดก็คือ "การคิด"

แน่นอนว่านั่นไม่ได้หมายความว่ามันมีจิตสํานึกหรือคิดแบบเดียวกับที่มนุษย์คิด ในความเป็นจริงรับประกันได้ว่าไม่ได้คิดในแบบที่มนุษย์คิด ความสนใจที่แท้จริงในคําถามนี้อยู่เมื่อมองจากมุมมองในทางปฏิบัติ เครื่องบินบิน เป็นต้น นั่นคือสิ่งที่สําคัญ น่าสนใจน้อยกว่ามากที่พวกเขาไม่เลียนแบบนกในแบบที่พวกมันบิน

การทดสอบทัวริงสนใจในผลลัพธ์ ไม่ใช่ในวิธีการบรรลุผลลัพธ์

จุดที่สําคัญกว่านั้นคือการทดสอบทัวริงเป็นที่เข้าใจกันโดยทั่วไปเพื่ออธิบายสถานะของกิจการที่ความฉลาดของเครื่องจักรถึงสติปัญญาระดับมนุษย์เป็นอย่างน้อย เป็นกลุ่มที่เล็กกว่ามากที่สนใจคําถามที่ว่าเครื่องจักรผ่านการทดสอบทัวริงในทางเทคนิคหรือไม่โดยพิจารณาจากข้อบกพร่องทั้งหมดที่อธิบายไว้ข้างต้น

แม้ว่าการทดสอบทัวริงอาจเป็นความสําเร็จทางเทคนิคที่น่าประทับใจ โดยเฉพาะอย่างยิ่งหากการทดสอบใช้เวลานานและดําเนินการโดยผู้ที่มีความรู้ แต่ก็น่าประทับใจน้อยกว่าเครื่องจักรที่สามารถหลอกทุกคนได้ตลอดเวลา แน่นอนว่ายิ่งระยะเวลาการทดสอบดําเนินไปนานเท่าใดและระดับความเชี่ยวชาญของผู้ประเมินก็จะยิ่งสูงขึ้นเท่าใด โอกาสที่สถานการณ์ทั้งสองนี้จะมาบรรจบกันก็จะยิ่งมากขึ้นเท่านั้น

เราอยู่ใกล้คอมพิวเตอร์ที่ผ่านการทดสอบทัวริงหรือไม่?

ตอนนี้คุณเข้าใจแล้วว่าการทดสอบคืออะไรคําถามต่อไปจะต้องเป็น "เราอยู่ใกล้คอมพิวเตอร์ที่ผ่านการทดสอบหรือไม่" (กล่าวคือ บรรลุสติปัญญาของมนุษย์ทั่วไป) คําตอบสั้น ๆ คือ "ไม่"

ในขณะที่มีความก้าวหน้าอย่างมากใน การประมวลผลภาษาธรรมชาติ ซึ่งเป็นความสามารถของคอมพิวเตอร์ในการระบุความตั้งใจที่อยู่เบื้องหลังวลีที่พูดเพียงวลีเดียว (ซึ่งเป็นเทคโนโลยีที่ขับเคลื่อนผู้ช่วยเสียงทั้งหมด)

ปรากฎว่าเทคโนโลยีปัจจุบันไม่ค่อยดีในเรื่องความคลุมเครือ (เข้าใจความหมายเบื้องหลังข้อความที่คลุมเครือ) หน่วยความจํา (รวมข้อเท็จจริงที่ระบุไว้ก่อนหน้านี้เข้ากับการสนทนาปัจจุบัน) หรือบริบท (คํานึงถึงข้อเท็จจริงที่ไม่ได้ระบุไว้ แต่เกี่ยวข้องกับสถานการณ์ปัจจุบัน) ในระยะสั้นเทคโนโลยีปัจจุบันแทบจะไม่มีที่ไหนเลยในแง่ของสิ่งที่จําเป็น

ส่วนหนึ่งของปัญหาคือเทคโนโลยี AI ในปัจจุบันจําเป็นต้องเรียนรู้โดยใช้ข้อมูลจํานวนมหาศาล โดเมนใดๆ ที่มีข้อมูลซ้ําๆ จํานวนมากนั้นพร้อมสําหรับการแนะนํา AI เช่น การรู้จําเสียงและการประมวลผลภาพ รวมถึงรถยนต์ที่ขับเคลื่อนด้วยตัวเอง

ความสําเร็จใน NLP นั้นได้รับแรงหนุนจากข้อเท็จจริงที่ว่ามีข้อมูลเกือบไม่จํากัดสําหรับข้อความและคําถามแบบครั้งเดียวโดยไม่มีบริบทหรือไม่มีหน่วยความจํา ถ้าฉันพูดว่า "ฉันต้องการซื้อส้ม" ในกรณีส่วนใหญ่เป็นข้อความง่ายๆ ที่ไม่ต้องการข้อมูลเพิ่มเติมเกี่ยวกับบริบทหรือหน่วยความจําเพื่อทําความเข้าใจ ความตั้งใจคือ: "ซื้อน้ําส้ม"

เมื่อมีบริบทหรือความทรงจําเข้ามาเกี่ยวข้องสิ่งนี้จะสร้างมิติ ถ้าฉันบอกว่าฉันต้องการ "ซื้อน้ําส้ม" แต่ฉันเคยบอกคุณก่อนหน้านี้ว่าฉันเป็นผู้ค้าทางการเงินที่ซื้อขายน้ําส้มคุณต้องเข้าใจว่าในบริบทนี้ฉันต้องการซื้อเครื่องมือทางการเงินที่จะทําเงินหากราคาน้ําส้มสูงขึ้น

กำลังใช้งานตัวแทน AI หรือไม่?

อ่านแผนผังการใช้งาน AI Agent ของเรา

อ่านตอนนี้

‍

ตอนนี้ข้อมูลของเรามีลักษณะอย่างไร "ซื้อน้ําส้ม" หมายความว่า ซื้อน้ําส้มหนึ่งขวดจากทางร้าน หรือหากเคยระบุว่าเป็นผู้ค้าทางการเงินในน้ําส้ม ก็หมายความว่าต้องการซื้อเครื่องมือทางการเงินที่เชื่อมโยงกับราคาน้ําส้ม

จะเกิดอะไรขึ้นถ้าผู้ค้าทางการเงินของเราเพิ่งบอกว่าเขากระหายน้ําแสดงว่าเขาต้องการซื้อน้ําส้มหนึ่งขวดจากร้านค้า ดังนั้นเราจึงเพิ่มจุดข้อมูลอื่น: หรือหากก่อนหน้านี้ระบุว่าพวกเขาเป็นผู้ค้าทางการเงินในน้ําส้ม แต่พวกเขาเพิ่งระบุว่าพวกเขากระหายน้ําแสดงว่าพวกเขาต้องการซื้อน้ําส้มหนึ่งขวด

องค์กรทางการเงินจะประสบปัญหาอย่างรวดเร็วหากพวกเขาเปิดตัวบอทซื้อขายที่ผู้ใช้เชื่อว่ามี "สติปัญญา" ระดับมนุษย์

การผ่านการทดสอบทัวริงเป็นไปไม่ได้หรือไม่?

ข้อมูลการสนทนามีหลายมิติน่าเสียดาย มิติที่ไม่มีที่สิ้นสุด ซึ่งหมายความว่าอัลกอริธึมแมชชีนเลิร์นนิงจะต้องเข้าถึงชุดข้อมูลที่มีข้อมูลจํานวนมากสําหรับทุกมิติที่เป็นไปได้ และแน่นอนว่าเป็นไปไม่ได้

แน่นอนว่านี่ไม่ได้หมายความว่าการผ่านการทดสอบทัวริงเป็นไปไม่ได้ เรารู้ว่ามันเป็นไปได้เพราะเรามีเทคโนโลยีที่จะทํามันอยู่แล้วในสมองของเรา เช่นเดียวกับผู้คนเมื่อหลายร้อยปีก่อนรู้ว่าการบินเป็นไปได้โดยการสังเกตนกที่บิน

ปัญหาคือแนวทางของเราต่อ AI ในเรื่องนี้ไม่สามารถสร้างขึ้นจากข้อมูลขนาดใหญ่ได้เนื่องจากข้อมูลขนาดใหญ่ที่มีมิติเพียงพอไม่มีอยู่จริง มีตัวแปรมากเกินไปมิติมากเกินไป แม้ในขณะที่เราพูด Google ได้รับการค้นหา 800 ล้านครั้งต่อวันที่ไม่เคยเห็นมาก่อน นั่นทําให้คุณทราบว่าวิธีการป้อนข้อมูลจะยากเพียงใด

Ray Kurtzweil ที่ Google กําลังปฏิบัติตามแนวทางที่พยายามจําลองสมองของมนุษย์ในระดับหนึ่ง เขาได้ประเมินว่าเราจะไปถึงหน่วยสืบราชการลับทั่วไปและสามารถผ่านการทดสอบทัวริงที่ยากมากภายในปี 2029

การคาดการณ์ของเขาตั้งอยู่บนสมมติฐานที่ว่าความก้าวหน้าในสาขานี้จะเป็นเลขชี้กําลัง ดังนั้น แม้แต่ความก้าวหน้าที่ค่อนข้างเจียมเนื้อเจียมตัวในปัจจุบันก็มีความสําคัญมากกว่าที่คิดหากคุณสมมติว่าเราอยู่ในเส้นทางความก้าวหน้าแบบทวีคูณ

ไม่ว่าเขาจะพูดถูกหรือไม่เราจะต้องรอดู แต่สิ่งที่บอกคุณคือไม่น่าเป็นไปได้สูงที่การฝ่าฟันจะเกิดขึ้นในอีก 10 ปีข้างหน้า

การที่เครื่องจักรผ่านการทดสอบทัวริงที่น่าเชื่อถือหมายความว่าอย่างไร

ประเด็นสุดท้ายคือหมายความว่าอย่างไรหากเครื่องจักรผ่านการทดสอบทัวริงที่น่าเชื่อถือ หากเครื่องผ่านการทดสอบโดยใช้วิธีการข้อมูลขนาดใหญ่บางประเภทในลักษณะเดียวกับวิธีที่เครื่องจักรเอาชนะมนุษย์ในเกมกระดานแม้กระทั่งเกมที่มีความซับซ้อนผลกระทบจะไม่มากเท่ากับว่าเครื่องผ่านโดยใช้วิธีการจําลองสมอง

วิธีการจําลองสมองหมายความว่าเครื่องมีแนวโน้มที่จะใกล้เคียงกับ "การคิด" ในแบบที่เรานิยามการคิดในฐานะมนุษย์ มันสามารถคาดการณ์ความหมายจากตัวอย่างเพียงเล็กน้อยในแบบที่มนุษย์ทํา แทนที่จะต้องการตัวอย่างหลายร้อยตัวอย่างในกรณีที่แน่นอนเพื่อคาดการณ์ความหมาย

ดังที่ได้กล่าวไว้ข้างต้นมีแนวโน้มมากขึ้นที่วิธีการ "การจําลองสมอง" จะให้ความก้าวหน้าเนื่องจากแนวทางข้อมูลขนาดใหญ่เป็นไปไม่ได้ นี่อาจหมายความว่าเครื่องจักรจะได้รับสติปัญญาทั่วไป ไม่ใช่แค่ในการสนทนา แต่ในหลายโดเมน

ความหมายของสิ่งนี้ไม่สามารถพูดเกินจริงได้เนื่องจากอาจนําไปสู่การรีเซ็ตสังคมอย่างสมบูรณ์ นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งหากเครื่องจักรมีความสามารถในการพัฒนาตนเองอย่างมีความหมายซึ่งจะนําไปสู่ความเป็นไปได้ของการเพิ่มสติปัญญาแบบทวีคูณในวงกลมคุณธรรมที่จะเปลี่ยนชีวิตอย่างที่เรารู้

ปฏิสัมพันธ์ของมนุษย์กับเครื่องจักร

การยึดติดกับเรื่องทางโลกมากขึ้นควรระลึกไว้เสมอว่าแม้ว่าเครื่องจักรจะเทียบเท่ากับมนุษย์ แต่ก็ไม่ได้หมายความว่าเราจะโต้ตอบกับพวกเขาเหมือนที่เราทํากับมนุษย์ สิ่งนี้เหมือนกับมนุษย์ทุกประการ การมีปฏิสัมพันธ์กับมนุษย์ไม่ได้มีประสิทธิภาพเสมอไป การพยายามอธิบายให้เพื่อนร่วมงานของคุณทราบถึงวิธีการทําบางสิ่งทางโทรศัพท์อาจเป็นเรื่องที่น่าเบื่อและไม่มีประสิทธิภาพในสถานการณ์ที่จะแสดงให้พวกเขาเห็นวิธีการทําได้ง่ายขึ้น หากมีเพียงมนุษย์เท่านั้นที่มีอินเทอร์เฟซแบบกราฟิกบนเว็บ!

อินเทอร์เฟซเสียง (หรืออินเทอร์เฟซที่ใช้การแชท) มีข้อ จํากัด อย่างชัดเจนในแง่ของการป้อนหรือส่งออกข้อมูล เห็นได้ชัดว่ามีข้อ จํากัด และสถานการณ์ที่มีประสิทธิภาพมากขึ้นในการแสดงข้อมูลแบบกราฟิกหรือคลิกที่อินเทอร์เฟซแบบกราฟิกมากกว่าการใช้อินเทอร์เฟซเสียง แพลตฟอร์มบอท จึงได้รับการออกแบบมาเพื่อพยายามนําผู้ใช้กลับสู่เส้นทางแห่งความสุขและไม่ปล่อยให้การสนทนาคดเคี้ยว

ประเด็นของฉันก็คือคอมพิวเตอร์ไม่ได้ถูก จํากัด เหมือนมนุษย์ในแง่ของอินเทอร์เฟซที่พวกเขาสามารถใช้เพื่อรับหรือให้ข้อมูลดังนั้นการสนทนากับเครื่องจักรจึงจําเป็นต้องใช้อินเทอร์เฟซที่เหมาะสมที่สุดสําหรับงานที่ทําอยู่

ในขณะที่การผ่านการทดสอบทัวริงจะเป็นก้าวสําคัญในแง่ของปฏิสัมพันธ์ระหว่างมนุษย์ / คอมพิวเตอร์ แต่ "การสนทนา" ของมนุษย์ / คอมพิวเตอร์ที่แท้จริงจะไม่ จํากัด อยู่แค่เสียงและข้อความ

สร้าง AI Chatbots

สร้างตัวแทนอัตโนมัติที่กำหนดเอง

เริ่มเลย

คำถามที่พบบ่อย

การทดสอบทัวริงเปรียบเทียบกับเกณฑ์มาตรฐานอื่นๆ สำหรับ AI เช่น Winograd Schema Challenge หรือ ARC Challenge ได้อย่างไร

การทดสอบทัวริงจะตรวจสอบว่า AI สามารถเลียนแบบการสนทนาของมนุษย์ได้หรือไม่ แต่เกณฑ์มาตรฐานใหม่ๆ เช่น Winograd Schema Challenge และ ARC Challenge จะเน้นที่การใช้เหตุผล สามัญสำนึก และการแก้ปัญหามากกว่า ซึ่งเป็นสิ่งที่เผยให้เห็นถึงปัญญาที่ลึกซึ้งกว่า มากกว่าการเลียนแบบเพียงผิวเผิน

การทดสอบทัวริงยังถือว่ามีความเกี่ยวข้องในงานวิจัย AI สมัยใหม่หรือไม่หรือมีทางเลือกที่ดีกว่าในปัจจุบันหรือไม่?

การทดสอบทัวริงยังคงเป็นการทดลองทางความคิดที่มีประโยชน์และเป็นเหตุการณ์สำคัญ แต่ปัจจุบันนักวิจัยหลายคนมองว่าการทดสอบดังกล่าวล้าสมัยแล้ว การทดสอบสมัยใหม่เน้นที่การวัดความเข้าใจ ตรรกะ และการสรุปทั่วไปมากขึ้น

อคติทางวัฒนธรรมหรือภาษาส่งผลต่อผลลัพธ์ของการทดสอบทัวริงอย่างไร

ใช่ AI สามารถเข้าใจสำนวน อารมณ์ขัน หรือการอ้างอิงที่เกี่ยวข้องกับวัฒนธรรมหรือภาษาเฉพาะได้ผิดพลาด ซึ่งทำให้ระบุได้ง่ายขึ้นว่าไม่ใช่มนุษย์ในบริบทบางบริบท

การผ่านการทดสอบทัวริงจะช่วยนิยามความหมายของคำว่า "มนุษย์" ใหม่ได้อย่างไร

หากเครื่องจักรผ่านการทดสอบทัวริงอันเข้มงวด มันอาจบังคับให้เราคิดใหม่ว่าความเป็นมนุษย์เกี่ยวข้องกับชีววิทยาหรือพฤติกรรม และอะไรที่ทำให้วิธีคิดของเราพิเศษอย่างแท้จริง

คำถามประเภทใดที่มีประสิทธิผลสูงสุดในการเปิดเผยลักษณะที่ไม่ใช่มนุษย์ใน AI

คำถามที่อาศัยบริบท ความแตกต่างทางอารมณ์ หรือสามัญสำนึกในโลกแห่งความเป็นจริง เช่น การตีความการเสียดสี การอ้างอิงที่คลุมเครือ หรือข้อมูลที่ขัดแย้งกัน มักจะเป็นสิ่งที่ให้คำตอบได้เร็วที่สุด