什麼是圖靈測試,它是如何工作的?
圖靈測試是一種人工智慧測試,旨在通過聊天對話,了解計算機是否可以說服人類相信它是人類。人類被要求判斷他們正在與之交談的“人”是人類還是計算機。如果他們判斷自己是在和人說話,但實際上是在和計算機說話,那麼這台計算機已經通過了圖靈測試。
從本質上講,這是一項測試,用於評估計算機是否能夠令人信服地模仿人類,以至於它可以欺騙人類,讓他們認為他們正在與人類交談。當然,關於這個測試,還有很多事情要解開。
圖靈測試的意義何在?
這似乎是一個奇怪的問題,因為重點似乎很明顯:知道機器是否可以令人信服地模仿聊天對話中的人類。然而,還有一些更深層次的考慮。
我們是在測試一台機器是否能真正在潛在的思想或智力方面模仿人類,或者只是欺騙人類,讓它成為人類?這是 有 區別的。
人們在思考圖靈測試時通常會想到在潛在思想或智力方面模仿人類——人類真的無法區分與人類或機器聊天之間的區別。這實際上不是最初構思測試的方式,因為“欺騙”人類是被允許的。例如,打錯字可能是計算機欺騙人類相信它是人類的一種方式,因為機器永遠不會犯拼寫錯誤。
根本問題是測試有規則,因此不可避免地在某些方面存在缺陷。例如,您與測試物件交談的時間很重要。模仿一個人超過5分鐘比模仿超過100個小時的對話更容易。技巧可能在 5 分鐘版本上有效,但在 100 小時版本上不起作用。
誰執行圖靈測試重要嗎?
一個受過如何發現機器與人類的訓練的科學家將比沒有受過訓練的街上的人更難被愚弄——不僅因為科學家評估答案的能力,還因為知道該問什麼問題。
即使計算機具有人類水準的“思維”和智力水準,也可能不足以愚弄測試人員。這是因為計算機的反應可能太完美或太不情緒化。
甚至還有關於圖靈測試的哲學考慮,例如,如果計算機達到廣義的人類水平智慧,這是否意味著機器可以“思考”或有意識。這在一定程度上是艾倫·圖靈(Alan Turing)試圖通過這次測試繞過的問題。如果一台機器可以準確地模仿人類,那麼就所有意圖和目的而言,它都是“思考”。
當然,這並不意味著它有意識,也不意味著它以與人類相同的方式思考。事實上,可以保證它不會以人類思考的方式思考。從實際的角度來看,這個問題的真正興趣在於。例如,飛機會飛。這才是最重要的。不那麼有趣的是,它們不會模仿鳥類的飛行方式。
圖靈測試感興趣的是結果,而不是結果的實現方式。
更重要的一點是,圖靈測試通常被理解為描述機器智慧至少達到人類水準的事態。這是一個小得多的群體,他們對機器在技術上是否通過了圖靈測試的問題感興趣,考慮到上述所有缺陷。
雖然通過圖靈測試可能是一項令人印象深刻的技術壯舉,特別是如果測試是長期運行的,並且由知識淵博的人運行,但它遠不如一台可以一直愚弄所有人的機器那麼令人印象深刻。當然,測試運行的時間越長,評估人員的專業水準越高,這兩種情況融合的可能性就越大。
我們是否靠近通過圖靈測試的計算機?
既然您了解了測試是什麼,那麼下一個問題一定是「我們是否靠近通過測試的計算機?(即實現廣義的人類智慧)。簡短的回答是“不”。
雖然 自然語言處理 取得了巨大的進步,即計算機識別單個口語短語背後的意圖的能力(這是驅動所有語音助手的技術),但我們離廣義的人類水平的智慧還很遠。
事實證明,目前的技術並不擅長歧義(理解模棱兩可的陳述背後的含義)、記憶(將先前陳述的事實納入當前對話)或上下文(考慮未陳述但與當前情況相關的事實)。簡而言之,就需求而言,當前的技術幾乎遠未達到。
部分問題在於當前的人工智慧技術需要使用大量數據進行學習。任何有大量重複數據的領域都適合引入人工智慧,例如語音辨識和圖像處理,包括自動駕駛汽車。
NLP 的成功是由這樣一個事實驅動的,即沒有上下文或沒有記憶的一次性陳述和問題的數據幾乎是無限的。如果我說“我想買柳丁”,在大多數情況下,這是一個簡單的陳述,不需要關於上下文或記憶的額外資訊來理解。意圖是 :「買橙汁」。
當涉及上下文或記憶時,這會產生維度。如果我說我想“買橙汁”,但我之前告訴過你,我是一個交易橙汁的金融交易員,那麼你需要明白,在這種情況下,我想買一種金融工具,如果 橙汁 價格上漲,它會賺錢。
那麼現在我們的數據是什麼樣子的呢?“購買橙汁”的意思是:從商店購買一瓶橙汁,或者如果之前聲明他們是橙汁的金融交易員,這意味著他們想 購買與橙汁 價格挂鉤的金融工具。
如果我們的金融交易員剛剛說他口渴了,那麼他的意思是他想從商店買一瓶橙汁。因此,我們添加了另一個數據點:或者,如果之前表示他們是橙汁的金融交易員,但他們最近表示他們口渴,這意味著他們想買一瓶橙汁。
如果金融 企業 啟動了一個用戶認為具有人類水準「智慧」的交易機器人,他們很快就會遇到問題。
通過圖靈測試是不可能的嗎?
不幸的是,對話數據有很多維度。無限維度。這意味著機器學習演算法需要訪問一個數據集,該數據集在每個可能的維度上都有大量數據,這當然是不可能的。
當然,這並不意味著不可能通過圖靈測試。我們知道這是可能的,因為我們的大腦中已經有了做到這一點的技術。就像幾百年前的人們通過觀察鳥類的飛行來知道飛行是可能的一樣。
問題在於,我們在這方面的人工智慧方法不能建立在大數據上,因為不存在具有足夠維度的大數據。變數太多了,維度太多了。就在我們說話的時候,谷歌每天獲得8億次搜索,這是它以前從未見過的。這為您提供了有關數據方法難度的線索。
谷歌的雷·庫茨韋爾(Ray Kurtzweil)正在遵循一種在某種程度上試圖複製人類大腦的方法。他估計,到2029年,我們將獲得廣義智慧,並能夠通過非常嚴格的圖靈測試。
他的預測是基於這樣的假設,即這一領域的進展將是指數級的,因此,即使是今天相對溫和的進展,也比你假設我們處於指數級進步的軌道上時看起來要重要得多。
他是否正確,我們將不得不拭目以待,但它確實告訴你的是,未來10年突破的可能性極小。
對於一台機器來說,通過可信的圖靈測試意味著什麼?
最後一點是,如果一台機器通過了可信的圖靈測試,這意味著什麼。如果機器使用某種大數據方法通過了測試,就像機器在棋盤遊戲中擊敗人類的方式一樣,即使是複雜的遊戲,其影響就不會像機器使用大腦複製方法通過測試那樣大。
大腦複製方法意味著機器可能更接近於“思考”,就像我們定義為人類一樣。它可以像人類一樣從最小的例子中推斷出意義,而不是需要數百個確切案例的例子來推斷意義。
如上所述,「大腦複製」方法更有可能提供突破,因為大數據方法是不可能的。這可能意味著機器將實現通用智慧,不僅在對話中,而且在多個領域。
其含義怎麼強調都不為過,因為這可能會導致社會的徹底重置。如果機器有能力以有意義的方式提高自己,這將導致它們的智慧在良性迴圈中呈指數級增長的可能性,這將改變我們所知道的生活,則尤其如此。
人類與機器的互動
堅持更平凡的事情,值得記住的是,即使機器等同於人類,這並不意味著我們會像與人類一樣與它們互動。這與人類完全相同。與人類互動並不總是有效的。試圖通過電話向你的同事解釋如何做某事可能是乏味和低效的,因為在向他們展示如何做某事更容易的情況下。要是人類能通過網路獲得圖形介面就好了!
語音介面(或基於聊天的介面)在資訊輸入或輸出方面顯然存在局限性。顯然,在一些限制和情況下,以圖形方式顯示資訊或按兩下圖形介面比使用語音介面更有效。因此, 機器人平臺 被設計為始終試圖讓使用者回到快樂的道路上,而不是讓對話蜿蜒曲折。
我的觀點還在於,計算機在可用於接收或提供資訊的介面方面並不像人類那樣受到限制,因此與機器的對話必然涉及使用手頭任務的最佳介面。
雖然通過圖靈測試將是人機交互方面的巨大里程碑,但實際的人類/計算機“對話”將不僅限於語音和文本。