图灵测试是什么?
图灵测试是一项人工智能测试,目的是测试计算机能否通过聊天对话让人类相信它是人类。人类被要求判断与他们交谈的 "人 "是人类还是计算机。如果他们判断自己是在与人类交谈,但实际上却是在与电脑交谈,那么电脑就通过了图灵测试。
从根本上说,这是一项测试,目的是评估计算机是否能够令人信服地模仿人类,从而骗过人类,让他们以为自己是在与人类交谈。当然,这项测试还有很多值得探讨的地方。
图灵测试的意义何在?
这似乎是个奇怪的问题,因为问题的关键似乎显而易见:了解机器能否在聊天对话中令人信服地模仿人类。不过,还有一些更深层次的考虑。
我们是在测试机器是否能真正模仿人类的基本思维或智能,还是只是骗人说它是人类?这两者是有区别的。
当人们想到图灵测试时,通常会想到在潜在思维或智能方面模仿人类--人类确实无法区分与人聊天还是与机器聊天。实际上,这并不是测试最初的设想,因为 "欺骗 "人类是被允许的。例如,计算机可以通过拼写错误来欺骗人类,让人类相信它是人类,因为机器永远不会犯拼写错误。
根本问题在于测试是有规则的,因此在某些方面难免会有缺陷。例如,与测试对象交谈的时间长短就很重要。模仿一个人说话 5 分钟比 100 小时要容易得多。在 5 分钟的版本中,技巧可能会奏效,但在 100 小时的版本中则不会。
谁来进行图灵测试重要吗?
受过如何识别机器与人的培训的科学家要比没有受过培训的普通人更难上当--这不仅是因为科学家有能力评估答案,还因为他知道该问什么问题。
即使计算机具有人类水平的 "思维 "和智力,也可能不足以骗过测试人员。这是因为计算机的反应可能过于完美或过于缺乏情感。
围绕图灵测试甚至还有一些哲学思考,例如,如果计算机达到了普通人的智能水平,是否意味着机器可以 "思考 "或有意识。阿兰-图灵试图通过这项测试绕开这个问题。如果一台机器能够准确地模仿人类,那么无论出于何种意图和目的,它都是在 "思考"。
当然,这并不意味着它有意识,也不意味着它的思维方式与人类相同。事实上,它肯定不会以人类的思维方式进行思考。从实用的角度来看,这个问题才真正有趣。例如,飞机会飞。这才是最重要的。至于它们不模仿鸟类的飞行方式,那就没那么有趣了。
图灵测试感兴趣的是结果,而不是取得结果的方式。
更重要的一点是,图灵测试一般被理解为描述机器智能至少达到人类智能水平的一种状态。考虑到上述所有缺陷,对机器是否在技术上通过了图灵测试这一问题感兴趣的人要少得多。
虽然通过图灵测试可能是一项令人印象深刻的技术壮举,尤其是如果测试是由知识渊博的人长期进行的,但它远不如一台机器能在所有时间、所有地点骗过所有的人那么令人印象深刻。当然,测试时间越长,评估人员的专业水平越高,这两种情况就越有可能趋于一致。
我们离通过图灵测试的计算机还远吗?
既然你已经明白了测试是什么,那么下一个问题一定是 "我们离计算机通过测试还有多远?(即实现通用人类智能)。简短的回答是 "没有"。
自然语言处理是计算机识别单个口语短语背后意图的能力(这也是所有语音助手的驱动技术),虽然在自然语言处理方面取得了巨大进步,但我们离普及人类水平的智能还很遥远。
事实证明,目前的技术在模糊性(理解模糊语句背后的含义)、记忆性(将先前陈述的事实纳入当前对话)或上下文(将未陈述但与当前情况相关的事实考虑在内)方面并不擅长。简而言之,目前的技术几乎无法满足需要。
问题的部分原因在于,当前的人工智能技术需要利用大量数据进行学习。任何存在大量重复数据的领域都是引入人工智能的成熟领域,例如语音识别和图像处理,包括自动驾驶汽车。
NLP的成功源于这样一个事实,即对于没有上下文或没有记忆的一次性陈述和问题,几乎存在无限的数据。如果我说 "我想买橙汁",在大多数情况下,这是一个简单的陈述,不需要额外的语境或记忆信息来理解。其意图是:"买橙汁"。
当涉及上下文或记忆时,就会产生维度。如果我说我想"买橙汁",但我之前告诉过你,我是一个从事橙汁交易的金融交易员,那么你就需要明白,在这种情况下,我想买的是一种金融工具,如果橙汁价格上涨,它就会赚钱。
那么,现在我们的数据是什么样的呢?"购买橙汁 "意味着:从商店购买一瓶橙汁,或者如果之前说过自己是橙汁的金融交易商,则意味着他们想购买与橙汁价格挂钩的金融工具。
如果我们的金融交易员刚才说他渴了,那么他的意思就是想去商店买一瓶橙汁。因此,我们又增加了一个数据点:或者,如果之前说过自己是橙汁金融交易员,但最近又说口渴了,这就意味着他们想买一瓶橙汁。
如果一家金融企业推出的交易机器人被用户认为具有人类水平的 "智能",那么他们很快就会遇到问题。
通过图灵测试是不可能的吗?
不幸的是,对话数据有很多维度。无限维度。这意味着机器学习算法需要访问一个数据集,该数据集必须在每个可能的维度上都有大量数据,而这当然是不可能的。
当然,这并不意味着通过图灵测试是不可能的。我们知道这是有可能的,因为我们的大脑中已经拥有了这样做的技术。就像几百年前的人们通过观察鸟类飞行就知道飞行是可能的一样。
问题在于,我们的人工智能方法无法建立在大数据基础上,因为不存在足够维度的大数据。变量太多,维度太多。就在我们说话的时候,谷歌每天都会收到 8 亿次从未见过的搜索。这说明数据方法有多么困难。
谷歌公司的雷-库兹韦尔(Ray Kurtzweil)正在采用一种在某种程度上试图复制人类大脑的方法。他估计,到 2029 年,我们将实现通用智能,并能通过非常困难的图灵测试。
他的预测基于这样一个假设,即这一领域的进步将是指数级的,因此,如果假设我们正处于指数级的进步轨迹上,那么即使今天取得的进步相对较小,也比看上去要重要得多。
至于他说的是否正确,我们只能拭目以待,但这确实告诉我们,在未来 10 年内实现突破的可能性很小。
机器通过可信的图灵测试意味着什么?
最后一点是,如果机器通过了可信的图灵测试,这意味着什么。如果机器使用某种大数据方法通过测试,就像机器在棋盘游戏(即使是复杂的棋盘游戏)中击败人类一样,其影响不会像机器使用大脑复制方法通过测试那么大。
大脑复制法意味着机器可能更接近于我们人类定义的 "思考"。它可以像人类一样,从最小的例子中推断出意义,而不是需要数百个确切的例子来推断意义。
如上所述,由于不可能采用大数据方法,"大脑复制 "方法更有可能带来突破。这很可能意味着,机器将不仅在对话方面,而且在多个领域实现通用智能。
这其中的影响怎么强调都不为过,因为这很可能会导致社会的彻底重启。如果机器有能力以有意义的方式自我完善,这将导致其智能呈指数级增长,从而形成一个良性循环,改变我们所熟知的生活。
人类与机器的互动
说到更世俗的问题,值得注意的是,即使机器等同于人类,也并不意味着我们会像与人类一样与它们互动。这一点与人类完全相同。与人类互动并不总是高效的。试图通过电话向你的同事解释如何做某事可能会很乏味,而且效率很低,在这种情况下,向他们演示如何做会更容易。如果人类能在网络上使用图形界面就好了!
语音界面(或基于聊天的界面)在输入或输出信息方面显然有其局限性。在某些情况下,以图形方式显示信息或点击图形界面显然比使用语音界面更有效。因此,机器人平台在设计上总是试图让用户回到正确的轨道上,而不是让对话蜿蜒曲折。
我还想说的是,计算机在接收或提供信息的界面方面并不像人类那样受到限制,因此,与机器对话时必然要根据手头的任务使用最佳界面。
虽然通过图灵测试将是人机交互方面的一个巨大里程碑,但实际的人机 "对话 "将不仅仅局限于语音和文字。