搜索
NFT元宇宙Web3
近期热门

人工智能理解意味着什么?

Founder

对于人工智能来说,似乎理解数据很简单,但事实证明,设计一个真正的机器知识测试是困难的。

人工智能理解意味着什么?

还记得IBM的沃森吗,人工智能的 “危险 “冠军?2010年的一次宣传宣称,”沃森了解自然语言的所有模糊性和复杂性”。然而,正如我们看到的那样,沃森后来在 “用人工智能彻底改变医学 “的追求中惨遭失败,语言能力的外衣并不等同于真正理解人类语言。

长期以来,自然语言理解一直是人工智能研究的一个主要目标。起初,研究人员试图对机器所需的一切进行人工编程,以理解新闻故事、小说或人类可能写的其他东西。正如沃森所展示的那样,这种方法是徒劳的–不可能写下理解文本所需的所有不成文的事实、规则和假设。最近,一种新的范式已经建立。我们没有建立明确的知识,而是让机器自己学习理解语言,仅仅通过摄取大量的书面文本和学习预测单词。其结果就是研究人员所说的语言模型。当基于大型神经网络时,如OpenAI的GPT-3,这样的模型可以生成与人类不相上下的散文(和诗歌!),似乎可以进行复杂的语言推理。

但是,GPT-3–在数以千计的网站、书籍和百科全书的文本上进行训练–是否超越了沃森的外衣?它真的理解它所产生的、表面上是推理的语言吗?这是一个在人工智能研究界存在明显分歧的话题。这样的讨论曾经是哲学家的职权范围,但在过去的十年里,人工智能已经冲出了它的学术泡沫,进入了现实世界,而它对这个世界的不理解可能会产生真实的、有时是毁灭性的后果。在一项研究中,IBM的沃森被发现提出了 “多个不安全和不正确的治疗建议的例子”。另一项研究表明,谷歌的机器翻译系统在为非英语国家的病人翻译医疗指示时出现了重大错误。

我们如何才能在实践中确定一台机器是否能够理解?1950年,计算机先驱阿兰-图灵试图用他著名的 “模仿游戏 “来回答这个问题,现在被称为图灵测试。一台机器和一个人,都隐藏起来,只用对话来说服人类法官相信他们是人类。图灵断言,如果法官无法分辨哪一个是人类,那么我们就应该认为机器在思考,而且实际上是在理解。

不幸的是,图灵低估了人类被机器所欺骗的倾向。即使是简单的聊天机器人,如Joseph Weizenbaum在1960年设计的冒牌心理治疗师Eliza,也欺骗了人们,让他们相信自己是在与一个善解人意的人对话,即使他们知道他们的对话伙伴是一台机器。

在2012年的一篇论文中,计算机科学家Hector Levesque、Ernest Davis和Leora Morgenstern提出了一个更客观的测试,他们称之为Winograd模式挑战。此后,这一测试被人工智能语言社区采用,作为评估机器理解的一种方式,也许是最好的方式–尽管正如我们将看到的,它并不完美。以语言研究者特里-维诺格拉德(Terry Winograd)命名的维诺格拉德模式由一对句子组成,它们之间正好相差一个词,每个句子后面都有一个问题。下面是两个例子。

句子1:我把水从瓶子里倒进杯子里,直到杯子满了。

问题。什么是满的,瓶子还是杯子?

句子2:我把水从瓶子里倒进杯子里,直到它空了为止。

问题:什么是空的?什么是空的,瓶子还是杯子?

第1句:张三的叔叔在网球上仍能打败他,尽管他比他大30岁。

问题:谁更老?谁更老,张三还是张三的叔叔?

第2句:张三的叔叔仍然可以在网球上击败他,尽管他比他年轻30岁。

问题:谁更年轻?谁更年轻,张三还是张三的叔叔?

神经网络语言模型在一组特定的Winograd模式上取得了约97%的准确率。这大致等同于人类的表现。

在每一对句子中,一个词的差异可以改变代词指代的事物或人。正确回答这些问题似乎需要常识性的理解。Winograd模式的设计正是为了测试这种理解力,减轻了图灵测试对不可靠的人类裁判或聊天机器人技巧的脆弱性。特别是,作者们设计了几百个他们认为是 “防谷歌 “的模式。机器不应该能够使用谷歌搜索(或类似的东西)来正确回答问题。

这些模式是2016年举行的一次竞赛的主题,获胜的程序只有58%的句子是正确的–几乎没有比它猜测的更好的结果。领先的人工智能研究员奥伦-埃齐奥尼(Oren Etzioni)调侃道:”当人工智能无法确定’它’在句子中指的是什么时,很难相信它将接管世界。”

然而,由于大型神经网络语言模型的出现,AI程序解决Winograd模式的能力迅速上升。2020年OpenAI的一篇论文报告说,GPT-3在Winograd模式的基准集中有近90%的句子是正确的。其他语言模型在专门针对这些任务进行训练后,表现甚至更好。在写这篇文章的时候,神经网络语言模型在一组特定的Winograd模式上取得了约97%的准确率,这些模式是被称为SuperGLUE的AI语言理解比赛的一部分。这一准确率与人类的表现大致相当。这是否意味着神经网络语言模型已经达到了类似人类的理解能力?

不一定。尽管创作者尽了最大努力,但那些Winograd模式实际上并不符合谷歌的要求。这些挑战,就像目前许多其他对人工智能语言理解的测试一样,有时允许走捷径,让神经网络在没有理解的情况下表现良好。例如,考虑一下 “跑车超过了邮车,因为它的速度更快 “和 “跑车超过了邮车,因为它的速度更慢 “这两个句子。一个在巨大的英语句子语料库中训练出来的语言模型将吸收 “跑车 “和 “快 “之间的相关性,以及 “邮车 “和 “慢 “之间的相关性,因此它可以仅根据这些相关性而不是通过借鉴任何理解来正确回答。事实证明,SuperGLUE竞赛中的许多Winograd模式都允许这种统计学上的相关性。

来自艾伦人工智能研究所的一组研究人员并没有放弃将Winograd模式作为一种理解的测试,而是决定尝试解决其中的一些问题。2019年,他们创建了WinoGrande,一个更大的Winograd模式集。WinoGrande没有几百个例子,而是包含了高达44000个句子。为了获得这么多的例子,研究人员求助于亚马逊Mechanical Turk,一个流行的众包工作平台。每个(人类)工人被要求写几对句子,并有一些限制条件,以确保收集的句子包含不同的主题,尽管现在每对句子的差异可能超过一个词。

然后,研究人员试图通过对每个句子应用相对不复杂的人工智能方法来消除那些可能允许统计捷径的句子,并丢弃那些太容易解决的句子。正如预期的那样,剩下的句子对机器来说是一个比原来的Winograd模式集更难的挑战。虽然人类的得分仍然很高,但在原始句子集上与人类表现相当的神经网络语言模型在WinoGrande句子集上的得分却低得多。这个新的挑战似乎可以挽回Winograd模式作为常识性理解的测试–只要对句子进行仔细的筛选,确保它们不受谷歌的影响。

然而,另一个惊喜正在酝酿之中。在WinoGrande文集出版后的近两年时间里,神经网络语言模型已经越来越大,而且它们越大,似乎在这个新的挑战中得分越高。在写这篇文章的时候,目前最好的程序–它们在TB级的文本上进行了训练,然后在成千上万的WinoGrande例子上进一步训练–获得了接近90%的正确率(人类获得了大约94%的正确率)。这种性能的提高几乎完全是由于神经网络语言模型及其训练数据的规模扩大所致。

理解语言需要理解世界,而只接触语言的机器无法获得这种理解。

这些越来越大的网络是否最终达到了人类的常识性理解?同样,这也是不可能的。WinoGrande的结果有一些重要的注意事项。例如,由于这些句子依靠的是亚马逊Mechanical Turk的工人,写作的质量和连贯性相当不平衡。另外,用于剔除 “非谷歌认证 “句子的 “不成熟 “的人工智能方法可能太不成熟,无法发现一个巨大的神经网络所能使用的所有可能的统计捷径,而且它只适用于个别句子,所以剩下的一些句子最终失去了 “双胞胎”。一项后续研究表明,只对双胞胎句子进行测试的神经网络语言模型–并且要求在这两个句子上都正确–其准确度远远低于人类,这表明早先90%的结果并不像看上去那么重要。

那么,该如何看待Winograd的传奇故事呢?主要的教训是,通常很难从它们在特定挑战上的表现来确定人工智能系统是否真正理解它们所处理的语言(或其他数据)。我们现在知道,神经网络经常使用统计学上的捷径–而不是真正表现出类似人类的理解力–来获得Winograd模式以及许多最流行的 “一般语言理解 “基准的高绩效。

在我看来,问题的关键在于,理解语言需要理解世界,而只接触语言的机器无法获得这种理解。考虑一下理解 “跑车超过了邮车,因为它走得比较慢 “意味着什么。你需要知道什么是跑车和邮车,汽车可以相互 “超越”,而且,在更基本的层面上,车辆是存在于世界上并相互作用的物体,由人类驾驶,有他们自己的议程。

所有这些都是我们人类认为理所当然的知识,但它并没有内置于机器中,也不可能明确地写在任何语言模型的训练文本中。一些认知科学家认为,人类为了学习和理解语言,依赖于先天的、语言前的关于空间、时间和世界的许多其他基本属性的核心知识。如果我们想让机器同样掌握人类的语言,我们将需要首先赋予它们人类天生的原始原则。而为了评估机器的理解力,我们应该从评估它们对这些原则的掌握开始,人们可以称之为 “婴儿形而上学”。

与沃森和GPT-3等人工智能系统的惊人功绩相比,训练和评估机器的婴儿级智能似乎是一个巨大的退步。但是,如果真正的和值得信赖的理解是目标,这可能是通向机器的唯一途径,它们可以真正理解 “它 “在句子中指的是什么,以及理解 “它 “所带来的其他一切。

编辑于 2021-12-17 06:39
「 真诚赞赏,手留余香 」
赞赏

发表评论已发布0

手机APP 意见反馈 返回顶部 返回底部