三十年前,Hinton对于神经网络能够取得大发展的信念是非主流的,而现在恐怕很难找到任何人反对。近期 Hinton 在麻省理工技术评论的年度 EmTech MIT 会议上,讨论了这个领域的现状以及他认为下一步应该走向何方。
现代的人工智能革命开始于一场竞赛:2012年,一年一度的 ImageNet 竞赛举办至第三年,竞赛要求团队建立能够识别1000个物体的计算机视觉系统,从动物到景观再到人。
在最初的两年里,最好的团队甚至没有达到75% 的准确率。但在第三年中,一个由三名研究人员组成的团,一名教授和他的学生突然突破了这个上限。他们以惊人的10.8个百分点赢得了比赛,而那个教授就是 Geoffrey Hinton,他们使用的技术叫做深度学习。
Hinton 实际上从20世纪80年代就开始研究深度学习,但是由于缺乏数据和计算能力,它的有效性受到了限制,但他对这项技术的坚定信念最终带来了巨大的回报。
在 ImageNet 竞赛的第四年,几乎每个团队都在使用深度学习,并取得了奇迹般的准确性增益。很快,深度学习就被应用到图像识别以外的任务中,并且在很多行业中得到应用。
去年,因为他在该领域的奠基性贡献,Hinton 与 Yann LeCun 和 Yoshua Bengio 一起获得了图灵奖。
10月20日,在麻省理工技术评论的年度 EmTech MIT 会议上,他讨论了这个领域的现状以及他认为下一步应该走向何方。
以下是访问 Hinton 的精华内容:
你认为深度学习足以复制所有的人类智慧,是什么让你如此肯定?
我确实相信深度学习能够做到一切,但是我确实认为必须有一些概念上的突破。例如,在2017年 Ashish Vaswani 等人引入了 Transformers,它派生出代表单词意义的非常好使用的向量,这是一个概念上的突破,现在几乎所有最好的自然语言处理模型都使用它,我们需要更多这样的突破。
如果我们有了这些突破,我们是否能够通过深度学习技术接近人类的智力?
是的。尤其是突破性的进展可以让大量的向量实现诸如推理的事情,但是我们也需要大幅度的扩大参数规模。人类的大脑有大约100万亿个参数,或者说突触,而我们现在所说的一个真正的大模型,像 GPT-3,有1750亿。它比大脑小一千倍。GPT-3现在可以产生看似合理的文本,但与大脑相比仍然很小。
你说的规模,是指更大的神经网络,更多的数据,还是两者兼而有之?
两者都有。在计算机科学和人类之间存在着某种差异。与感官接收到的数据量相比,人类大脑中有更大量的参数,而神经网络也出人意料地善于处理数量相当少的数据,但人类可以做到更好。
人工智能领域的许多人认为,常识是下一个需要解决的重大问题。你同意吗?
我同意这是非常重要的事情之一。我也认为运动控制(motor control)是非常重要的,深层神经网络现在在这方面做得越来越好。特别是最近在谷歌的一些工作表明,你可以做精细的运动控制,并结合语言理解,这样你就可以打开一个抽屉拿出一个物品,系统告诉你正在做什么。
人工智能领域一直把人类大脑作为灵感的最大来源,不同的人工智能方法源于认知科学的不同理论。你是否相信大脑实际上建立了外部世界的表征来理解它,或者这仅仅是一种有用的思考方式?
很久以前,在认知科学领域有两个学派之间的争论。其中一个是由 Stephen Kosslyn 领导的,他相信当你在大脑中操纵视觉图像时,你所拥有的是一组像素,而你在移动它们。
其他学派的思想则更符合传统的人工智能,他们认为视觉图像在大脑中是层次化、结构化的表示。你的头脑中有一个表征的结构,这才是大脑在操纵的东西。
而我认为他们都犯了同样的错误。Kosslyn 认为我们操纵了像素,因为外部图像是由像素构成的,这是我们理解的一种表示方式。
而符号学派认为我们操纵了符号,因为我们也用符号来表示事物,这是我们理解的一种表示。我认为这同样是错误的,大脑内部其实是这些神经活动的巨大向量构成的理解方式。
有些人仍然相信符号表示是人工智能的方法之一,您同意吗?
我有像赫克托 · 莱维斯克这样的好朋友,他真的相信符号表征的方法,并且在这方面做了很大的工作。不过我不同意他的观点,但是这种符号学的方法是一种完全合理的尝试。
但我的猜想是,最终我们会意识到符号只存在于外部世界,本质是我们对向量进行各种内部操作。
对于人工智能的未来,你认为你最非主流的观点是什么?
我曾经有一些非主流的观点,而五年后,它们成了主流。我在20世纪80年代的大多数非主流观点现在已经被广泛接受,所以现在很难找到不同意这些观点的人。所以,我现在已经没有多少非主流观点了。
标签: gpt