来源|The Robot Brains Podcast
翻译|胡燕君、沈佳丽、程浩源、许菡如、贾川
在当今享誉世界的AI科学家中,深度学习教父Geoffrey Hinton也许拥有最为与众不同的研究思维——他喜欢按直觉行事,更倾向于运用类比,研究生涯中的神来之笔大都源自瞬间迸发的思维火花。
这与他本人的教育背景息息相关。他的本科专业是生理学和物理学,也读了哲学,拿到的却是心理学方向的学士学位以及AI专业的博士学位,这种庞杂的跨学科经历意味着开放的思维基础,让他的研究不会拘泥于形式化以及严谨的数理推演,而是拥有极具想象力的敏锐直觉和独特的研究品味。
人工神经网络的最大模仿对象无疑是人类大脑,这也是科学家探究智能的神秘起源。Hinton也是受此启发,他起初研究受限玻尔茨曼机,想借此弄清楚人类大脑如何工作,后来他顺其自然转向神经网络的传统的反向传播,直到2012年,他与学生Alex Krizhevsky、Ilya Sutskever提出的AlexNet成为深度神经网络崛起的开山之作。
在深度学习领域深耕半个世纪之久,可谓凭他一己之力支撑起了AI研究的半边天,但那些研究在很长一段时间里都相对不为人知。2019年,Geoffrey Hinton,与Yoshua Bengio、Yann LeCun共同获得了图灵奖,他的论文被引次数截止目前高达50多万次。
如今,Hinton认为,深度学习这种非常成功的范式将继续保持繁荣。不过,引领深度学习向前迈进的不再是反向传播,基于他对人类大脑工作机制的持续研究,他窥探到深度学习发展的下一个大事件:脉冲神经网络的学习算法。
这一次,他的研究直觉还会在未来得到验证吗?
最近,在Pieter Abbeel主持的The Robot Brains Podcast节目中,他深入表达了对大脑工作机制、脉冲神经网络、大规模模型、玻尔兹曼机、t-SNE技术的见解。以下是对话内容,由OneFlow社区编译。
1
大脑工作机制的最新研究进展
Pieter Abbeel:近期让你彻夜难眠的三个问题是什么?
Geoffrey Hinton:第一,司法部长什么时候才能有点作为,因为时间不多了,这是让我最担心的问题;第二,我们该如何应对像普京这样拥有核武器的人;最后,大脑是否使用反向传播(Back Propagation)。
Pieter Abbeel:你花了很长时间研究大脑的工作原理,进展如何?
Geoffrey Hinton:这是一件富有成效的事情,我总是坚信会在未来五年内弄清这个问题。我们正在越来越接近答案,但同时我也确信大脑中不存在反向传播。我认为,现有的人工智能底层技术原理与大脑的工作原理截然不同,但从高层次来看它们又是相同的,它们都有很多参数——即神经元之间的权重,我们可以通过大量的训练样本来调参。
大脑和深度学习都会涉及到大量的参数,问题是,我们怎样才能得到调整这些参数的梯度。我们需要一些标准来判定结果是否理想,如果结果不理想就需要调整参数,从而优化对目标的预测。目前我认为,虽然反向传播是当下深度学习普遍采用的一种工作机制,但这与大脑中的运作机制非常不同,大脑计算梯度的方法另有其他。
Pieter Abbeel:近期,你也宣称大脑的工作机制并非反向传播,而是更接近玻尔兹曼机,你认为玻尔兹曼机架构是一种可行的AI模型,还是一种表现大脑工作机制的理论模型?
Geoffrey Hinton:归根结底,如果大脑的工作机制类似反向传播,那么它如何获取梯度信息呢?这就是NGRAD
(https://brainscan.uwo.ca/research/cores/computational_core/uploads/11May2020-Lillicrap_NatNeuroRev_2020.pdf)(neural gradient representation by activity differences,简称NGRAD)算法理论的核心,它用神经活动差异来表示误差导数,也即用时间导数来表示误差导数。不过,我现在不太相信这个假设了。
玻尔兹曼机原理很简洁,我对它的看法也在不断变化,现在我对它秉持部分认可的态度。玻尔兹曼机模型包含马尔可夫链,需要对称权重,这似乎并不合理,但另一方面,玻尔兹曼机运用对比学习,它更像一个生成对抗网络(GAN)而不是典型的无监督对比学习。
在无监督对比学习中,你要求来自同一张图像的两个图片块(crop)要有相似的表征,来自不同图像的两个图片块要有不太相似的表征。而在玻尔兹曼机中,你要求正数据(positive data)产生低能量,负数据(negative data)产生高能量(这里的数据指单个图像,而不是图像对或其它)。所以,如果要让无监督对比学习变得可行,需要像玻尔兹曼机那样有两个阶段。
第一阶段,需要找出正数据的结构,这里指的不是成对的图像块的结构,而是整张图像的结构,需要找到本地提取和语境预测之间的本质共同点;第二阶段的做法则不同,首先要有负数据,它非常接近真实图像,但却有细微的差异。然后,你要求刚刚在正数据中得到的结构不能出现在负数据中,即正数据的结构须为正数据所独有,因为神经网络自身的前端连接(wiring)可能会导致从正数据和负数据得出的结构一致,但通过上述做法,就可以保证得出的数据结构不受神经网络连接的影响。
这是我认可玻尔兹曼机的一个方面,但我认为,利用马尔可夫链生成负数据的方法过于复杂,而且低效,所以我们需要另找一个生成负数据的方式。
这就很像生成对抗网络。在生成对抗网络中,先输入真实数据,生成模型会生成负数据,然后判别器会通过判断其是否具有正数据独有的结构,来判定数据的真伪。我希望用判别器的内部表征作为生成模型,用以生成负例,从而训练判别器。
因此,我现在的想法介于生成对抗网络和玻尔兹曼机之间,不是通过马尔可夫链生成数据,而是通过直接生成模型,毕竟后者要简单许多。此外,我还设想同时存在一个判别器和另一个直接生成模型用以学习,让生成的负例样本更逼真。
Pieter Abbeel:原则上,这并不冲突,因为生成对抗网络可以被重写成基于能量的模型(energy-based model),前者只是后者的其中一种形式。
Geoffrey Hinton:没错。不过在生成对抗网络中,你从顶部的随机数据中生成新数据,难以完全覆盖,因为存在很多永远不会生成的数据。但如果你从判别器的顶层再次生成,就可以达到良好的覆盖。
2006年,我与Simon Osindero和Yee-Whye Teh发表了一篇关于神经计算中的唤醒-睡眠(wake-sleep)算法的论文(https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf)。该算法没有用到反向传播,却有良好的学习效果。它用的是对比唤醒-睡眠算法,之所以称为“对比(contrastive)”,是因为包含两方面,首先是识别,这属于调整权重阶段;其次是生成,但不是根据随机数据生成,而是根据识别时获得的数据生成,这样就可以得到不错的覆盖。
Pieter Abbeel:你在一篇论文曾称,可以通过反向传播训练神经网络。现在几乎所有人的研究都是采用反向传播机制,但你现在却说,我们或许应该换种方法才能更接近大脑的工作方式。某种程度上,是否可以认为反向传播机制可能会比大脑的工作方式更优?
Geoffrey Hinton:首先,我需要纠正的是,我确实和David Rumelhart、Ronald Williams一起写了一篇关于反向传播的高被引论文,但是反向传播算法在此之前就有了,我们只是重新使用并且证明了它可以学习到一些有趣的表征,例如词嵌入(Word Embedding),但并非由我们发明了反向传播算法。
我认为反向传播可能比大脑的类似工作机制的效率更高,它将海量的信息压缩到几十亿个神经元连接中。要知道,大脑拥有多达数百万亿个神经元连接,这也导致它的连接成本很低,但使用的经验(训练数据)却很少,也就是大脑投入了大量参数,却只需要少量经验。
但人工神经网络却恰恰相反,它拥有充足的经验(训练数据)却只需要很少参数,我们试图找出影响输入与输出之间关系的信息,并将其添加到参数中。所以我认为,反向传播比大脑的工作方式更高效,但前者可能不擅长从少量数据中抽象出大量结构。
Pieter Abbeel:在这方面,你是否设想过有没有其他获得更优性能的方法?
Geoffrey Hinton:我一直认为这需要无监督的目标函数,尤其是针对感知学习,这很关键。如果你可以根据物理世界抽象出一个模型,那么就可以基于该模型而不是原始数据来调整自己的行为,这样就更容易找到正确的方法。
我确信大脑就使用了许多