假如十年前,你向别人介绍人脸识别、无人驾驶、对话机器人,也许会被当作疯子。然而今天,随着AI技术的发展,这一切都逐渐成真。
即便五年前,有道推出有道神经网络翻译引擎(YNMT),使得翻译质量得到质的飞跃时,大家对机器翻译的质量仍然心存疑虑。但今天,人们甚至已经开始讨论未来是否还会存在翻译这个职业。
过去十年是人工智能快速发展的十年,也是从实验室走向工业界的十年。近期拜读AI领域标杆人物、Google
人工智能负责人杰夫·迪恩的长文,不免有些共鸣与感悟,也对继续投身 AI 技术发展的下一个十年充满期待。
我们用有道神经网络翻译引擎(YNMT)将全文做了翻译,以飨读者。大家也可以感受一下,当前机器翻译的效果。
——网易有道首席科学家 段亦涛
自计算机诞生之初,人类就梦想着能够创造出“会思考的机器”。1956年,约翰·麦卡锡(John McCarthy)在达特茅斯学院(Dartmouth College)组织了一个研讨会,会上一群数学家和科学家聚在一起,“研究如何让机器使用语言,形成抽象概念,解决现在只留给人类的各种问题,并提高自己。”讲习班与会者乐观地认为,几个月的集中努力将在这些问题上取得实际进展。
几个月的时间表被证明过于乐观。在接下来的50年里,创造人工智能系统的各种方法层出不穷,包括基于逻辑的系统、基于规则的专家系统和神经网络编码世界逻辑规则并使用这些规则的方法被证明是无效的。以Cyc项目为最突出的例子,手工将数百万条人类知识整理成机器可读的形式,被证明是一项非常劳动密集型的工作,在使机器自主学习方面没有取得显著进展从真正的生物神经网络中汲取灵感的人工神经网络,在这段时间里似乎是一种很有前途的方法,但最终在20世纪90年代失宠。虽然他们能够在玩具规模的问题上得出令人印象深刻的结果,但他们无法在当时的现实世界问题上得出有趣的结果。
1990年,作为一名本科生,我对神经网络着迷,觉得它们似乎是创造智能机器的正确抽象,并相信我们只需要更多的计算能力,就可以使更大的神经网络解决更大、更有趣的问题。我做了一篇关于神经网络并行训练的本科论文,相信如果我们可以使用64个处理器而不是一个处理器来训练一个神经网络,那么神经网络就可以解决更多有趣的任务然而事实证明,相对于1990年的计算机,我们需要大约100万倍的计算能力,而不是64倍,才能让神经网络在具有挑战性的问题上开始取得令人印象深刻的进展!
然而,大约从2008年开始,由于摩尔定律,我们开始拥有如此强大的计算机,神经网络开始复苏,并成为最有前途的创造能看、能听、能理解和能学习的计算机的方式(以及将这种方法重新命名为“深度学习”)。
从2011年到本文撰写时(2021年)的这十年,在实现1956年达特茅斯研讨会设定的目标方面取得了显著进展,机器学习(ML)和人工智能现在在许多领域都取得了巨大的进步,为新的计算体验和交互创造了机会,并极大地扩展了世界上可以解决的问题集。
本文主要关注三个方面:推动这一进展的计算硬件和软件系统;过去十年中机器学习的一些激动人心的应用实例;以及我们如何创造更强大的机器学习系统,以真正实现创造智能机器的目标。
与通用的计算机代码(比如你每天运行文字处理器或网络浏览器时可能会用到的软件)不同,深度学习算法通常是由组成少量线性代数操作的不同方式构建的:矩阵乘法、向量点积和类似的操作。由于这种有限的操作词汇表,我们有可能制造出专门支持这类计算的计算机或加速器芯片。这种专门化实现了相对于通用中央处理单元(cpu)的新的效率和设计选择,后者必须运行更广泛的各种算法。
在21世纪初,一些研究人员开始研究使用图形处理单元(gpu)来实现深度学习算法。尽管这些设备最初是为绘制图形而设计的,但研究人员发现,它们也非常适合深度学习算法,因为与cpu相比,它们具有相对较高的浮点计算率。2004年,计算机科学家Kyoung-Su Oh和Keechul Jung展示了使用GPU的神经网络算法的近20倍的改进。2008年,计算机科学家Rajat Raina和同事展示了使用GPU的速度比一些无监督学习算法的最佳cpu实现的速度高72.6倍。
这些早期的成就继续建立,因为在gpu上训练的神经网络在各种各样的计算机视觉比赛中胜过其他方法。随着深度学习方法在图像识别、语音识别和语言理解方面的显著改进