书名:《科学之路:人、机器与未来》
作者:杨立昆(法国人,Yann LeCun,Facebook首席人工智能科学家、纽约大学教授、2018年图灵奖得主)
资料:https://download.csdn.net/download/zhiyuan411/87111352,密码:book
人工智能是一名精于模仿的艺术家。
索菲亚是类人型机器人,她的谈话内容只是从工程师预先设定好的标准答案中,经过匹配系统处理后的最合适的答案。
第一阶段:学习或训练。
第二阶段:实施阶段。
如今的应用程序通常是机器学习、GOFAI与传统计算机成果混搭的结晶。
人工智能即机器要有感知、推理和行动的能力。
深度学习就是人工智能的未来。然而,目前的深度学习系统仍无法进行逻辑推理,这是未来几年的主要挑战。
2位麻省理工权威教授1969年合著的《感知器:计算几何学概论》指出了学习机的局限性,该作品引起了轰动,资助机构纷纷退出,神经网络遭遇寒冬。
20世纪七八十年代的“寒冬”里,那些仍然执着于神经网络研究的人被视为狂热的疯子。
指本书作者。
指本书作者。
指导师、辛顿和谢诺夫斯基等人。
指遇到贝尔实验室2位负责人的事情。
指贝尔实验室。
坚持神经网络和卷积网络。
在图像识别领域大放异彩。
改变突触的值就可以改变类似海兔这种软体动物的行为,解释了海兔在这个过程中的适应能力。
这在机器学习中即是“模型参数识别”的一个例证。
寻找根据x预测y的函数f(x),然后使得误差最小。
使用的是随机梯度下降法。
随机梯度下降法的数学证明。
模型对应的f(x, w)不一定是一条直线,伽利略就是发现了抛物线。
感知器的创新就是一个学习过程:每识别一次输入的图像并输出相应结果后,它都会自动调整权重。
感知器开启了所谓的监督机器学习。
图像即像素的网格,同一像素始终连接同一输入和同一权重。
机器学习的过程就是其调整权重的过程。
比如,区分字母C和D:我们重复多次向机器输入2个字母的图像,如果机器给出正确答案,则什么也不用做;如果错误,则调整参数(即像素对应的网格)的权重,使得C的加权和为正、D的为负。
如果足够幸运,其最后的参数权重会收敛到能够稳定识别任何一个C或D的状态。此时,实际上情况是,C特有的像素标记为正的权重,D特有的像素标记为负的权重,其他不在C或D中出现或者都出现的则标记为0权重。
感知器学习的过程可以看作成本函数最小化的过程。
学习机器的特性是泛化,即能够给出学习中未曾看到的示例的正确答案。
感知器通过一个超平面将空间分成两半,它的“一侧”是所有使识别为字母C处于活跃的点,另一侧是所有使识别为字母C处于不活跃的点。
如果不存在这样的超平面,也就是说这些点不是线性可分离的,那么感知器无限次修改权重,也无法收敛到稳定且唯一的权重配置。比如,有些字母C差异很大,比如特别小,蜷缩在角落。
最简单的感知器无法区分某些形状。解决办法是:在输入图像和神经层之间放置一个中间模块,也就是所谓的特征提取器。
为了构造出适合各种应用的特征提取器,研究人员曾经采用过多种方法。另一种更为精明的构建特征提取器的方法是SVM,即所谓核机器的一个范例,但本质上就是一种两层神经网络。
数学定理表明,仅需要两层神经元就可以进行任何计算,这也是SVM能够成功的原因之一。
但是这种情况需要庞大的中间层,即第一层神经元数量远远大于原始图像中的像素数量。
训练机器的过程就是调整参数的过程。
学习就是逐步减少系统误差的过程。
成本函数的作用是测量系统的输出结果和期待的输出结果之间的差距。
梯度下降的实现步骤:
以上步骤可以概况如下:
在现实中,并非只有2个维度,而是有数百万甚至数十亿个维度,故前小节用干扰来计算梯度的方法就变得极其低效。
另一种大为有效的计算梯度的方法是分析法,即计算每个轴方向上的成本函数的导数。
从训练集中随机选择一个示例,计算器成本函数的梯度,并根据该梯度进一步调整参数,再随机选择另一个示例,计算成本函数的梯度和调整参数。不断重复以上操作,直到这个梯度无法下降为止。随着不断靠近山谷底部,步长也会随之逐步减小。
实践中,不是每次仅对一个示例进行如上操作,而是每次对一小部分示例进行如上操作。这个方法比在整个训练集中计算梯度更快。
多个谷底时,如果位于成本高的谷底附近,无论如何优化,也会指向该谷底。从而陷入困境。
故,一个良好的成本函数应该是凸的,因为凸成本函数只有一个极小值。
这也是多层神经网络被(暂时)放弃的原因之一:它们的成本函数是非凸的。但实际上,也是具有多种解决方法的,会在后面论述。
学习期间,网络会调整参数,使得学习集中的所有x都能给出期待的结果y。
学习之后,可以通过内插或外推的方式,为学习集中不存在的新x赋值y。
如果有P个点(或学习示例),那么一定会存在至少一条曲线,换句话说,存在(P-1)次多项式通过这P个点。
而当P=1000时,如果我们采用999次多项式,实际上,它非常不稳定,所以,我们必须调整其对应模型的复杂度。
奥卡姆剃刀原理:若无必要,勿增实体。
对一系列观察的解释应尽可能简单,而不应该使用不必要的概念。即公式应使用尽可能少的假设和自由参数。
比如有1万个示例:
过于简单的模型是无法对大量学习数据进行建模的。
而另一方面,如果模型足够复杂,它便可以近乎完全匹配整个学习集,它只是在记录学习数据,而不是学习发现数据蕴含的基本规律。
其泛化能力必然不够良好,换句话说,它在各点之间的振荡幅度很大。它不太适合插值,因为插值可能正好位于振荡的谷峰或谷底,即所谓的过拟合。
对任何一个系统而言,学习误差(专家称为经验误差)都小于验证误差。
但如何在相同的模型复杂度下,增加学习示例的数量,则学习误差缓慢增加,验证误差缓慢减少。如果示例无穷尽地增加,两条曲线也会靠近彼此。
对于给定数量的学习示例,模型的能力越强大,则学习误差就会越小,同时,验证误差和学习误差之间的差异也会越大。
实际上,验证误差随着模型能力的强大,会先变小(即欠拟合状态),后变大(即过拟合状态)。
验证误差最小的点,此时的模型复杂度即最佳折中方案。
在多个合适的模型中进行选择,是依靠正则化器。实践中,会选择易于计算并且易于通过梯度下降最小化的正则化,比如权重的平方和或权重的绝对值之和。
反向传播已成为深度学习的基础,几乎所有的人工智能系统都在使用这种方法。
多层神经网络是多种类型的层的堆栈。每一层的输入可以被看作一个向量,它代表前一层输出的集合。而该层的输出也是一个向量,但是其大小不一定与输入向量相同。
我们将这种每层都从前一层或前几层获取输入的网络称为前馈多层网络。如果从高层(在出口附近)向底层(在入口附近)的方向也存在连接性,则称为循环网络。
如果该层的每个输出都是输入的加权和,那么这层被称为线性层。线性层的输入与输出数量不一定相同。
如果该层将非线性函数应用于相应的输入来获得相应的输出,那么这层被称为非线性层。非线性层的输入与输出数量是相同的。
线性层和非线性层一般是交替的,因为多个线性层是可以等效于一个线性层的。
只有最后一层的输出是可见的,即系统的整体输出。中间层的输出是隐藏的,设置中间层的期待输出,就是深度学习最主要的目标:解决“贡献度分配”问题。
二进制神经元的输出是阶梯状,与基于梯度下降的学习方法是不兼容的。
而连续神经元的输出则是呈现出连续的S曲线形状,因为这种特性我们可以使用梯度下降方法来训练多层网络。
HLM算法,现在已经不再使用。
辛顿更早地发表了一份关于梯度反向传播的技术报告。
梯度反向传播是一种有效计算成本函数梯度(由多层神经组成的网络中的最大斜率)的方法。其解释涉及线性函数和非线性函数的数学知识。
多层网络端到端的训练构成了深度学习。
这一类系统不仅学习分类,而且连续的各层也会设法将获得的输入转换为有意义的表达,类似于特征提取器在增强型感知器中的行为。
实际上,我们可以说,连续的各层就是某种经过训练的特征提取器。这是多层网络的决定性优势:他们会自动学习如何适当地表示信号。
异议:构建具有连续神经元的多层神经网络,并尝试通过梯度下降对其进行训练,可能陷入局部最小值。
实际并非如此。多层网络可以具有多个最小值。
连续的各层就是某种经过训练、通过学习、自动生成的特征提取器。
深度即多层之意。深度学习包括:
在 ImageNet大规模视觉识别挑战赛 中,有支队伍因为使用大型卷积网络而将历年比赛的识别错误率的最好记录从25%刷新到16%。
定向选择性(神经元对定向的敏感性)和复杂细胞的存在是休伯尔和威泽尔获得诺贝尔生理学或医学奖的最主要的两个发现。
日本研究员福岛邦彦发明的机器使用了休伯尔和威泽尔的模型架构,即信号在连续的简单和复杂神经元层之间无环推进。但是,只训练最后一层,也没有反向传播。
本书作者在使用卷积网络完成支票金额读取系统时,业内不再使用神经网络,而是其他方法。
卷积网络是一种特殊类型的神经网络,它使用了特定的连接架构,即模仿了由休伯尔和威泽尔发现的视觉皮层的简单细胞和复杂细胞的层次结构,以及结合了端到端的梯度反向传播训练。
一个卷积网络是由卷积层、ReLU层和池化层堆栈组成,典型的架构为:卷积->ReLU->池化->卷积->ReLU->池化->卷积->ReLU->卷积。如今,一个卷积网络可以包含100个这样的层。
本书作者兼职加入脸书。
即 FAIR。
FAIR的主体仍然是一个独立的基础研究实验室。成立机器学习应用研究小组负责利用FAIR开发的新方法去研发产品和服务。
为脸书上的信息过滤服务。
脸书2018年的事件:数百万用户数据在用户不知情情况下被剑桥分析公司获取并使用。
机器学习需要大量带标签的数据,这个条件是强制性的。在FAIR,研究了如何使用大量无须事先手动标记的数据进行训练。
2019年获得图灵奖,卸任FAIR负责人,成为人工智能首席科学家。
强化学习可以在对机器进行训练时,无须给出预期答案,而只需告诉它产生的结果是否正确。
不幸的是,这种学习范式在最常见的形式下,即便是执行简单的任务,也需要大量的交互(尝试和错误)才能进行学习。
监督学习或者强化学习,在实际中的效果远远落后于人类的学习效果。媲美人类学习的新范式还有待开发。
机器的预测能力十分有效,因为它没有一点常识,不能进行推理。
人和动物是通过多种不同的组合方法来学习的,通过自我学习获得了大部分知识,观察至关重要,在此基础上还有一小部分监督学习(或模仿学习)、一小部分强化学习。
自监督学习的基本思想是:获取一个输入后,隐藏该输入的一部分,以此来训练机器从可见部分预测被隐藏部分。
现在面临的一个问题是:当信息无法完全预测、连续且高维时(如视频各帧图像),该如何进行自监督学习。
自监督模型是一个参数化函数yp=g(x, w),其中x是观察到的输入部分,yp是预测值。现在,添加一个参数z,我们称之为潜在变量:yp=g(x, z, w),通过改变集合中的z值,也可以获得yp的变化的集合,该集合即为预测集合。
训练潜在变量模型,最流行的是GAN算法。
机器人即使它的环境有限且只有一个很简单的任务,那它也必须有一个复杂世界的模型。
预测很困难,因为世界不是完全可预测的。
强化学习试图将感知和行动整合到一个单一学习范式中,但训练这些系统所需的实验和错误的次数使得它们很难应用于实践,比如自动驾驶。
人类的行为有两种机制驱动:
具有类似人类的世界模型的内部模型的智能体的体系结构:
推理能力的智能化,可以创建一个“翻译网络”,它将问题“翻译”为解答问题的多个网络的构建指令,即可以基于输入数据动态创建多个神经网络来解答问题。其中动态创建的神经网络的作用是:对分解后的子问题,可以将推理归纳为找最小化特定函数的向量序列。
越来越多的应用需要专门用于卷积网络计算的处理器,它们的架构域标准处理器的架构有很大不同。
我们需要开发具有处理TFLOPS量级计算能力的新工具,即神经元处理器。它的价格和功耗都不能太高。为了理想的性能,它需要全新的硬件架构,比如:单元和存储器混合分布在硅芯片上,计算精度非常低,几位数就可以代表神经元的权重和激活状态。
人工智能的四大主要应用类别吸引了大型工业集团的兴趣,它们是医药、自动驾驶汽车、虚拟助手以及家用和工业机器人。
一些杰出的经济学家将人工智能视为GPT,即一种“通用技术”,我们历史上创造的GPT还有蒸汽机、电力、计算机等。认为它将对生产力产生重大影响,在未来几十年中不断传播并深刻改变经济生活。
人工智能无法参与竞争的是人类经验。
深耕于有资质的、创新型的、专注于人际关系或人力资源职位的人更有可能保住工作。
服务业、手工业和房地产业不会受到很大影响。
我们越来越重视创造力和独到的体验,越来越不看重大众化的产品。在健康、艺术、教育、体育等领域的职业中,感性的方面在未来将占有重要的一席之地。
主要是反对杀手机器人。
使用没有深入了解其运行机制的系统是一种常见的现象,比如许多常用药物。
投入实际应用的决策辅助系统等也不是必须100%可靠。
但是,当人工智能在司法、法律、医疗、财务或行政框架下用于对个人有重大影响的决策时,给出合理的解释是必须的。
人工智能与神经科学的发展是相辅相成的。
大多数科学家都接受了大脑是生化机器的概念。
神经元对输入的电信号做出反应,根据从上游神经元接收到的信息计算是否产生电脉冲信号、动作电位或放电脉冲,并将其发送给所有下游神经元。通过数十亿个相对简单的神经元的活动,我们便获得了大脑和思想。
目前的机器学习,总的来说仅限于根据统计规律来建立现象学模型。
关于“人类败给自己的作品”有无数幻想,所有这些假设都是极不可能,我们远远低估了人工智能超越人类所需要的时间。
另一方面,每一项技术都带来了问题,而这些问题最终也都得到了解决。
人工智能虽然能力出众,但其常识却不如一只猫。它所受的训练只能使它执行一项任务。
它是无法培养意图或发展意识的。
数学家弗拉基米尔·瓦普尼克规范了机器学习的统计理论,该理论认为要使一个实体具备学习能力,就必须让其专攻一个有限的任务领域。
人类不是通才,先天性,即大脑的预先连接,是必要条件。它可以限定大脑的能力并加速大脑的学习。比如,大脑的听觉皮层、视觉皮层都是完成特定的功能。
作者个人认为意识是一种幻觉。人类意识与注意力息息相关,人类没有事先培训就无法一次性地将注意力集中在多项任务上,故意识是为每个给定任务配置电路的控制机制,用来“编程”适合应对当前情况的世界模型。
灵长类动物的智力与语言无关。动物的智力和人类的大部分智力都是基于模拟、类比以及使用世界模型来对实际情况进行想象得来的。
情感是人性的重要组成部分,因此我们无法轻易将其数字化为简单的数学函数计算。
但当机器因成本高昂而避免采取行动时,或者由于成本低廉而执行任务时,很像是一种情感的(过于)简化的类比。
以红毛猩猩为例,可知没有社会结构,就没有统治体系;而没有统治欲望也可以很聪明。
所以,除非我们在智能机器中明确地设立了这种统治欲望,否则,机器不会渴望统治人类。
小说家艾萨克·阿西莫夫在小说里提出的机器人三大法则,在现实中很难实现,因为机器很难达到理想效果的预测和评估危险情况的能力。
我们可以在智能体的体系结构的目标函数中手工设置一些安全性的规则,比如当有人处于附近时限制机器人手臂的移动速度。目标函数还应该包括可训练的组件,让机器人在遇到未被工程师手动构建的先天项所覆盖的情况时,系统的行为可以得到纠正。
智力不只局限于智慧的能力,还涉及行为的所有领域,同时也是学习、适应和决策的能力。
在节约资源方面,机器对数据和能力的消耗是大脑的数千倍,这是因为生物神经元数量多但耗能很少。
在科学史上,技术产品的出现通常先于解释其工作的理论和科学。
人工智能研究仍然处于创新阶段,它还算不上是一门科学,我们尚未总结出一般性智力理论。