本系列是机器学习课程的第01篇,主要介绍机器学习概述
完成一个特定行业的算法应用全过程:
定义问题(Problem Definition) -> 数据收集(Data Collection) -> 数据分割(Dataset Spit up) -> 模型训练(Model Training) -> 模型评估(Model Evaluation) -> 应用部署(System Deployment) -> 改变世界(Impact the world)!
作者:adi0229
链接:「ML笔记」- 机器学习生命周期(Machine Learning Lifecycle)
懂业务+会选择合适的算法+数据处理+算法训练+算法调优+算法融合
+算法评估+持续调优+工程化接口实现
干货 | 平安银行算法实践
机器会思考吗?
阿兰.图灵在1950年发表的论文《计算机器与智能》中第一行就提到这个问题。图灵被称为计算机科学之父,也是人工智能科学之父。
艾伦图灵对后世最大的理论贡献之一就是图灵机。图灵机至今仍然是计算机软件程序的最基本架构,也是机器智能的开端。
图灵测试:
如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。 对象为:一个是正常 思维 的人(代号B)、一个是机器(代号A)。 如果经过若干询问以后,C不能得出实质的区别来分辨A与B的不同,则此机器A通过图灵测试。
继图灵提出了人与机器与智能等相关概念之后,1956年,一群科学家聚会在美国汉诺思小镇宁静的达特茅斯学院,他们试图利用暑假期间的两个月进行封闭式的讨论和研究,而这次会议的主题就是“达特茅斯夏季人工智能研究计划”。从此“人工智能”的概念被正式提出。这张图片是会议之后半个世纪2006年拍摄的当年主要参会者的合影,最左边的是特伦查德摩尔,数学家和计算机科学家,曾在IBM的沃森研究中心工作;左数第二位是约翰麦卡锡,他是达特茅斯会议的发起人,1971年图灵奖得主,Lisp语言创始人。中间的是马文闵斯基,知名的认知科学家,曾在1951年建立了第一个神经网络,模拟了40个神经元。右数第二位是奥利弗赛弗里奇,被称为“机器感知之父”。最右侧的是雷所罗门诺夫,经验概率理论的发明人。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在之后的十余年内,人工智能迎来了发展史上的第一个小高峰,研究者们疯狂涌入,取得了一批瞩目的成就,比如1959年,第一台工业机器人诞生;1964年,首台聊天机器人也诞生了。
但是,由于当时计算能力的严重不足,在20世纪70年代,人工智能迎来了第一个寒冬。早期的人工智能大多是通过固定指令来执行特定的问题,并不具备真正的学习和思考能力,问题一旦变复杂,人工智能程序就不堪重负,变得不智能了。
虽然有人趁机否定人工智能的发展和价值,但是研究学者们并没有因此停下前进的脚步,终于在1980年,卡内基梅隆大学设计出了第一套专家系统——XCON。该专家系统具有一套强大的知识库和推理能力,可以模拟人类专家来解决特定领域问题。
从这时起,机器学习开始兴起,各种专家系统开始被人们广泛应用。不幸的是,随着专家系统的应用领域越来越广,问题也逐渐暴露出来。专家系统应用有限,且经常在常识性问题上出错,因此人工智能迎来了第二个寒冬。
1997年,IBM公司的“深蓝”计算机战胜了国际象棋世界冠军卡斯帕罗夫,成为人工智能史上的一个重要里程碑。之后,人工智能开始了平稳向上的发展。
2006年,李飞飞教授意识到了专家学者在研究算法的过程中忽视了“数据”的重要性,于是开始带头构建大型图像数据集—ImageNet,图像识别大赛由此拉开帷幕。
同年,由于人工神经网络的不断发展,“深度学习”的概念被提出,之后,深度神经网络和卷积神经网络开始不断映入人们的眼帘。深度学习的发展又一次掀起人工智能的研究狂潮,这一次狂潮至今仍在持续。
机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识。
简单来说,机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑,然后利用学习来的规律来预测以后的未知事物。
机器学习中对于学习有一个准确的定义:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在经验E中学习。例如:对于识别手写文字问题,任务T是识别和分类图像中的手写文字,性能标准P就是分类的正确率,训练经验E为已知分类的手写文字数据库。这里对于学习的定义与我们日常生活中的学习基本相一致,将学习过程抽象出来,有助于我们抓住学习的本质,将设计的学习算法应用得更加广泛。
经验的选择对于最后的学习效果具有很重要的影响。
被选择的训练经验E一个关键点是:E能否为系统的决策提供直接或者间接的反馈。比方下棋:学习系统可以接收直接的训练样例,即各种棋盘状态和相应的正确走法。也可以接收间接的训练信息,即很多过去的对弈序列以及最终结局。一般说来,从直接的训练反馈学习比间接反馈学习容易;
训练经验的第二个重要属性是学习器可以再多大程度上控制训练样例序列。就是说学习器的决策多大程度上不受施教者的控制,而是通过自身的估计、规划;
训练经验的第三个重要属性是训练的样例是否能够尽可能得接近实例分布,而最终系统的性能P就是通过这种相似性来衡量的。这个很容易理解,对于以后要学习的实例,如果能够在训练期间就碰到的话,那么对于学习器来说,只要类似的实例输入,那么就能够准确地处理。在实际中,多数机器学习的理论都是基于训练经验与测试实例分布一致这一假设之上。尽管这是非常理想的情况,但是在实际中,这种假设一般是不成立的。
算法设计(以西洋跳棋学习问题为例):
任务T:下西洋跳棋
性能标准P:击败对手的百分比
训练经验E:和自己进行对弈