广义上来说,机器学习指专门研究计算机怎么模拟或实现人类的学习行为以获取新的知识或技能的学科,使计算机重新组织已有的组织结构并不断改善自身的性能。更加精确地说,一个机器学习的程序就是可以从经验数据E中对任务T进行学习的算法,它在任务T的性能度量P会随着对于经验数据E的学习而便得更好。
首先,按照学习模式的不同,机器学习可分为监督学习、无监督学习、半监督学习、强化学习。其中,监督学习需要提供标注的样本集,无监督学习不需要提供标注的样本集,半监督学习需要提供少量标注的样本,而强化学习需要反馈机制。
(1)监督学习
监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,从而实现对新数据/实例的标记(分类)/映射。
(2)无监督学习
无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律。
(3)半监督学习
半监督学习介于监督学习与无监督学习之间,可以利用少量的标注样本和大量的未标识样本进行训练和分类,从而达到减少标注代价、提高学习能力的目的。
(4)强化学习
强化学习可以学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境的最大奖赏,最终目标是使外部环境对学习系统在某种意义下的评价最佳。
其次,按照学习方法的不同,机器学习可分为传统机器学习和深度学习。区别在于,传统机器学习的领域特征需要手动完成,且需要大量领域专业知识;深度学习不需要人工特征提取,但需要大量的训练数据集以及强大的GPU服务器来提供算力。
(1)传统机器学习
传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。
(2)深度学习
深度学习是一种基于多层神经网络并以海量数据作为输入规则的自学习方法,依靠提供给它的大量实际行为数据(训练数据集),进行参数和规则调整。深度学习算法网络的隐藏层数量多,算法复杂,相比传统机器学习,深度学习更注重特征学习的重要性。典型的深度学习算法包括卷积神经网络(CNN)、循环神经网络(RNN)等。
最后,机器学习的常见算法还包括迁移学习、主动学习和演化学习。
(1)迁移学习
迁移学习是指当前在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。
(2)主动学习
主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。
(3)演化学习
演化学习基于演化算法提供的优化工具设计机器学习算法,针对机器学习任务中存在大量的复杂优化问题,应用于分类、聚类、规则发现、特征选择等机器学习与数据挖掘问题中。
如今,机器学习已经“无处不在”,应用遍及人工智能的各个领域,包括数据挖掘、计算机视觉、自然语言处理、语音和手写识别、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、汽车自动驾驶、军事决策 等。
机器学习虽然取得了长足的进步,也解决了很多实际问题,但是客观地讲,机器学习领域仍然存在着巨大的挑战。
首先,主流的机器学习技术是黑箱技术,因此就无法预知暗藏的危机,为解决这个问题,需要让机器学习具有可解释性、可干预性。其次,目前主流的机器学习的计算成本很高,亟待发明轻量级的机器学习算法。另外,在物理、化学、生物、社会科学中,人们常常用一些简单而美的方程(比如像薛定谔方程这样的二阶偏微分方程)来描述表象背后的深刻规律。那么在机器学习领域也视图能追求到简单而美的规律。
如此的挑战还有很多,但是由于机器学习领域具有巨大的研究和应用潜能,研究者们对于这个领域未来的发展仍然充满信心。