算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。
算法中的指令描述的是一个计算,当其运行时能从一个初始状态和(可能为空的)初始输入开始,经过一系列有限而清晰定义的状态,最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法,包含了一些随机输入。
一个算法应该具有以下五个重要的特征:
监督学习:输入的数据为训练数据,并且每一个数据都会带有标签,比如“广告/非广告”,或者当时的股票的价格。通过训练过程建模,模型需要作出预测,如果预测出错会被修正。直到模型输出准确的训练结果,训练过程会一直持续。常用于解决问题有分类和回归。常用的算法包括逻辑回归和BP神经网络。
无监督学习:输入的标签没有数据,输出没有标准答案,就是一系列的样本。无监督学习通过推断输入数据中的结构建模。这可能是提取一般规律,可以是通过数学处理系统系统的减少冗杂,或者根据相似性组织数据。常用于解决的问题有聚类,降维和关联规则的学习。常用的算法包括了Apriori算法和K均值算法。
半监督学习:半监督学习的输入数据包含标签和不带标签的样本。半监督学习的情况是有一个预期中的预测,但是模型必须通过学习结构整理数据从而做出预测。常用于解决的问题是分类和回归。常用的算法是对所有的无标签的数据建模进行的预测算法(可以看做无监督学习的延伸)。