【机器学习周志华】读书笔记 P1 机器学习基本概念知识

可以看出，我们人类能做出有效的预判，是因为我们已经积累了许多经验，而通过对经验的利用，就能对新情况做出有效的决策。 Taken from Prof Zhou 《机器学习》俗称“西瓜书”

机器学习是这样一门学科：它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。机器学习主要的研究内容，是关于在计算机上从数据中产生算法。有了算法，就能基于数据产生模型。

1.2 基本术语

数据集： 一组记录的集合，每条记录是关于一个事件的描述。
示例/样本： 数据集中每条记录称为一个示例(instance)或一个样本(sample)。
属性/特征： 反应事件或对象在某方面的表现或性质，称为属性(attribute)或特征(feature)。
属性值： 属性的值，此值非限制为数字。
属性空间/样本空间/输入空间： 属性张成空间。属性本事一维，但是如果由三个属性作为x，就“张”成为了三位空间。
特征向量： 在属性空间中，不论是多少维度，每个示例都对照着空间中的一个点。而空间中每个点对照一个坐标向量，该向量称为特征向量（feature vector）。
数据集的表示： 令D={x₁,x₂,…,x_m}表示包含m个示例的数据集。每个示例由d个属性描述：x_i=(x_i1;x_i2;…;x_id)😉。
学习/训练： 从数据中学得模型的过程称为学习(learning)或训练(training)。训练过程中使用的数据称为“训练数据”，每个样本称为“训练样本”，训练样本组成的集合称为“训练集”。
标记： 要建立一个“预测”(prediction)的模型，需要的不仅仅是示例，而是带有结果的样例，样例即带有标记的示例。一般用(x_i,y_i)表示第i个样例。
分类： 若我们要预测的是离散值，此类学习任务称为 classification；
回归： 若我们要预测的是连续值，此类学习任务称为 regression。
测试： 学得模型后，要进行预测的过程称为测试。被预测的样本称为“测试样本”。
聚类&簇： 除了分类和回归外，还可以对训练集中的数据做聚类，分成若干组，每组称为一个“簇”(cluster)。这些自动形成的簇可能对应一些潜在的概念划分。
监督学习&无监督学习： 根据训练数据是否拥有标记信息，分为监督学习(带有Label)，无监督学习(不带label)。
泛化能力： generalization 学得的模型能很好的适用于整个样本空间，称为强泛化能力。

相关阅读:
机器学习(V)--无监督学习(一)聚类
2023高教社杯国赛数学建模E题思路 - 黄河水沙监测数据分析
【C++】继承 -- 详解
【微机原理笔记】第 2 章 - 微处理器与总线
今日头条创作11天才42.92元，收益越来越少，到底要不要坚持
AWS实战(一)-创建S3 存储桶
sequence启动的两种方式
2022年G3锅炉水处理试题及模拟考试
内卷、躺平与中年危机的相关思考
Linux部署FTP服务

原文地址：https://blog.csdn.net/weixin_43098506/article/details/126716645