• [机器学习]西瓜书&南瓜书学习(更新中)


    B站网课学习视频

    南瓜书datawhale开源内容

    南瓜书github开源内容

    什么是机器学习

    概念介绍

    人工智能:让机器变得像人一样拥有智能的学科
    机器学习:让计算机像人一样能从数据中学习出规律的一类算法
    深度学习:神经网络类的机器学习算法
    人工智能>机器学习>深度学习

    具体应用领域

    计算机视觉(computer vision, CV):让计算机拥有视觉能力
    自然语言处理(Natural language processing, NLP):让计算机拥有语言能力
    推荐系统(Recommender system, RS):让计算机精确分析出人的喜好

    西瓜书学习笔记

    第1章 绪论

    基本术语

    泛化能力(generalization):模型适用于新样本的能力

    监督学习(supervised learning)
    分类(classification):预测的是离散值
    • 二分类(binary classification):正类(positive class)和负类(negative class)
    • 多分类(multi-class classification)
    回归:预测的是连续值
    无监督学习(unsupervised learning)
    • 聚类(clustering):分组,每组称为簇(cluster)
    归纳偏好
    • 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
    • 奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那个。 算法的归纳偏好是否与问题本身匹配,大多时候直接决定了算法能够取得好的性能。
    • 脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑潜在的问题,则所有学习算法都一样好。
    发展历程
    • 20世纪50-70年代初:推理期
      代表:逻辑理论家程序、通用问题求解程序
    • 20世纪70年代中期:知识期
      代表:专家系统
    • 20世纪80年代:机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期
      该时期以来,被研究最多、应用最广的是“从样例中学习”(也就是广义的归纳学习),涵盖了监督学习、无监督学习等。
      其中的一大主流技术是符号主义学习,包括决策树(decision tree)和基于逻辑的学习。另一主流是基于神经网络的连接主义学习。
      与符号学习能产生明确的概念表示不同,连接主义学习产生的是“黑箱”模型,因此从知识获取的角度来看,连接主义学习技术有明显弱点。
      连接主义学习的最大局限是其“试错性”,其学习过程涉及大量参数,而参数的设置缺乏理论知道,主要靠手工“调参”。
    • 20世纪90年代中期:“统计学习”迅速占领主流舞台,代表技术是支持向量机(support vector machine,SVM)。
    • 21世纪初:深度学习掀起热潮
      深度学习虽然缺乏严格的理论基础,但它显著降低了机器学习应用这的门槛。

    第2章 模型评估与选择

    误差与过拟合

    • 训练误差(training error)/经验误差(empirical error):学习在训练集上的误差
    • 泛化误差(generalization error):在新样本上的误差
    • 测试误差(test error):测试集上的误差,作为泛化误差的近似
    • 欠拟合
    • 过拟合:过拟合是机器学习面临的关键障碍,且无法彻底避免

    评估方法

    • 留出法(hold-out):直接将数据集分为两个互斥的集合,一个作为训练集S,一个作为测试集T。
      单次使用留出法往往不够稳定可靠,一般采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。
    • 交叉验证法(cross validation):将数据集划分为 k k k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性。每次用 k − 1 k-1 k1个子集的并集作为训练集,余下的那个子集作为测试集,进行k次循环和测试,返回k次测试结果的均值。
      交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值。
      特例:留一法(leave-one-out)
    • 自助法(bootstrapping):以自助采样法(bootstrp sampling)为基础。有放回地从数据集 D D D中获取样本放入 D ′ D' D。因此 D D D中一部分样本会多次出现,另一部分样本不出现。
      D ′ D' D作为训练集 D − D ′ D-D' DD作为测试集。
      该方法在数据集较小,难以有效划分训练集/测试集时很有用。但是它改变了初始数据集的分布

    调参

    通常针对每个参数选定一个范围和变化步长及逆行调参。
    在参数评估与选择的过程中需要留出一部分数据进行评估测试,事实上我们只使用了一部分数据训练模型。因此在模型选择完成之后,学习算法和参数配置已选定,应该用数据集 D D D的全集重新训练模型。

    性能度量(performance measure)

    • 均方误差

    • 错误率/精度

    • 查准率/查准率
      在这里插入图片描述
      查准率和查全率是一对矛盾的度量。
      P-R曲线:以查准率为纵轴、查全率为横轴的曲线。如果一个学习器的P-R曲线被另一个学习器的完全包住,则可以断言后者的性能优于前者,或可以直接比较下面积的大小,但这并不好计算。

    • 平衡点(break-even point):查准率=查全率的取值

    • F1度量

    • ROC(受试者工作特征,receiver operating characteristics):根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,以“真正例率(true positive rate)”为纵轴,以“假正例率(false positive rate)”为纵轴。
      在这里插入图片描述

    • AUC(area under ROC curve):ROC曲线下面积

  • 相关阅读:
    手动数字哈希表-C语言
    notepad++中文出现异体汉字,怎么改正
    在线代码编辑器CodePen和CodeSandbox
    原码反码补码疑惑解答记录:127+1=-128
    pytorch-09.多分类问题
    linux中的inode文件编号和软硬链接
    目标检测——行人和骑自行车者数据集
    LeetCode 209. 长度最小的子数组
    C语言 L1-016 查验身份证
    Java中JCP, JEP, JLS, JSR是什么
  • 原文地址:https://blog.csdn.net/weixin_44230172/article/details/127265768