码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • DataWhale - 吃瓜教程学习笔记(一)


    学习视频:第1章-绪论_哔哩哔哩_bilibili
    西瓜书对应章节: 第一章 & 第二章


    文章目录

    • 机器学习三观
      • What:什么是机器学习?
      • Why: 为什么要学机器学习?
          • 1. 机器学习理论研究
          • 2. 机器学习系统开发
          • 3. 机器学习算法迁移 (AI+)
          • 4. AI 应用方向研究:NLP, CV, 推荐系统
      • How: 怎样学习深度学习?
          • - 纯理论研究
          • - 系统的开发
          • - 算法迁移 (AI for Science)
          • - AI 应用方向研究
    • 基础核心知识概念
          • 假设空间 & 版本空间
          • 算法
          • 样本(示例)
          • 标记
          • 样本空间 & 标记空间
          • 机器学习任务分类 (根据标记取值类型不同)
          • 机器学习任务分类 (根据是否用到标记信息)
          • 数据集
          • 泛化
          • 分布
          • 归纳偏好
    • 数据决定模型的上限,算法则是让模型无限逼近上限
          • - 数据决定模型的上限
    • 模型评估与选择
      • - 经验误差与过拟合
          • - 精度
          • - 训练误差 & 泛化误差
          • - 过拟合
          • - 欠拟合
      • - 评估方法
          • - 留出法
          • - 交叉验证法
          • - 自助法
          • - 验证集
      • 性能度量
          • - 均方误差
          • - 错误率
          • - 精度
          • - 查准率 & 查全率
          • - F1 度量
          • - ROC 曲线
          • - 代价敏感错误率 & 代价曲线
          • - 比较检验
            • - 假设检验
          • - 交叉验证T检验
          • - McNemar 检验
          • - Friedman 检验 和 Nemenyi 后续检验
          • - 偏差与方差


    机器学习三观

    What:什么是机器学习?

    关键词:“学习算法”

    Why: 为什么要学机器学习?

    1. 机器学习理论研究
    2. 机器学习系统开发
    3. 机器学习算法迁移 (AI+)
    4. AI 应用方向研究:NLP, CV, 推荐系统

    How: 怎样学习深度学习?

    - 纯理论研究
    - 系统的开发

    1C6PR5L3A4ALU899PL%6V.png

    - 算法迁移 (AI for Science)
    - AI 应用方向研究

    基础核心知识概念

    假设空间 & 版本空间

    假设空间定义了所有可能的解决方案;版本空间则是在考虑了训练数据后,认为可能正确的解决方案的集合

    算法

    从数据中学得模型的“具体方法”,其产出结果称为“模型”

    样本(示例)

    关于一个事件或对象的描述。用向量进行表示,向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 “;” 表示为列向量,用逗号 ","表示为行向量。

    标记

    学习样本在某方面的表现存在潜在规律的的信息。

    样本空间 & 标记空间

    所有可能的输入数据或特征向量的集合;
    所有可能的输出标签或目标值的集合

    机器学习任务分类 (根据标记取值类型不同)
    • 标记取值为“离散型”, 任务为 分类
    • 标记取值为 “连续型”, 任务为 回归
    机器学习任务分类 (根据是否用到标记信息)
    • 训练阶段有用到标记信息,此类任务为 “监督学习”
    • 训练阶段没用到标记信息,此类任务为 “无监督学习”
    数据集
    • 通常用集合表示
    • 一般同一份数据集中的每个样本都含相同个数的特征
    • 样本 x i j x_{ij} xij​ 表示样本 x i x_i xi​ 在第 j 个属性上的取值
    泛化

    模型对未在训练过程中见过的数据进行准确预测的能力

    分布

    概率论中的概率分布。

    归纳偏好

    不同的机器学习算法有不同的偏好

    • 最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
    • 机器学习算法没有绝对的优劣之分,只有是否适合当前待解决问题之分。
    • 没有免费的午餐定理(NFL):众算法生而平等(哪个算法训出来的模型在测试集上表现好哪个算法 nb)。

    数据决定模型的上限,算法则是让模型无限逼近上限

    - 数据决定模型的上限

    数据是指从 数据量 和 特征工程 两个角度考虑

    • 通常数据量越大模型效果越好
    • 通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好

    模型评估与选择

    - 经验误差与过拟合

    - 精度
    - 训练误差 & 泛化误差

    训练集上的误差;新样本上的误差

    - 过拟合
    - 欠拟合

    image.png

    - 评估方法

    - 留出法

    直接将数据集划分为 数据集 和 测试集 。

    • 训练集和测试集要尽量保证数据分布的一致性
    • 采用采样类别比例相似的 分层采样 。
    - 交叉验证法

    先将数据集划分为 k 个互斥子集,尽可能保持数据分布的一致性,然后以 k-1 个子集的并集作为训练集,余下子集作为测试集,进行k次训练测试,最终返回训练结果的均值。

    image.png

    • 有m个数据,令 k = m,则为 留一法 。
    - 自助法

    可重复有放回采样。

    • 训练集的数量会增多
    • 有可能会改变数据集的分布
    - 验证集

    对模型进行评估测试的数据集。

    性能度量

    - 均方误差

    image.png

    image.png

    - 错误率

    分类错误样本数占样本总数的比例。

    image.png

    - 精度

    分类正确的样本数占样本总数的比例。

    image.png

    - 查准率 & 查全率

    image.png

    image.png

    - F1 度量

    image.png

    - ROC 曲线

    image.png

    image.png

    image.png

    - 代价敏感错误率 & 代价曲线

    image.png

    X轴 -
    image.png

    Y轴 -
    image.png

    image.png

    - 比较检验
    - 假设检验

    image.png

    image.png

    - 交叉验证T检验
    - McNemar 检验

    image.png

    image.png

    - Friedman 检验 和 Nemenyi 后续检验

    image.png


    - 偏差与方差

    image.png

    • 偏差 度量了 学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力
    • 方差 度量了同样大小的训练集的变动导致的学习性能的变化,刻画了数据扰动造成的影响
    • 噪声 表达了当前任务上任何学习算法所能达到的期望泛化的误差的下界,刻画了学习问题本身的难度
    • 泛化性能是由 学习算法的能力、数据的充分性、学习任务本身的难度 共同决定的。为了取得良好的泛化性能,需要使得方差、偏差都较小。

    image.png


    image.png

  • 相关阅读:
    基于SpringBoot的“农机电招平台”的设计与实现(源码+数据库+文档+PPT)
    一文让前端搞懂shell编程
    Spark bucketing bucket分桶原理和应用
    深度学习手写字符识别:推理过程
    TCP/IP_第八章_静态路由_实验案例二
    【C语言】你还不会指针吗?不妨来一起攻克指针这个难点
    Linux系统编程
    springboot启动时如何自动执行代码以及如何提高吞吐量
    【*E】leetcode-125.验证回文串
    记录spring_boot 的web开发学习
  • 原文地址:https://blog.csdn.net/qq_52964132/article/details/139726330
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号