码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习初步-笔记


    机器学习初步-笔记

    • 第一章-绪论
      • 1.1教材
      • 1.2课程定位
      • 1.3机器学习
      • 1.4典型的机器学习过程
      • 1.5计算学习理论
      • 1.6基本术语
      • 1.7归纳偏好
      • 1.8NFL定理
    • 第二章-模型评估与选择
      • 2.1泛化能力
      • 2.2过拟合和欠拟合
      • 2.3三大问题
      • 2.4评估方法
        • 留出法(hold-out)
        • 交叉验证法(cross validation)
        • 自助法(bootstrap):有放回采样
      • 2.5调参与验证集
      • 2.6性能度量
      • 2.7比较检验
    • 第三章-线性模型
      • 3.1线性回归
      • △3.2最小二乘解-已经手写推导
      • 3.3多元线性回归
      • 3.4广义线性模型
      • 3.5对率回归
      • △3.6对率回归求解
      • 3.7类别不平衡
    • 第四章-决策树
      • 4.1决策树基本流程
      • 4.2信息增益划分
      • 4.3其他属性划分准则
      • 4.4决策树的剪枝
      • 4.5缺失值的处理
    • 第五章-支持向量机
      • 5.1支持向量机基本型
      • 5.2对偶问题与解的特性
      • 5.3求解方法
      • 5.4特征空间映射
      • 5.5核函数
      • 5.6如何使用SVM?
    • 第六章-神经网络
      • 6.1神经网络模型
      • 6.2万有逼近能力
      • 6.3BP算法推导
    • 第七章-贝叶斯分类器
      • 7.1贝叶斯决策论
      • 7.2生成式和判别式模型
      • 7.3贝叶斯分类器与贝叶斯学习
      • 7.4极大似然估计
      • 7.5朴素贝叶斯分类器
    • 第八章-继承学习和聚类
      • 8.1集成学习
      • 8.2好而不同
      • 8.3两类常用集成学习方法
      • 8.4Boosting
      • 8.5Bagging
      • 8.6多样性度量
      • 8.7聚类
      • 8.8聚类方法概述

    第一章-绪论

    1.1教材

    在这里插入图片描述

    1.2课程定位

    • 搞清楚是什么为什么这么做

    1.3机器学习

    • 利用经验改善系统自身的性能,目前主要研究智能数据分析的理论和方法

    1.4典型的机器学习过程

    • “好瓜、坏瓜”是一个西瓜样例的类别标记
      在这里插入图片描述

    1.5计算学习理论

    • x是输入数据,f是模型;y是预测值|f(x)-y|<=ε,P(|f(x)-y|)>=1-δ,δ绝对小并且1-δ接近1,表示概率P的值绝对准;PAC概率近似正确。
      在这里插入图片描述

    1.6基本术语

    • 输出结果不知道就是无监督学习。泛化:学到的数据,再处理新数据的能力,就是指ε 到底可以达到多少。
    • 示例:一行样本的各个属性值(特征值)
    • 样例:好瓜
    • 假设:学到的模型f(x)
      在这里插入图片描述

    1.7归纳偏好

    • 偏置,对某种东西有特殊的喜好,若非必要,勿增实体
    • 奥卡姆剃刀 原则:若有多个假设与观察一致,则选最简单的那个

    1.8NFL定理

    在这里插入图片描述

    第二章-模型评估与选择

    2.1泛化能力

    • 错误率低,精度高;对新的数据的处理能力强。

    2.2过拟合和欠拟合

    • 泛化误差:在“未来”样本上的误差
    • 经验误差:在训练集.上的误差,亦称“训练误差”
    • 过拟合:就是训练集训练过度,新的样本预测能力差
    • 欠拟合:就是训练集训练不好,新的样本预测能力也差

    2.3三大问题

    • 如何获得测试结果?评估方法
    • 如何评估性能优劣?性能度量
    • 如何判断实质差别?比较检验

    2.4评估方法

    • 如何将测试集和验证集分割;注意原始数据集应该互斥

    留出法(hold-out)

    • 保持数据分布一致性( 例如:分层采样)
    • 多次重复划分(例如: 100次随机划分)
    • 测试集不能太大、不能太小(例如: 1/5~1/3) .
    • 存在缺点:不能每个样本都测试到,会遗漏样本

    交叉验证法(cross validation)

    • k-折交叉验证
      在这里插入图片描述
    • 存在缺点:如果男女性别的测试,测试精度就会不准

    自助法(bootstrap):有放回采样

    在这里插入图片描述

    2.5调参与验证集

    在这里插入图片描述

    2.6性能度量

    • 均方误差
      在这里插入图片描述
    • 错误率和精度
      在这里插入图片描述
    • 查准率和查全率。查全率:收购西瓜的公司希望把瓜摊的好瓜都尽量收走。
      在这里插入图片描述

    在这里插入图片描述

    2.7比较检验

    在这里插入图片描述

    第三章-线性模型

    3.1线性回归

    • w,b求出最优解
      在这里插入图片描述

    • 序关系:高1.0 中0.8 低0.5

    • 一些青色,浑浊,沉闷变成onehot编码[0 1 0]代表浑浊这样。

    △3.2最小二乘解-已经手写推导

    • 最小二乘法:基于均方误差最小化来进行模型求解的方法称为
    • 偏导求极大值和极小值,找它的变化率
      在这里插入图片描述

    3.3多元线性回归

    • 归纳偏好-正则化
      在这里插入图片描述

    3.4广义线性模型

    • 逼近对数线性回归
      在这里插入图片描述

    • 联系函数
      在这里插入图片描述

    3.5对率回归

    • 几率
      在这里插入图片描述

    • 对率回归;是分类学习算法
      在这里插入图片描述

    △3.6对率回归求解

    • 对数几率回归为什么不能通过令偏导为0求解?均方损失非凸
      在这里插入图片描述

    3.7类别不平衡

    • 小类比大类重要时候,类别不平衡问题中何时需要做特殊处理
      在这里插入图片描述

    • 解决类别不平衡问题:1过采样:将原来小类别的样本变大,和原来的大样本平衡;2欠采样:将原来大类别的样本变小,和原来的小样本平衡;3阀值移动:SVM阀值移动
      在这里插入图片描述

    第四章-决策树

    4.1决策树基本流程

    • 三种停止条件:
    • (1)当前结点包含的样本全属于同一类别,无需划分;就是决策树只有一个结点;
    • (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;就是属性值太多相同;
    • (3)当前结点包含的样本集合为空,不能划分.就是决策树预测出来的属性。
      在这里插入图片描述

    4.2信息增益划分

    • 信息增益:划分前的信息熵-划分后的信息熵
      在这里插入图片描述
    • 西瓜书的例子
      在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    • 最后以最大的纹理为划分的结点。
      在这里插入图片描述

    4.3其他属性划分准则

    • 信息增益率;起到了规范化的作用;教材p76
      在这里插入图片描述

    4.4决策树的剪枝

    • 预剪枝:提前终止某些分支的增长
    • 后剪枝:生成一颗完全树,再“回头”剪枝
      在这里插入图片描述

    4.5缺失值的处理

    • 对于属性值的缺失:基本思路就是,样本赋权,权重划分
      在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    第五章-支持向量机

    5.1支持向量机基本型

    在这里插入图片描述

    在这里插入图片描述

    5.2对偶问题与解的特性

    在这里插入图片描述

    在这里插入图片描述

    5.3求解方法

    在这里插入图片描述

    在这里插入图片描述

    5.4特征空间映射

    在这里插入图片描述

    5.5核函数

    • 核函数:1距离矩阵2半正定
      在这里插入图片描述
      在这里插入图片描述

    5.6如何使用SVM?

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    第六章-神经网络

    6.1神经网络模型

    在这里插入图片描述
    在这里插入图片描述

    6.2万有逼近能力

    在这里插入图片描述

    6.3BP算法推导

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    第七章-贝叶斯分类器

    7.1贝叶斯决策论

    在这里插入图片描述

    7.2生成式和判别式模型

    在这里插入图片描述

    7.3贝叶斯分类器与贝叶斯学习

    • 贝叶斯主义认为,分布的参数是分布。
    • 统计学习属于频率主义。

    7.4极大似然估计

    在这里插入图片描述

    7.5朴素贝叶斯分类器

    • 注意:对连属性,计算条件概率可考虑概率密度函数
      在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    第八章-继承学习和聚类

    8.1集成学习

    • Ensemble learning:多个学习器集成。

    8.2好而不同

    在这里插入图片描述

    • E是集成学习的错误;E-是每个个体错误的平均,就是平均性能;A-就是每个个体之间的差异度。希望E-小,每个个体A-之间的差异要大,就是diversity。
    • 误差-分歧分解表明集成学习中多样性是关键。
      在这里插入图片描述

    8.3两类常用集成学习方法

    • 串行和并行化算法
      在这里插入图片描述

    8.4Boosting

    • alignment配准
    • Boosting流程:对错误样本进行加权,最后进行求和。
    • Boosting是一种同质集成学习方法。
      在这里插入图片描述

    8.5Bagging

    • 投票做分类,平均做回归;
    • 注意:Bagging算法使用的采样方法是有放回采样。
      在这里插入图片描述

    8.6多样性度量

    • 多样性度量
      在这里插入图片描述

    • 现有的76种多样性度量
      在这里插入图片描述

    • diversity和E的关系
      在这里插入图片描述

    8.7聚类

    • 无监督学习除了聚类,还有密度估计;有监督:回归,分类。
      在这里插入图片描述

    • 聚类也可以做分类的预处理。
      在这里插入图片描述

    8.8聚类方法概述

    • 一些新算法的比较容易诞生
      在这里插入图片描述

    • 常见的聚类算法
      在这里插入图片描述

    • 什么是层次聚类,AGNES;越下层,越粒化;
      在这里插入图片描述

    • 原型聚类都可以看成高斯聚类的特例,比较适合处理椭球结构

    • 密度聚类比较适合与香肠型聚类
      在这里插入图片描述

  • 相关阅读:
    css:box-sizing使用教程
    JavaScript高级,ES6 笔记 第一天
    【国产MCU】-CH32V307-SysTick中断与延时功能实现
    Vue前端框架08 Vue框架简介、VueAPI风格、模板语法、事件处理、数组变化侦测
    vue-计算属性:computed
    铝型材【欧标】
    Nodejs+vue汽车保养美容管理系统vscode前后端分离项目
    安卓面经_Android面试题解析大全(2/30)之Service全解析
    瀑布流布局之columns属性
    这份阿里P8架构师学习路线仅一晚GitHub狂揽6W+赞,巅峰之作?
  • 原文地址:https://blog.csdn.net/weixin_41732253/article/details/127514596
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号