码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习5-线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘


    文章目录

    • 一. 分类
      • 1.1 分类的意义
      • 1.2 分类与聚类的差别
      • 1.3 分类和聚类常用的算法
      • 1.4 线性判别法的例子
    • 二. 文本挖掘典型场景
      • 2.1 网页自动分类
      • 2.2 垃圾邮件判断
      • 2.3 评论自动分析
      • 2.4 通过用户访问内容判别用户喜好
    • 三. 贝叶斯信念网络

    一. 分类

    1.1 分类的意义

    1. 传统意义下的分类: 生物物种
    2. 预测: 天气预报
    3. 决策: yes or no

    1.2 分类与聚类的差别

    图片来源:
    https://www.zhihu.com/question/42044303/answer/470589507
    image.png

    1.3 分类和聚类常用的算法

    image.png

    分类算法:

    1. K近邻(KNN)
    2. 逻辑回归
    3. 支持向量机
    4. 朴素贝叶斯
    5. 决策树
    6. 随机森林

    聚类算法 :

    1. K均值(K-means)
    2. FCM(模糊C均值聚类)
    3. 均值漂移聚类
    4. DBSCAN
    5. DPEAK
    6. Mediods
    7. Canopy

    1.4 线性判别法的例子

    以天气预报为例。

    代码:

    G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)
    x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8)
    x2=c(3.2,0.4,2.0,2.5,0.0,12.7,-5.4,-2.5,1.3,6.8,6.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0)
    
    a=data.frame(G,x1,x2)
    plot(x1,x2)
    text(x1,x2,G,adj=-0.5)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    测试记录:
    image.png

    用一条直线来划分训练集(这条直线一定存在吗?)
    然后根据待测点在直线的哪一边决定它的分类

    代码:

    library(MASS)
    ld=lda(G~x1+x2)
    ld
    z=predict(ld)
    newG=z$class
    newG
    y=cbind(G,z$x,newG)
    y
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    image.png

    二. 文本挖掘典型场景

    2.1 网页自动分类

    image.png

    2.2 垃圾邮件判断

    朴素贝叶斯分类器,使用的最频繁
    先分词,然后判定垃圾邮件

    朴素贝叶斯分类 变量彼此之间没有联系,互不影响

    image.png

    2.3 评论自动分析

    image.png

    2.4 通过用户访问内容判别用户喜好

    用户流失预警:
    image.png

    用户标签系统:
    image.png

    三. 贝叶斯信念网络

    贝叶斯信念网络 区别于 朴素贝叶斯,各个变量之间存在某种关联关系,这种情况其实更贴合实际应用场景。
    image.png

    image.png

    image.png

    贝叶斯推理:
    image.png

    image.png

  • 相关阅读:
    Qt扫盲-QJsonDocument理论总结
    Vscode配置Git+快速入门,一篇学会80%的Git操作
    游戏成元宇宙“主力军”:上半年收入占比达94%
    Java数组
    【数组】-找出数组中第一个重复的数字
    docker镜像命令
    (vue)适合后台管理系统开发的前端框架
    使用双动态令牌混合器学习全局和局部动态以进行视觉识别
    eslint+stylelint+prettier全流程配置
    【RocketMQ 一】MQ概述
  • 原文地址:https://blog.csdn.net/u010520724/article/details/125496207
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号