码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习1


    目录

    概念

    所需的算法

    鸢尾花数据集  load_iris

    数据集的划分  train_test_split

    特征提取  sklearn.feature_extraction

    字典特征提取    DictVectorizer:

    文本特征提取    CountVectorizer

    中文文本特征抽取:jieba断字


    概念:

    从数据中自动分析获得模型,并利用模型对未知数据进行分析

    所需的算法:

    监督学习  
    回归问题:线性回归,岭回归     分类问题:分类k-近邻算法,贝叶斯分类,决策树与随机森林,逻辑回归
    无监督学习:输入数据是由输入特征值所组成    聚类k-means算法

    鸢尾花数据集  load_iris

    1. from sklearn.datasets import load_iris
    2. iris=load_iris()
    3. print("鸢尾花数据集:\n",iris)
    4. print("查看数据集描述:\n",iris["DESCR"])
    5. print("查看数据集的名字:\n",iris.feature_names)
    6. print("查看特征值:\n",iris.data,iris.data.shape)

     

     

    数据集的划分  train_test_split

    1. x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    2. print("训练值的特征值:\n",x_train,x_train.shape)
    3. print(x_test,x_test.shape)
    4. print(y_train,y_train.shape)

     

    特征提取  sklearn.feature_extraction

          概念:将任意数据转化为可用于机器学习的数字特征

    字典特征提取    DictVectorizer:

       概念:把类别转换成one-hot编码 

      应用场景:类别场景非常多的时候,本身拿到的数据就是字典形式 

    1. data=[{'city':'北京','temperature':40},{'city':'上海','temperature':35},{'city':'深圳','temperature':30}]
    2. #实例化一个转换器类
    3. transfer=DictVectorizer() #转化为sparse矩阵:将非零值表现出来,提高加载效率
    4. #调用fit_transform
    5. data1=transfer.fit_transform(data)
    6. print(data1)
    7. print('特征名字:',transfer.get_feature_names_out())
    8. transfer1=DictVectorizer(sparse=False) #不转化为sparse矩阵
    9. data2=transfer1.fit_transform(data)
    10. print(data2)

     

    文本特征提取    CountVectorizer

    概念:将单词进行特征划分,统计出现的次数 

    1. data=['Life is a fuking movie','I am chengguanxi']
    2. transfer=CountVectorizer()
    3. #调用fit_transform
    4. data_new=transfer.fit_transform(data)
    5. print(data_new.toarray())
    6. print("特征名字:",transfer.get_feature_names_out())

     

    中文文本特征抽取:jieba断字

    1. def cut_words(text):
    2. return " ".join(list(jieba.cut(text)))
    3. print(cut_words('我是中国人'))

     

     

    1. data3=['我是陈冠希,我现在遇到了一帮很坏很坏的人。','我需要你们转帐300块,不,是300亿啊!']
    2. data_newnew=[]
    3. for sent in data3:
    4. data_newnew.append(cut_words(sent))
    5. data_final=transfer.fit_transform(data_newnew)
    6. print(data_final.toarray())
    7. print("特征名字:",transfer.get_feature_names_out())

     

     

  • 相关阅读:
    01 【基础语法与基本数据类型】
    Vm虚拟机安装Linux系统教程
    P0-PyTorch环境的配置及安装
    上周热点回顾(6.6-6.12)
    AIGC ChatGPT 4 与 Python 进行数据分析与可视化
    分享篇:初识Canvas
    webpack 面试题整理
    JavaScript 日常开发的 9 个实用代码片段 (part 1)
    二百零六、Flume——Flume1.9.0单机版部署脚本(附截图)
    .NET 6应用程序适配国产银河麒麟V10系统随记
  • 原文地址:https://blog.csdn.net/qq_62262691/article/details/126809495
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号