机器学习 sklearn数据集

机器学习 sklearn数据集
- AI（人工智能）包含机器学习，机器学习包含深度学习
- 解决问题的过程
什么是机器学习
- 机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测（分类，回归）
机器学习应用场景
1. 自然语言处理
2. 无人驾驶
3. 计算机视觉
4. 推荐系统
数据

 数据类型
1. 离散型数据
2. 连续型数据
数据的类型将是机器学习模型不同问题不同处理的依据

 可用数据集
1. Kaggle网址：https://www.kaggle.com/datasets
  1. 大数据竞赛平台
  2. 80万科学家
  3. 真实数据
  4. 数据量巨大
2. UCI数据集网址： http://archive.ics.uci.edu/ml/
  1. 收录了360个数据集
  2. 覆盖科学、生活、经济等领域
  3. 数据量几十万
3. scikit-learn网址：https://scikit-learn.org/stable/datasets
  1. 数据量较小
  2. 方便学习
4. 阿里天池
常用数据集数据的结构组成
- 结构：特征值+目标值
注：有些数据集可以没有目标值

 sklearn数据集

 数据集划分
1. 机器学习一般的数据集会划分为两个部分：
  - 训练数据：用于训练，构建模型
  - 测试数据：在模型检验时使用，用于评估模型是否有效
2. 两部分占比通常是：70%+30% 80%+20% 75%+25%
3. sklearn.model_selection.train_test_split(*arrays,**options) 可以对数据集进行自动划分
  1. 参数介绍：
    x 数据集的特征值
    y 数据集的标签值
    test_size 测试集的大小，一般为 float
    random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
  2. return 训练集特征值，测试集特征值，训练标签，测试标签
数据集接口介绍
1. sklearn.datasets ：加载获取流行数据集
2. datasets.load_*() ：获取小规模数据集，数据包含在 datasets
3. datasets.fetch_*(data_home=None) ：获取大规模数据集，需要从网络上下载，函数的第一个参数是 data_home，表示数据集下载的目录
- load_*和 fetch_*返回的数据类型 datasets.base.Bunch(字典格式 )
  - data：特征数据数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组
  - target：标签数组，是 n_samples 的一维 numpy.ndar
  - DESCR：数据描述
  - feature_names：特征名,新闻数据，手写数字、回归数据集没有
  - target_names：标签名,回归数据集没有
分类数据集
1. sklearn.datasets.load_iris() 加载并返回鸢尾花数据集
2. sklearn.datasets.load_digits() 加载并返回数字数据集
3. sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
4. subset: ‘train’或者’test’,‘all’，可选，选择要加载的数据集.
5. datasets.clear_data_home(data_home=None) 清除目录下的数据
回归数据集
1. sklearn.datasets.load_boston() 加载并返回波士顿房价数据集
2. sklearn.datasets.load_diabetes() 加载和返回糖尿病数据集
转换器（ Transformer ）
- fit是适应数据，但不对数据做改变，transform是对数据做改变；fit_transform是fit和transform的结合
估计器（ estimator ）
- 在 sklearn 中，估计器(estimator)是一个重要的角色，分类器和回归器都属于 estimator，是一类实现了算法的 API
1. 用于分类的估计器：
2. sklearn.neighbors k-近邻算法
3. sklearn.naive_bayes 朴素贝叶斯
4. sklearn.linear_model.LogisticRegression 逻辑回归
5. sklearn.tree 决策树与随机森林
6. 用于回归的估计器
  1. sklearn.linear_model.LinearRegression 线性回归
  2. sklearn.linear_model.Ridge 岭回归
7. 估计器的工作流程
相关阅读:
海康VisionMaster与西门子Smart 200进行S7通信
 kvm部署
 【单片机基础】使用51单片机制作函数信号发生器（DAC0832使用仿真）
iPhone 手机修复屏幕划痕
 【架构-18】缓存雪崩？缓存穿透？缓存击穿？
neo4j community与neo4j desktop冲突
 网络编程day05（IO多路复用）
【windows权限】提权操作
 走进Prime Time系列 - PT的constraint - 02
详解数据挖掘
原文地址：https://blog.csdn.net/weixin_45775970/article/details/125898768

什么是机器学习

机器学习应用场景

数据

数据类型

可用数据集

常用数据集数据的结构组成

sklearn数据集

数据集划分

数据集接口介绍

分类数据集

回归数据集

转换器（ Transformer ）

估计器（ estimator ）