【Sklearn学习】Sklearn的数据集介绍

sklearn库学习

文章目录

sklearn数据集

sklearn数据集

打包的数据 datasets.load_*

# 已打包的数据加载：sklearn.datasets.load_*
# 导入方法，导入数据集模块，加载指定数据，示例如下
from sklearn import datasets
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# diabetes_X.shape：(442, 10)
# diabetes_y.shape：(442,)

常见的数据集介绍

有关图像的数据集
- load_sample_image 图像数据集
- load_sample_images 图像数据集
- load_digits 手写体数据集
有关医学的数据集
- load_breast_cancer 乳腺癌数据集
- load_diabetes 糖尿病数据集
- load_linnerud 体能训练数据集
其他数据集
- load_wine 葡萄酒数据集
- load_iris 鸢尾花数据集
- load_boston 波士顿房屋数据集

可下载的数据datasets.fetch_*

# 下载示例
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
 
from pprint import pprint
pprint(list(newsgroups_train.target_names))
'''
————————————————
['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',......
————————————————
'''

文本相关
- fetch_20newsgroups 新闻文本分类数据集
- fetch_20newsgroups_vectorized 新闻文本向量化数据集
- fetch_rcv1 路透社英文新闻文本分类数据集
有关人脸识别的数据集
- fetch_lfw_pairs 人脸数据集
- fetch_lfw_people 人脸数据集
- fetch_olivetti_faces 人脸数据集
其他
- fetch_california_housing 加利福尼亚房屋数据集
- fetch_kddcup99 入侵检测数据集
- fetch_species_distribution 物种分布数据集
- fetch_covtype 森林植被数据集

生成数据datasets.make_*

可生成的数据类型

datasets.make_biclusters 
datasets.make_blobs
datasets.make_checkerboard 
datasets.make_circles
datasets.make_classification 
datasets.make_friedman1
datasets.make_friedman2 
datasets.make_friedman3
datasets.make_gaussian_quantiles
datasets.make_hastie_10_2 
datasets.make_low_rank_matrix
datasets.make_moons
datasets.make_multilabel_classification
datasets.make_regression 
datasets.make_s_curve
datasets.make_sparse_coded_signal
datasets.make_sparse_spd_matrix
datasets.make_sparse_uncorrelated
datasets.make_spd_matrix 
datasets.make_swiss_roll

常用方法

生成方法	介绍
make_blobs()	多类单标签数据集，为每个类分配一个或多个正太分布的点集
make_classification()	多类单标签数据集，为每个类分配一个或多个正太分布的点集，提供了为数据添加噪声的方式，包括维度相关性，无效特征以及冗余特征等
make_gaussian-quantiles()	将一个单高斯分布的点集划分为两个数量均等的点集，作为两类
make_hastie-10-2()	产生一个相似的二元分类数据集，有10个维度
make_circle 和 make_moom()	产生二维二元分类数据集来测试某些算法的性能，可以为数据集添加噪声，可以为二元分类器产生一些球形判决界面的数据

其他

svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)
data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

数据集学习

安装Sklearn库后可以在Python对应的安装目录下.\Python3.10\Lib\site-packages\sklearn下查看相关的源码，配合源码学习，事半功倍

可以查看到Sklearn目录下有个datasets文件夹
datasets下的__init__.py的__all__列表就是所有自带的数据集了，每个数据集获取对应的函数可以看对上方的import内容
每个具体数据集的含义可以看上方的内容
如果需要某个数据集的获取示例，可以查看test目录下的文件，里面有对应的示例

相关阅读:
微服务实战系列之SpringCloud Alibaba学习（七）
SpringBoot项目调用Matlab方法
4.1 继承----媒体资料库的设计
深入分析C++对象模型之移动构造函数
基于Nexus搭建docker镜像源仓库
C专家编程序
个人博客系统
2024最新算法：冠豪猪优化算法(Crested Porcupine Optimizer，CPO)求解23个基准函数（提供MATLAB代码）
GRPC远程调用
基于N32G45的OLED驱动

原文地址：https://blog.csdn.net/weixin_44034444/article/details/141002078