• 【Sklearn学习】Sklearn的数据集介绍


    sklearn库学习

    sklearn数据集

    打包的数据 datasets.load_*

    # 已打包的数据加载:sklearn.datasets.load_*
    # 导入方法,导入数据集模块,加载指定数据,示例如下
    from sklearn import datasets
    diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)
    
    # diabetes_X.shape:(442, 10)
    # diabetes_y.shape:(442,)
    

    常见的数据集介绍

    • 有关图像的数据集
      • load_sample_image 图像数据集
      • load_sample_images 图像数据集
      • load_digits 手写体数据集
    • 有关医学的数据集
      • load_breast_cancer 乳腺癌数据集
      • load_diabetes 糖尿病数据集
      • load_linnerud 体能训练数据集
    • 其他数据集
      • load_wine 葡萄酒数据集
      • load_iris 鸢尾花数据集
      • load_boston 波士顿房屋数据集

    可下载的数据datasets.fetch_*

    # 下载示例
    from sklearn.datasets import fetch_20newsgroups
    newsgroups_train = fetch_20newsgroups(subset='train')
     
    from pprint import pprint
    pprint(list(newsgroups_train.target_names))
    '''
    ————————————————
    ['alt.atheism',
     'comp.graphics',
     'comp.os.ms-windows.misc',
     'comp.sys.ibm.pc.hardware',
     'comp.sys.mac.hardware',
     'comp.windows.x',......
    ————————————————
    '''
    
    • 文本相关

      • fetch_20newsgroups 新闻文本分类数据集
      • fetch_20newsgroups_vectorized 新闻文本向量化数据集
      • fetch_rcv1 路透社英文新闻文本分类数据集
    • 有关人脸识别的数据集

      • fetch_lfw_pairs 人脸数据集
      • fetch_lfw_people 人脸数据集
      • fetch_olivetti_faces 人脸数据集
    • 其他

      • fetch_california_housing 加利福尼亚房屋数据集
      • fetch_kddcup99 入侵检测数据集
      • fetch_species_distribution 物种分布数据集
      • fetch_covtype 森林植被数据集

    生成数据datasets.make_*

    可生成的数据类型

    datasets.make_biclusters 
    datasets.make_blobs
    datasets.make_checkerboard 
    datasets.make_circles
    datasets.make_classification 
    datasets.make_friedman1
    datasets.make_friedman2 
    datasets.make_friedman3
    datasets.make_gaussian_quantiles
    datasets.make_hastie_10_2 
    datasets.make_low_rank_matrix
    datasets.make_moons
    datasets.make_multilabel_classification
    datasets.make_regression 
    datasets.make_s_curve
    datasets.make_sparse_coded_signal
    datasets.make_sparse_spd_matrix
    datasets.make_sparse_uncorrelated
    datasets.make_spd_matrix 
    datasets.make_swiss_roll
    
    • 常用方法
    生成方法介绍
    make_blobs()多类单标签数据集,为每个类分配一个或多个正太分布的点集
    make_classification()多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
    make_gaussian-quantiles()将一个单高斯分布的点集划分为两个数量均等的点集,作为两类
    make_hastie-10-2()产生一个相似的二元分类数据集,有10个维度
    make_circle 和 make_moom()产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据

    其他

    • svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)
    • data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

    数据集学习

    安装Sklearn库后可以在Python对应的安装目录下.\Python3.10\Lib\site-packages\sklearn下查看相关的源码,配合源码学习,事半功倍

    • 可以查看到Sklearn目录下有个datasets文件夹
    • datasets下的__init__.py__all__列表就是所有自带的数据集了,每个数据集获取对应的函数可以看对上方的import内容
    • 每个具体数据集的含义可以看上方的内容
    • 如果需要某个数据集的获取示例,可以查看test目录下的文件,里面有对应的示例
  • 相关阅读:
    中国设备维修安装企业能力等级证书(制冷空调)
    P2802 回家
    Redis面试(二)
    如何安装Wnmp并结合内网穿透实现外网访问内网Wnmp服务
    Integer和int
    扬帆牧哲:商标转让和商标变更的概念
    数独·12中解法·anroid 数独小游戏·休闲益智小游戏
    【深度学习 AIGC】stable diffusion webUI 使用过程,参数设置,教程,使用方法
    Elasticsearch 原理与应用实践
    将VS工程转为pro工程及VS安装Qt插件后没有create basic .pro file菜单问题解决
  • 原文地址:https://blog.csdn.net/weixin_44034444/article/details/141002078