• [scikit-learn] 第一章 初识scikit-learn及内置数据集介绍


    菜鸡镇贴!!!

    请添加图片描述

    scikit-learn 简要介绍

    Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。

    scikit-learn 安装

    ​ 本文仅提供Linux下的安装指南 其他平台可参照官网指南安装

    Operating System :Linux

    Packager : conda

    ​ 使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
    然后运行:

    conda create -n sklearn-env -c conda-forge scikit-learn
    conda activate sklearn-env
    
    • 1
    • 2

    scikit-learn 数据集介绍

    ​ scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。

    ​ 简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。

    数据集如下:

    CategoryDataset
    Toy datasetsIris plants dataset
    Diabetes dataset
    Optical recognition of handwritten digits dataset
    Linnerrud dataset
    Wine recognition dataset
    Breast cancer wisconsin (diagnostic) dataset
    Real world datasetsThe Olivetti faces dataset
    The 20 newsgroups text dataset
    The Labeled Faces in the Wild face recognition dataset
    Forest covertypes
    RCV1 dataset
    Kddcup 99 dataset
    California Housing dataset
    Species distribution dataset
    Generated datasetsGenerators for classification and clustering
    Generators for regression
    Generators for manifold learning
    Generators for decomposition
    Loading other datasets
    Sample images
    Datasets in svmlight / libsvm format
    Downloading datasets from the openml.org repository
    Loading from external datasets

    数据集API介绍

    General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。

    **The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。

    **The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。

    Loaders

    datasets.clear_data_home([data_home])		删除数据主缓存的所有内容。
    
    datasets.dump_svmlight_file(X, y, f, *[, ...])		以svmlight/libsvm文件格式转储数据集。
    
    datasets.fetch_20newsgroups(*[, data_home, ...])20个新闻组数据集中加载文件名和数据(分类)。
    
    datasets.fetch_20newsgroups_vectorized(*[, ...])		加载并向量化20个新闻组数据集(分类)。
    
    datasets.fetch_california_housing(*[, ...])			加载加州住房数据集(回归)。
    
    datasets.fetch_covtype(*[, data_home, ...])			加载covertype数据集(分类)。
    
    datasets.fetch_kddcup99(*[, subset, ...])			加载kddcup99数据集(分类)。
    
    datasets.fetch_lfw_pairs(*[, subset, ...])			加载“野生(LFW)对中的已标记人脸”数据集(分类)。
    
    datasets.fetch_lfw_people(*[, data_home, ...])		加载野外标记面孔 (LFW) 人物数据集(分类)。
    
    datasets.fetch_olivetti_faces(*[, ...])				从 AT&T(分类)加载 Olivetti 面孔数据集。
    
    datasets.fetch_openml([name, version, ...])			按名称或数据集 ID 从 openml 获取数据集。
    
    datasets.fetch_rcv1(*[, data_home, subset, ...])		加载 RCV1 多标签数据集(分类)。
    
    datasets.fetch_species_distributions(*[, ...])			Phillips 等人的物种分布数据集加载器。
    
    datasets.get_data_home([data_home])						返回 scikit-learn 数据目录的路径。
    
    datasets.load_breast_cancer(*[, return_X_y, ...])		加载并返回威斯康星州乳腺癌数据集(分类)。
    
    datasets.load_diabetes(*[, return_X_y, ...])			加载并返回糖尿病数据集(回归)。
    
    datasets.load_digits(*[, n_class, ...])					加载并返回数字数据集(分类)。
    
    datasets.load_files(container_path, *[, ...])			加载以类别作为子文件夹名称的文本文件。
    
    datasets.load_iris(*[, return_X_y, as_frame])			加载并返回鸢尾花数据集(分类)。
    
    datasets.load_linnerud(*[, return_X_y, as_frame])		加载并返回体育锻炼 Linnerud 数据集。
    
    datasets.load_sample_image(image_name)					加载单个样本图像的 numpy 数组。
    
    datasets.load_sample_images()							加载示例图像以进行图像处理。
    
    datasets.load_svmlight_file(f, *[, ...])				将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。
    
    datasets.load_svmlight_files(files, *[, ...])			从 SVMlight 格式的多个文件加载数据集。
    
    datasets.load_wine(*[, return_X_y, as_frame])			加载并返回葡萄酒数据集(分类)。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49

    Samples generator

    datasets.make_biclusters(shape, n_clusters, *)			生成用于双聚类的常量块对角结构数组。
    
    datasets.make_blobs([n_samples, n_features, ...])		生成各向同性高斯斑点以进行聚类。
    
    datasets.make_checkerboard(shape, n_clusters, *)		生成具有块棋盘结构的数组以进行双聚类。
    
    datasets.make_circles([n_samples, shuffle, ...])		在 2d 中制作一个包含小圆的大圆。
    
    datasets.make_classification([n_samples, ...])			生成随机 n 类分类问题。
    
    datasets.make_friedman1([n_samples, ...])				生成“Friedman #1”回归问题。
    
    datasets.make_friedman2([n_samples, noise, ...])		生成“Friedman #2”回归问题。
    
    datasets.make_friedman3([n_samples, noise, ...])		生成“Friedman #3”回归问题。
    
    datasets.make_gaussian_quantiles(*[, mean, ...])		生成各向同性高斯并按分位数标记样本。
    
    datasets.make_hastie_10_2([n_samples, ...])				生成 Hastie 等人使用的二元分类数据。 2009 年,例 10.2。
    
    datasets.make_low_rank_matrix([n_samples, ...])			生成一个具有钟形奇异值的低秩矩阵。
    
    datasets.make_moons([n_samples, shuffle, ...])			制作两个交错的半圆。
    
    datasets.make_multilabel_classification([...])			生成随机多标签分类问题。
    
    datasets.make_regression([n_samples, ...])				生成随机回归问题。
    
    datasets.make_s_curve([n_samples, noise, ...])			生成 S 曲线数据集。
    
    datasets.make_sparse_coded_signal(n_samples, ...)		生成信号作为字典元素的稀疏组合。
    
    datasets.make_sparse_spd_matrix([n_dim, ...])			生成稀疏对称定正矩阵。
    
    datasets.make_sparse_uncorrelated([...])				使用稀疏不相关设计生成随机回归问题。
    
    datasets.make_spd_matrix(n_dim, *[, ...])				生成随机对称正定矩阵。
    
    datasets.make_swiss_roll([n_samples, noise, ...])		生成瑞士卷数据集。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39

    导入数据集demo

    from sklearn import datasets
    
    # 调用数据集
    iris = datasets.load_iris()
    digits = datasets.load_digits()
    
    # 展示数据集
    print(digits.data)
    print(digits.target)
    print(digits.images[0])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    在这里插入图片描述

  • 相关阅读:
    【ARM Trace32(劳特巴赫) 使用介绍 2.2 -- TRACE32 进阶命令之 DIAG 弹框命令】
    Buran勒索病毒通过Microsoft Excel Web查询文件进行传播
    mysql源码分析——InnoDB引擎启动分析
    算法基础学习笔记——⑩DFS与BFS\树与图
    网络安全-恶意代码
    PHP项目学习笔记-萤火商城-增加一个模块(表涉及到的操作和文件)
    全网最牛自动化测试框架系列之pytest(4)-测试用例执行顺序
    Mybatis源码编译
    区块链金融的开发流程
    LegalQA 数据集 样例数据
  • 原文地址:https://blog.csdn.net/Kruskual/article/details/136763284