【0x01】机器学习-数据集

一、数据集

1 可用数据集

kaggle
UCI （数据量大、覆盖面广）
scikit-learn.（数据量小，方便学习）

sklearn能干的事儿：
在这里插入图片描述

分类、聚类、回归
特征工程
模型选择、调优

2 sklearn数据集

2.1 sklearn数据集API

sklearn.datasets
- 加载获取流行的数据集
- datasets.load_*() *指代的是数据集的名字, 意思是获取小规模的数据集，数据包含在了datasets里。
- datasets.fetch_*(data_home=None). 获取大规模数据集，需要利用网络进行下载，函数的第一个参数是data_home, 表示数据集下载的目录，默认是 ~/scikit_learn_data/，是用来做数据集缓存用的，这样之后用就不用下载了。

2.2 sklearn举例 - 小数据集

代码：

sklearn.datasets.load_iris()
1

加载并返回鸢尾花数据集。

代码：

sklearn.datasets.load_boston()
1

加载并返回波士顿房价数据集。

2.3 sklearn举例 - 大数据集

代码：

sklearn.datasets.fetch_20newsgroups(data_home=None, subset='train')
1

subset写: "train" or "test" or "all"，是可选的参数，选择要加载的数据集。
默认设置为train，即训练集。

2.4 数据集返回值

load和fetch返回的数据类型是 datasets.base.Bunch，这继承自Python中的dict。
我们可以看下返回中都有哪些key:

‘data’ - 特征数据数组，是[n_samples * n_features]的二维numpy.ndarray数组。
‘filenames’ - 数据存放文件是哪个
‘target_names’ - 目标值的标签名
‘target’ - 标签数组，是n_samples的一维numpy.ndarray数组。
‘DESCR’ - 数据描述

它继承自字典，但扩充了一些功能。
它可以用点运算符来获取key对应的value。
比如：

r = datasets.load_iris()
r['DESCR'] 和 r.DESCR是等价的。
1
2

举个例子来实战一下：

from sklearn import datasets
# r = datasets.fetch_20newsgroups(data_home=None, subset='train')
r = datasets.load_iris()
print(r.data)
print(r.target)
print(r.frame)
print(r.target_names)

1
2
3
4
5
6
7
8

输出：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]
 [5.7 2.8 4.5 1.3]
 [6.3 3.3 4.7 1.6]
 [4.9 2.4 3.3 1. ]
 [6.6 2.9 4.6 1.3]
 [5.2 2.7 3.9 1.4]
 [5.  2.  3.5 1. ]
 [5.9 3.  4.2 1.5]
 [6.  2.2 4.  1. ]
 [6.1 2.9 4.7 1.4]
 [5.6 2.9 3.6 1.3]
 [6.7 3.1 4.4 1.4]
 [5.6 3.  4.5 1.5]
 [5.8 2.7 4.1 1. ]
 [6.2 2.2 4.5 1.5]
 [5.6 2.5 3.9 1.1]
 [5.9 3.2 4.8 1.8]
 [6.1 2.8 4.  1.3]
 [6.3 2.5 4.9 1.5]
 [6.1 2.8 4.7 1.2]
 [6.4 2.9 4.3 1.3]
 [6.6 3.  4.4 1.4]
 [6.8 2.8 4.8 1.4]
 [6.7 3.  5.  1.7]
 [6.  2.9 4.5 1.5]
 [5.7 2.6 3.5 1. ]
 [5.5 2.4 3.8 1.1]
 [5.5 2.4 3.7 1. ]
 [5.8 2.7 3.9 1.2]
 [6.  2.7 5.1 1.6]
 [5.4 3.  4.5 1.5]
 [6.  3.4 4.5 1.6]
 [6.7 3.1 4.7 1.5]
 [6.3 2.3 4.4 1.3]
 [5.6 3.  4.1 1.3]
 [5.5 2.5 4.  1.3]
 [5.5 2.6 4.4 1.2]
 [6.1 3.  4.6 1.4]
 [5.8 2.6 4.  1.2]
 [5.  2.3 3.3 1. ]
 [5.6 2.7 4.2 1.3]
 [5.7 3.  4.2 1.2]
 [5.7 2.9 4.2 1.3]
 [6.2 2.9 4.3 1.3]
 [5.1 2.5 3.  1.1]
 [5.7 2.8 4.1 1.3]
 [6.3 3.3 6.  2.5]
 [5.8 2.7 5.1 1.9]
 [7.1 3.  5.9 2.1]
 [6.3 2.9 5.6 1.8]
 [6.5 3.  5.8 2.2]
 [7.6 3.  6.6 2.1]
 [4.9 2.5 4.5 1.7]
 [7.3 2.9 6.3 1.8]
 [6.7 2.5 5.8 1.8]
 [7.2 3.6 6.1 2.5]
 [6.5 3.2 5.1 2. ]
 [6.4 2.7 5.3 1.9]
 [6.8 3.  5.5 2.1]
 [5.7 2.5 5.  2. ]
 [5.8 2.8 5.1 2.4]
 [6.4 3.2 5.3 2.3]
 [6.5 3.  5.5 1.8]
 [7.7 3.8 6.7 2.2]
 [7.7 2.6 6.9 2.3]
 [6.  2.2 5.  1.5]
 [6.9 3.2 5.7 2.3]
 [5.6 2.8 4.9 2. ]
 [7.7 2.8 6.7 2. ]
 [6.3 2.7 4.9 1.8]
 [6.7 3.3 5.7 2.1]
 [7.2 3.2 6.  1.8]
 [6.2 2.8 4.8 1.8]
 [6.1 3.  4.9 1.8]
 [6.4 2.8 5.6 2.1]
 [7.2 3.  5.8 1.6]
 [7.4 2.8 6.1 1.9]
 [7.9 3.8 6.4 2. ]
 [6.4 2.8 5.6 2.2]
 [6.3 2.8 5.1 1.5]
 [6.1 2.6 5.6 1.4]
 [7.7 3.  6.1 2.3]
 [6.3 3.4 5.6 2.4]
 [6.4 3.1 5.5 1.8]
 [6.  3.  4.8 1.8]
 [6.9 3.1 5.4 2.1]
 [6.7 3.1 5.6 2.4]
 [6.9 3.1 5.1 2.3]
 [5.8 2.7 5.1 1.9]
 [6.8 3.2 5.9 2.3]
 [6.7 3.3 5.7 2.5]
 [6.7 3.  5.2 2.3]
 [6.3 2.5 5.  1.9]
 [6.5 3.  5.2 2. ]
 [6.2 3.4 5.4 2.3]
 [5.9 3.  5.1 1.8]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
None
['setosa' 'versicolor' 'virginica']
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157

我们可以看到，target是 0, 1, 2组成的一个数组。0, 1, 2 其实是target_names中标签的下标。
比如target中为0，代表它的标签是setosa。

data既然代表的是特征，那我们可以从上面的结果看到，每个样本都有4个特征。
那这4个特征分别代表啥呢？莫方，我们还有feature_names可以看到。

from sklearn import datasets
# r = datasets.fetch_20newsgroups(data_home=None, subset='train')
r = datasets.load_iris()
print(r.feature_names)
1
2
3
4

输出：

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
1

这样，每个特征代表啥我们就清楚了。

2.4 数据集的划分

为啥要划分数据集？因为要分成训练集和测试集。
可以理解为，你做题总得练习，这就是训练集。训练完总得检验一下成果吧？这个就是测试集。
我们一半是将70%左右的数据当作训练集，把30%左右的数据当作测试集。

看下sklearn数据集的划分方法：

from sklearn import datasets, model_selection
# r = datasets.fetch_20newsgroups(data_home=None, subset='train')
r = datasets.load_iris()
# 参数列表为数据集的特征、数据集的目标。 可选的为test_size代表测试集的占比, random_state代表随机数种子
# 随机数种子是这样的：随机是伪随机，给定一个特定的随机数种子可以使得采样结果是相同的。
# 返回值分别为 训练集特征、测试集特征、训练集目标值、测试集目标值
x_train, x_test, y_train, y_test = model_selection.train_test_split(r.data, r.target, test_size=0.2, random_state=22)
1
2
3
4
5
6
7

相关阅读:
python_定时任务自动匹配数据II
使用 Containerlab + Kind 快速部署 Cilium BGP 环境
 Android修行手册 - 模板匹配函数matchTemplate详解，从N张图片中找到是否包含五星
 android 复制粘贴监听
 python:循环请求多个url导致链接超时的解决方案
 c 摄像头利用v4l2直接生成avi视频（不利用ffmpeg）
力扣每日一题61：旋转链表
 matplotlib基操（三）
goland 2022 取消自动格式化代码
 新零售行业如何玩转线上服务
原文地址：https://blog.csdn.net/weixin_41687289/article/details/126138866