sklearn全称为scikit learn 专门提供了python机器学习的模块 是一个高效的数据分析算法工具 建议在numpy scipy matplotlib上
对于大多数机器学习 通常有以下四个数据集
1:train_data 训练数据集
2:train_target 训练数据的真是结果集
3:test_data 测试数据集
4:test_target 测试数据对应的真是结果 用来检测预测的正确性
sklearn模块提供了一个强大的数据库 包括鸢尾花 波士顿房价等等 下面用鸢尾花数据集做演示
鸢尾花(iris)数据集 是常用的分类实验数据集 由fisher在1936年收集整理,包含150个数据集 分为三类 每类五十条数据 每条数据包含4个属性。
效果图如下
代码如下
- from sklearn.datasets import load_iris
- from sklearn.datasets import load_boston
- import matplotlib; matplotlib.use('TkAgg')
- import pandas as pd
- import matplotlib.pyplot as plt
- data=load_iris()
- print("以下是鸢尾花数据集")
-
-
- data =pd.DataFrame(data=load_iris().data,columns=load_iris().feature_names)#转换为dataframe对象
- print(data)
- x=data.iloc[:,[0,2]].values
- plt.scatter(x[:50,0],x[:50,1],color='red',marker='o',label='setosa')
- plt.scatter(x[50:100,0],x[50:100,1],color='blue',marker='x',label='versicolor')
- plt.scatter(x[100:,0],x[100:,1],color='green',marker='+',label='Virginica')
- plt.xlabel('sepal length')
- plt.ylabel('petal length')
- plt.legend(loc=2)
- plt.show()
觉得有帮助请点赞收藏