• Python实现机器学习(下)— 数据预处理、模型训练和模型评估


    前言:Hello大家好,我是小哥谈。本门课程将介绍人工智能相关概念,重点讲解机器学习原理机器基本算法(监督学习及非监督学习)。使用python,结合sklearn、Pycharm进行编程,介绍iris(鸢尾花)数据集,建立AI模型并评估其表现。本节课主要面向刚毕业高中生、大学生、硕士生等对AI行业充满向往的同学们!🌈

     前期回顾:

                  Python实现机器学习(上)— 基础知识介绍及环境部署

                  目录

    🚀1.数据预处理

    💥💥1.1 iris数据集介绍

    💥💥1.2 iris数据加载及展示

    🚀2.模型训练

    🚀3.模型评估

    🚀1.数据预处理

    💥💥1.1 iris数据集介绍

    Iris (鸢尾花)数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数据,每条记录都有4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。🌴

    通俗地说,iris数据集属于监督式学习的应用,是用来给花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征,我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾、变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种)。🌱

    采用iris数据集的原因主要是该数据集简单而且有代表性。🍄

    💥💥1.2 iris数据加载及展示

    具体代码如下:

    1. # iris数据加载
    2. from sklearn import datasets
    3. iris = datasets.load_iris()
    4. # 展示iris数据
    5. print(iris.data)
    6. print(iris.feature_names)
    7. print(iris.target_names)
    8. # 确认数据类型
    9. print(type(iris.data))
    10. # 确认维度
    11. print(iris.data.shape)

    运行结果如图所示:

    结果说明:

    🍀(1)每行数据为一个样本;

    🍀(2)每行数据代表不同样本同一属性下对应的数值;

    🍀(3)每列数据对应的属性值(图中最后一行);

    该项目归根结底为一个分类问题,是对应结果为类别(非连续性)的监督式学习问题,每个预测的数值即是结果数据(或称为:目标、输出、标签)

    进行数据预处理的四个关键点:

    🍀(1)区分开属性数据和结果数据;

    🍀(2)属性数据和结果数据都是可量化的;

    🍀(3)运算过程中,属性数据和结果数据的类型都是Numpy数组;

    🍀(4)属性数据和结果数据的维度是对应的(由结果可知,数据为150行4列)


    🚀2.模型训练

    本项目的本质为一个分类问题,即根据数据集目标的特征或者属性,划分到已有的类别中。常用的分类算法有:K近邻算法(KNN)逻辑回归决策树朴素贝叶斯等。🍃

    本项目采用的是KNN算法。KNN(k-NearestNeighbor)又被称为近邻算法,它的核心思想是:物以类聚,人以群分。

    假设一个未知样本数据x需要归类,总共有ABC三个类别,那么离x距离最近的有k个邻居,这k个邻居里有k1个邻居属于A类,k2个邻居属于B类,k3个邻居属于C类,如果k1>k2>k3,那么x就属于A类,也就是说x的类别完全由邻居来推断出来。🌳

    具体代码如下:

    1. # 确认维度
    2. #print(iris.data.shape)
    3. # 样本数据与结果分别赋值到“x”和“y”
    4. x = iris.data
    5. y = iris.target
    6. # 确认样本和输出数据维度
    7. #print(x.shape)
    8. #print(y.shape)
    9. # 建模四步骤
    10. """
    11. 1.调用需要使用的模型类
    12. 2.模型初始化(创建一个模型实例)
    13. 3.模型训练
    14. 4.模型预测
    15. """
    16. # 创建实例
    17. knn = KNeighborsClassifier(n_neighbors=1)
    18. # 模型训练
    19. knn.fit(x,y)
    20. # 模型预测
    21. print(knn.predict([[1,2,3,4]]))

    运行结果如图所示: 

     结果表示第3类。🎈🎈🎈


    🚀3.模型评估

    在模型评估的时候,必须保证已将数据分为训练集测试集使用训练集数据进行模型的训练使用测试集数据进行预测,从而评估模型表现。

    分离训练集和测试集的作用:

    🍀(1)可以实现在不同的数据集上进行模型训练和预测;

    🍀(1)建立数学模型的目的是对新数据的预测,基于测试数据计算的准确率能够更有效地评估模型表现。

    具体代码如下所示:

    1. # iris数据加载
    2. from sklearn import datasets
    3. from sklearn.neighbors import KNeighborsClassifier
    4. from sklearn.metrics import accuracy_score
    5. iris = datasets.load_iris()
    6. # 展示iris数据
    7. #print(iris.data)
    8. #print(iris.feature_names)
    9. #print(iris.target_names)
    10. # 确认数据类型
    11. #print(type(iris.data))
    12. # 确认维度
    13. #print(iris.data.shape)
    14. # 样本数据与结果分别赋值到“x”和“y”
    15. x = iris.data
    16. y = iris.target
    17. # 确认样本和输出数据维度
    18. #print(x.shape)
    19. #print(y.shape)
    20. # 建模四步骤
    21. """
    22. 1.调用需要使用的模型类
    23. 2.模型初始化(创建一个模型实例)
    24. 3.模型训练
    25. 4.模型预测
    26. """
    27. # 创建实例
    28. #knn = KNeighborsClassifier(n_neighbors=1)
    29. # 模型训练
    30. #knn.fit(x,y)
    31. # 模型预测
    32. #print(knn.predict([[1,2,3,4]]))
    33. knn5 = KNeighborsClassifier(n_neighbors=5)
    34. knn5.fit(x,y)
    35. y_pred = knn5.predict(x)
    36. #print(y_pred)
    37. #print(y_pred.shape)
    38. # 准确率:正确预测的比例
    39. # 用于评估分类模型的常用指标
    40. # 准确率计算
    41. print(accuracy_score(y,y_pred))

    运行结果如图所示: 

    通过以上案例可知,人工智能就其本质而言,是机器对人的思维信息过程的模拟,让它能像人一样思考。根据输入信息进行模型结构、权重更新,以实现最终优化。🌟🌟🌟


  • 相关阅读:
    真正的黑客,往往怀着一颗学徒的心!
    【计算机网络--物理层】编码和调制与数据交换方式
    手动安装nginx,ssl双证书引入。
    躬身入局,干货分享,2023年春招后端技术岗(Python)面试实战教程,Offer今始为君发
    python中常见关键字英文含义整理
    构建webpack知识体系 | 青训营笔记
    CCF CSP模拟题 201312-2 ISBN号码 题解
    doubbo 容错、负载均衡、降级
    React redux、react-redux的基本使用(笔记)
    VirtualBox的菜单栏被隐藏
  • 原文地址:https://blog.csdn.net/weixin_61961691/article/details/132841155