• 机器学习基础16-建立预测模型项目模板


    机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实
    践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的

    预测模型项目模板

    不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本章将介绍一个通用的机器学习的项目模板,创建这个模板总共有六个步骤。

    • 端到端地预测(分类与回归)模型的项目结构。
    • 如何将前面学到的内容引入到项目中。
    • 如何通过这个项目模板来得到一个高准确度的模板。
      机器学习是针对数据进行自动挖掘,找出数据的内在规律,并应用这个规律来预测新数据。

    在这里插入图片描述
    端到端地解决机器学习的问题是非常重要的。可以学习机器学习的知识,可以实践机器学习的某个方面,但是只有针对某一个问题,从问题定义开始到模型部署为止,通过实践机器学习的各个方面,才能真正掌握并应用机器学习来解决实际问题。

    在部署一个项目时,全程参与到项目中可以更加深入地思考如何使用模型,以及勇于尝试用机器学习解决问题的各个方面,而不仅仅是参与到自己感兴趣或擅长的方面。一个很好的实践机器学习项目的方法是,使用从 UCI 机器学习仓库(http://archive.ics.uci.edu/ml/datasets.html)获取的数据集开启一个机器学习项目。如果从一个数据集开始实践机器学习,应
    、该如何将学到的所有技巧和方法整合到一起来处理机器学习的问题呢?

    分类或回归模型的机器学习项目可以分成以下六个步骤:

    (1)定义问题。
    (2)理解数据。
    (3)数据准备。
    (4)评估算法。
    (5)优化模型。
    (6)结果部署。

    有时这些步骤可能被合并或进一步分解,但通常是按上述六个步骤来开展机器学习项目的。为了符合Python的习惯,在下面的Python项目模板中,按照这六个步骤分解整个项目,在接下来的部分会明确各个步骤或子步骤中所要实现的功能。

    机器学习项目的Python模板

    下面会给出一个机器学习项目的Python模板。

    在这里插入图片描述

    当有新的机器学习项目时,新建一个Python文件,并将这个模板粘贴进去,再按照前面章节介绍的方法将其填充到每一个步骤中。

    各步骤的详细说明

    接下来将详细介绍项目模板的各个步骤。

    步骤1:定义问题

    主要是导入在机器学习项目中所需要的类库和数据集等,以便完成机器学习的项目,包括导入Python的类库、类和方法,以及导入数据。同时这也是所有的配置参数的配置模块。当数据集过大时,可以在这里对数据集进行瘦身处理,理想状态是可以在 1 分钟内,甚至是30秒内完成模型的建立或可视化数据集。

    步骤2:理解数据

    这是加强对数据理解的步骤,包括通过描述性统计来分析数据和通过可视化来观察数据。在这一步需要花费时间多问几个问题,设定假设条件并调查分析一下,这对模型的建立会有很大的帮助。

    步骤3:数据准备

    数据准备主要是预处理数据,以便让数据可以更好地展示问题,以及熟悉输入与输出结果的关系。包括:

    • 通过删除重复数据、标记错误数值,甚至标记错误的输入数据来清洗数据。
    • 特征选择,包括移除多余的特征属性和增加新的特征属性。
    • 数据转化,对数据尺度进行调整,或者调整数据的分布,以便更好地展示问题。

    要不断地重复这个步骤和下一个步骤,直到找到足够准确的算法生成模型。


    步骤4:评估算法

    评估算法主要是为了寻找最佳的算法子集,包括:

    • 分离出评估数据集,以便于验证模型。
    • 定义模型评估标准,用来评估算法模型。
    • 抽样审查线性算法和非线性算法。
    • 比较算法的准确度。

    在面对一个机器学习的问题的时候,需要花费大量的时间在评估算法和准备数据上,直到找到3~5种准确度足够的算法为止。

    步骤5:优化模型

    当得到一个准确度足够的算法列表后,要从中找出最合适的算法,通常有两种方法可以提高算法的准确度:

    • 对每一种算法进行调参,得到最佳结果。
    • 使用集合算法来提高算法模型的准确度。

    步骤6:结果部署

    一旦认为模型的准确度足够高,就可以将这个模型序列化,以便有新数据时使用该模型来预测数据。

    • 通过验证数据集来验证被优化过的模型。
    • 通过整个数据集来生成模型。
    • 将模型序列化,以便于预测新数据。

    做到这一步的时候,就可以将模型展示并发布给相关人员。当有新数据产生时,就可以采用这个模型来预测新数据。

    这个模板适用于分类或回归问题。

  • 相关阅读:
    spark shuffle写操作——UnsafeShuffleWriter
    廉价的全闪存雷电 NAS 折腾笔记:NUC9 操作系统踩坑
    护网行动为什么给的钱那么多
    不同网段的IP怎么互通
    Rust常用特型之Drop特型
    Java零基础入门看着一篇就够了
    spark复习
    用于Python降维的线性判别分析
    【信息学CSP-J近16年历年真题64题】真题练习与解析 第9题之数字游戏
    基于python flask的旅游景点评论数据可视化大屏实现,包括数据采集
  • 原文地址:https://blog.csdn.net/hai411741962/article/details/132578298