机器学习实操的七个步骤

下面我们通过一个案例来了解一下每一个步骤是怎么工作的。

案例：区分红酒和啤酒

我们在超市买来⼀堆不同种类的啤酒和红酒，把买来的所有酒都标记出他的颜⾊和酒精度，将数据记录下来。这⼀步⾮常重要，因为数据的数量和质量直接决定了预测模型的好坏。

在这个例⼦中，我们的数据是很⼯整的，但是在实际情况中，我们收集到的数据会有很多问题，所以会涉及到数据清洗等⼯作。
当数据本身没有什么问题后，我们将数据分成3个部分：

研究⼈员和数据科学家多年来创造了许多模型。有些⾮常适合图像数据，有些⾮常适合于序列（如⽂本或⾳乐），有些⽤于数字数据，有些⽤于基于⽂本的数据。
在我们的例⼦中，由于我们只有2个特征，颜⾊和酒精度，我们可以使⽤⼀个⼩的线性模型，这是⼀个相当简单的模型。

⼤部分⼈都认为这个是最重要的部分，其实并⾮如此~ 数据数量和质量、还有模型的选择⽐训练本身重要更多（训练知识台上的3分钟，更᯿要的是台下的10年功）。
这个过程就不需要⼈来参与的，机器独⽴就可以完成，整个过程就好像是在做算术题。因为机器学习的本质就是将问题转化为数学问题，然后解答数学题的过程。

⼀旦训练完成，就可以评估模型是否有⽤。这是我们之前预留的验证集和测试集发挥作⽤的地⽅。评估的指标主要有准确率、召回率、F值。
这个过程可以让我们看到模型如何对尚未看到的数是如何做预测的。这意味着代表模型在现实世界中的表现。

完成评估后，我们可以通过调整参数来进⼀步改进训练。当我们进⾏训练时，我们隐含地假设了⼀些参数，我们可以通过适当的调整这些参数让模型表现的更出⾊。

我们上⾯的6个步骤都是为了这⼀步来服务的。这也是机器学习的价值。这个时候，当我们买来⼀瓶新的酒，只要告诉机器他的颜⾊和酒精度，他就会告诉你，这时啤酒还是红酒了。

https://easyai.tech/ai-knowledge-hub/

相关阅读:
杨辉三角-
Compose 动画
使用BeanShell写入内容到文件【JMeter】
HTTPS && Tomcat && Servlet && 博客系统 && 软件测试的概念 && Linux
Oracle数据泵导入和导出命令
NIO学习笔记
Netty2
开源后台管理系统（go-vue-admin）
docker安装【zookeeper】&【kafka】&【provectuslabs/kafka-ui】记录
【C++】堆栈的使用 | 堆栈的大小 | 动静态分配问题

原文地址：https://blog.csdn.net/David_house/article/details/126156099