下面我们通过一个案例来了解一下每一个步骤是怎么工作的。
我们在超市买来⼀堆不同种类的啤酒和红酒,把买来的所有酒都标记出他的颜⾊和酒精度,将数据记录下来。这⼀步⾮常重要,因为数据的数量和质量直接决定了预测模型的好坏。
在这个例⼦中,我们的数据是很⼯整的,但是在实际情况中,我们收集到的数据会有很多问题,所以会涉及到数据清洗等⼯作。
当数据本身没有什么问题后,我们将数据分成3个部分:
研究⼈员和数据科学家多年来创造了许多模型。有些⾮常适合图像数据,有些⾮常适合于序列(如⽂本或⾳乐),有些⽤于数字数据,有些⽤于基于⽂本的数据。
在我们的例⼦中,由于我们只有2个特征,颜⾊和酒精度,我们可以使⽤⼀个⼩的线性模型,这是⼀个相当简单的模型。
⼤部分⼈都认为这个是最重要的部分,其实并⾮如此~ 数据数量和质量、还有模型的选择⽐训练本身重要更多(训练知识台上的3分钟,更᯿要的是台下的10年功)。
这个过程就不需要⼈来参与的,机器独⽴就可以完成,整个过程就好像是在做算术题。因为机器学习的本质就是将问题转化为数学问题,然后解答数学题的过程。
⼀旦训练完成,就可以评估模型是否有⽤。这是我们之前预留的验证集和测试集发挥作⽤的地⽅。评估的指标主要有 准确率、召回率、F值。
这个过程可以让我们看到模型如何对尚未看到的数是如何做预测的。这意味着代表模型在现实世界中的表现。
完成评估后,我们可以通过调整参数来进⼀步改进训练。当我们进⾏训练时,我们隐含地假设了⼀些参数,我们可以通过适当的调整这些参数让模型表现的更出⾊。
我们上⾯的6个步骤都是为了这⼀步来服务的。这也是机器学习的价值。这个时候,当我们买来⼀瓶新的酒,只要告诉机器他的颜⾊和酒精度,他就会告诉你,这时啤酒还是红酒了。
https://easyai.tech/ai-knowledge-hub/