【机器学习笔记13】softmax多分类模型【上篇】完整流程与详细公式推导

前言

早在写逻辑回归二分类时就提到过多分类的问题，时隔两个月终于可以把当初这个坑填上了。softmax本应该属于深度学习的笔记，但归为机器学习的笔记，也没什么不妥。好了，闲话不多说。

本篇为softmax多分类器的原理与公式详细推导，关于softmax的具体代码实现和应用将在下一章说明。

softmax多分类器简介

softmax多分类器，一种基于softmax函数的分类器，它可以预测一个样本属于每个样本的概率。softmax一般用于神经网络的输出层，叫做softmax层。

不过不必担心，本篇文章对神经网络没有要求，即使没学过神经网络，也可以学会softmax，并在下一篇文章中学会自己实现softmax代码并完成一个具体的训练和预测示例。

如何利用softmax对样本进行分类

问题引入

如何使用训练集训练一个基于softmax函数的多分类模型，并使用该模型对测试集进行预测？

好吧，这个问题引入写的有点草率了，想了一会儿没啥好写的，就是多分类问题。

明确变量与集合

为了在接下来的推导过程中不搞混各变量的含义，我们需要先明确涉及的变量和集合。

设样本集含有N个样本,令样本集为X,则 $X = \{x^1,x^2,x^3...,x^N\}$ 。注意这里使用的上标，这样写是为了后续方便表示样本的特征。
设任意一个样本含有M个特征，令任意一个样本为 $x$ ,则 $x = (x_1,x_2,x_3,...,x_M)$ 。则第i个样本的第j个特征表示为 $x_j^i$ 。
设样本集共分为K类。记分类集为C,则 $C = \{c_1,c_2,...,c_K\}$ 。
设样本集对应的label集为Y,每一个样本对应一个y,则 $Y=\{y_1,y_2,y_3,..,y_N\}$ 。其中， $y_i$ 的值为 $\sim K-1$ 中的一个整数。

进一步处理

对label向量化

回顾二分类问题，样本的label要么是0，要么是1。现在变成多分类了，那么样本的label就变成了 $\sim K-1$ 中任意一个整数。这就不便于我们计算了，所以需要将label进行向量化：

若第i个样本属于第K个分类，即 $y_i=c_k$ 。那么对其进行向量化后：
$y_i = (0,...,1,...,0)$
仅在第K-1的位置上值为1，其他位置均为0。

示例

假设共有5个分类，样本 $x^i$ 属于第3类，则：
$y_i = (0,0,1,0,0)$

对样本特征进行加权组合

在进入softmax层之前，不得不提到特征的加权组合。在神经网络中，这一步的处理其实叫做隐藏层，不过这里就不对隐藏层做拓展了。

为了使softmax拥有一套完整的流程，我们这里对样本特征进行最简单的线性加权组合：

现在有任意一个样本 $x = (x_1,x_2,x_3,...,x_M)$ 。 $x_i$ 表示该样本的第 $i$ 个特征。令
$z_k = w_k^Tx+b_k = (\sum_{i=1}^Mw_{k,i}x_i)+b_k$
现在多出了几个参数，下面对它们进行说明：

$z$ ：对样本 $x$ 的特征进行线性加权组合后得到的输出， $z = (z_1,z_2,...,z_K)$ 。有几个分类就有就有几个 $z_k$ 。
$z_k$ ：表示对样本的特征进行权值向量为 $w_k$ 的线性变换后得到的值，为标量。
$w_k$ ：第k个权值向量，维度与 $x$ 一样， $(1, N)$ 。

将 $b_k$ 放在 $w_k$ 里：

只需要将 $w_k$ 加一列，即 $w_k = (...,b_k)$ ，

然后再往 $x$ 加一列，即 $x = (..., 1)$ 。

就可以将 $z_k$ 的表达式变为: $z_k = w_k^Tx$

图示（不含 $b_k$ 的情况）：

softmax激活函数

激活函数也是神经网络里的称呼，直接叫softmax函数也没问题。

简单来说，softmax预测分类是作用在 $z_k$ 上的，这也是为什么之前我们需要对样本特征进行加权组合得到 $z_k$ 。接下来给出公式：
$a_k = P(y=c_k|x,\theta) = \frac{e^{z_k}}{\sum_{i=1}^Ke^{z_i}},k = 0,1,...,K-1$

稍微解释一下这个公式：在模型参数 $\theta$ 固定，且样本已知的情况下，该样本属于第K个分类的概率等于后面那一坨公式。(本文中 $\theta$ 即各权值向量 $w_k$ )

通过softmax激活函数得到各分类预测概率

将一个样本对应的 $a_k$ 全部算出来，这些 $a_k$ 就是该样本属于各分类的预测概率。

示例

假设一个样本 $x$ 的特征进行加权组合后得到的 $z$ 为：
$z = (0.6, 1.1, - 1.5, 1.2, 3.2, - 1.1)$
经过softmax激活后：
$a = (0.055, 0.090, 0.0067, 0.10, 0.74, 010)$
比如其中的0.74表示：在已知权值 $w$ 的情况下，某一个样本 $x$ 属于第5个分类的概率为0.74。

那么如果这是在做测试集的测试，根据“属于谁的概率最大就选谁”的原则，我们可以说x的预测分类为第5个分类，即 $l ab e l = 4$ 。不过在训练集训练模型时，我们只求到x属于每个类别的概率。

在神经网络中，将上述过程描述为神经网络的正向传播。

总结softmax的正向传播流程

固定模型参数 $\theta$ ,在本篇文章中， $\theta$ 即各权值向量 $w_k$ 。
对于一个样本 $x = (x_1,x_2,...,x_M)$ ，先对它的特征做加权组合得到 $z = (z_1,..,z_K)$ 。在本篇文章中，我们仅做了一次线性加权组合。而在神经网络中，可能会对x的特征做多次变换，即隐藏层不止一层。
对 $z$ 进行softmax激活得到 $a = (a_1,...a_K)$ ， $a_k$ 表示样本x属于第k类的概率。

引出新的问题

我们进行正向传播时，是在模型参数 $\theta$ 已知的情况下进行。而我们现在已知的只有训练集，怎么根据训练集得到这个模型参数 $\theta$ 呢？

答案是迭代。我们可以随机初始化模型参数 $\theta$ ，然后通过某种算法一轮一轮的更新 $\theta$ ,直到 $\theta$ 收敛。

在softmax分类器中，我们使用梯度下降算法对 $\theta$ 进行优化。关于梯度下降算法请见相关文章【1】，在这里就不多说了。

softmax损失函数

损失函数之前的文章已经提到过N次了，不过这里还是说一下。损失函数是用来衡量label预测值和真实值之间的某种差距的函数。常见的损失函数有0-1损失函数、对数损失函数、平方损失函数等等。每种模型需要选择的损失函数不同。如果损失函数选择不当，会对优化过程造成很大影响，详情请见相关文章【2】。

损失函数和代价函数的区别

说来惭愧，我一直都没真正搞清楚损失函数和代价函数的区别，所以之前写文章可能存在这两个词汇混用的问题。这次专门区分一下两者的区别。

损失函数

损失函数（Loss Function ）是定义在单个样本上的，描述单个样本的label预测值与真实值的某种差距。一般记为 $L(\hat y,y)$ 。

代价函数

代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。一般记为 $J (...)$ 。“...”指代的一般为模型未知参数，有许多种写法。
$\frac{1}{N}\sum_{i=0}^{N-1}L(\hat y,y)$
其中，N为本次参加训练的样本个数。

我们进行梯度下降时使用的是代价函数求偏导，而对代价函数求偏导其实只需要对损失函数求偏导，然后求个平均就是代价函数求偏导。所以接下来的求偏导过程写的是对损失函数求偏导。不过在最后的总结时，会对损失函数求偏导的结果求平均变成代价函数求偏导的结果。

softmax的损失函数表达式

softmax分类器选用的是交叉熵损失函数。有的文章也说是选用对数损失函数。这是因为：

对数损失函数(Log loss function)和交叉熵损失函数(Cross-entroy loss function)表达式本质式一样的。不过这两种损失函数对应的上一层结构不同，对数损失函数经常对应的是Sigmoid函数的输出，用于二分类问题；而交叉熵损失函数经常对应的是Softmax函数的输出，用于多分类问题。详情请见相关文章【3】。

$L(\hat y,y) = -\sum_{k=1}^Ky_kloga_k$

注，log通常以2为底，有的文章也会使用ln。

其中：

$\hat y$ : 单个训练样本label预测值， $\hat y = (a_1,...,a_k)$ ; 例如： $\hat y = (0.055,0.090,0.0067,0.10,0.74,010)$
$y$ :单个训练样本label真实值, $y = (y_1,...,y_k)$ ; 例如： $y = (0, 0, 0, 0, 1, 0)$
$y_k$ : 单个训练样本属于第k类的真实值，取值0或1
$a_k$ ：单个训练样本属于第k类的预测值，为一个概率值

对代价函数进行梯度下降

梯度下降算法步骤

回顾梯度下降算法的步骤：

初始化模型未知参数 $W = (w_1,..,w_K)$ ，其中每一个 $w_k$ 为向量，维度与样本x相同。K的值与类别数相同。
重复进行以下公式直到收敛：

$w_k = w_k - \alpha \frac{\partial J}{\partial w_k},\quad k = 0,1,...,K-1$

对上述公式进行说明：

为什么没有 $b_k$ ?

$b_k$ 被融合到向量 $w_k$ 里了。最后总结结果时会单独把 $b_k$ 提出来。

$\alpha$ 是什么？

学习率，是需要人工调整的超参数。它控制的是梯度下降中每一步的跨度大小。关于学习率更多说明请见相关文章【1】。

这个公式里明明是对代价函数J求偏导，为什么下面推导的是损失函数求偏导？

刚才在区分代价函数和损失函数时有说过，对求得的损失函数偏导求平均就是代价函数求偏导的结果。

损失函数求偏导的详细推导

此部分参考了文章：参考文章【1】

之前提到的softmax损失函数：
$L(\hat y,y) = -\sum_{k=1}^Ky_kloga_k~~~~~(1)$
其中，

\begin{aligned} a_{k} = \frac{e^{z_{k}}}{\sum_{i = 1}^{K} e^{z_{i}}} (2) \\ z_{k} = w_{k}^{T} x = \sum_{i = 1}^{M} w_{k, i} x_{i} (3) \\ k = 0, 1, . . ., K - 1 \end{aligned}

a_{k} = \frac{e ^{z_{k}}}{\sum _{i = 1}^{K} e ^{z_{i}}} (2) z_{k} = w_{k}^{T} x = i = 1 \sum M w_{k, i} x_{i} (3) k = 0, 1, ..., K - 1

现在需要求：

\frac{\partial L(\hat y,y)}{\partial w_k}

根据链式求导法则,有：
$\frac{\partial L(\hat y,y)}{\partial w_k} = \frac{\partial L(\hat y,y)}{\partial z_k}·\frac{\partial z_k}{\partial w_k}~~~~(4)$

1 求解 $\frac{\partial z_k}{\partial w_k}$

\begin{aligned} \frac{\partial z_{k}}{\partial w_{k}} & = \frac{\partial (w_{k}^{T} x)}{\partial w_{k}} = x (5) \end{aligned}

\frac{\partial z _{k}}{\partial w _{k}} = \frac{\partial ( w _{k}^{T} x )}{\partial w _{k}} = x (5)

2 求解 $\frac{\partial L(\hat y,y)}{\partial z_k}$

这也是整个softmax最关键的一步，很多教程推完这里就结束了。

根据（2）式， $a_j$ 均包含 $z$ 的所有分量,所以要求 $z_k$ 的偏导，所以对于 $z_k$ 的偏导，每一个 $a_j$ 都有贡献：
$\frac{\partial L(\hat y,y)}{\partial z_k} = \sum_{j=1}^K[\frac{\partial L(\hat y,y)}{\partial a_j}\frac{\partial a_j}{\partial z_k}]~~~~(6)$
2.1 求解 $\frac{\partial L(\hat y,y)}{\partial a_j}$

\begin{aligned} \frac{\partial L (\hat{y}, y)}{\partial a_{j}} & = \frac{\partial (- \sum_{j = 1}^{K} y_{j} l o g a_{j})}{\partial a_{j}} = - \frac{y_{j}}{a_{j}} (7) \end{aligned}

\frac{\partial L ( y ^ , y )}{\partial a _{j}} = \frac{\partial ( - \sum _{j = 1}^{K} y _{j} l o g a _{j} )}{\partial a _{j}} = - \frac{y _{j}}{a _{j}} (7)

2.2 求解 $\frac{\partial a_j}{\partial z_k}$

刚才说过，每一个 $a_j$ 都要对 $z_k$ 求导，那自然有两种情况： $j = k$ 和 $\neq k$ 。现在对这两种情况分开讨论。

2.2.1 当 $\neq k$

\begin{aligned} \frac{\partial a_{j}}{\partial z_{k}} & = \frac{\partial (\frac{e^{z_{j}}}{\sum_{i = 1}^{K} e^{z_{i}}})}{\partial z_{k}} \\ = - e^{z_{j}} \frac{1}{(\sum_{i = 1}^{K} e^{z_{i}})^{2}} e^{z_{k}} \\ = - \frac{e^{z_{j}}}{\sum_{i = 1}^{K} e^{z_{i}}} \cdot \frac{e^{z_{k}}}{\sum_{i = 1}^{K} e^{z_{i}}} \\ = - a_{j} a_{k} (8) \end{aligned}

\frac{\partial a _{j}}{\partial z _{k}} = \frac{\partial ( \frac{e ^{z_{j}}}{\sum _{i = 1}^{K} e ^{z_{i}}} )}{\partial z _{k}} = - e^{z_{j}} \frac{1}{( \sum _{i = 1}^{K} e ^{z_{i}} ) ^{2}} e^{z_{k}} = - \frac{e ^{z_{j}}}{\sum _{i = 1}^{K} e ^{z_{i}}} \cdot \frac{e ^{z_{k}}}{\sum _{i = 1}^{K} e ^{z_{i}}} = - a_{j} a_{k} (8)

2.2.2 当 $j = k$

\begin{aligned} \frac{\partial a_{j}}{\partial z_{k}} & = \frac{\partial a_{k}}{\partial z_{k}} \\ = \frac{\partial (\frac{e^{z_{k}}}{\sum_{i = 1}^{K} e^{z_{i}}})}{\partial z_{k}} \\ = \frac{e^{z_{k}} \sum_{i = 1}^{K} e^{z_{i}} - (e^{z_{k}})^{2}}{(\sum_{i = 1}^{K} e^{z_{i}})^{2}} \\ = \frac{e^{z_{k}}}{\sum_{i = 1}^{K} e^{z_{i}}} (1 - \frac{e^{z_{k}}}{\sum_{i = 1}^{K} e^{z_{i}}}) \\ = a_{k} (1 - a_{k}) (9) \end{aligned}

2.2.3 将（7）、（8）、（9）代入（6）求解

\begin{aligned} \frac{\partial L (\hat{y}, y)}{\partial z_{k}} & = \sum_{j = 1}^{K} [\frac{\partial L (\hat{y}, y)}{\partial a_{j}} \frac{\partial a_{j}}{\partial z_{k}}] \\ = \sum_{j = 1}^{K} [- \frac{y_{j}}{a_{j}} \frac{\partial a_{j}}{\partial z_{k}}] \\ = - \frac{y_{k}}{a_{k}} \frac{\partial a_{k}}{\partial z_{k}} + \sum_{j = 1, j \neq k}^{K} [- \frac{y_{j}}{a_{j}} \frac{\partial a_{j}}{\partial z_{k}}] \\ = - \frac{y_{k}}{a_{k}} a_{k} (1 - a_{k}) + \sum_{j = 1, j \neq k}^{K} [- \frac{y_{j}}{a_{j}} \cdot - a_{j} a_{k}] \\ = y_{k} (a_{k} - 1) + \sum_{j = 1, j \neq k}^{K} y_{j} a_{k} \\ = - y_{k} + y_{k} a_{k} + \sum_{j = 1, j \neq k}^{K} y_{j} a_{k} \\ = - y_{k} + a_{k} \sum_{j = 1}^{K} y_{j} (10) \end{aligned}

ok,到这里已经初步求出了损失函数对

z_k

的偏导。不过我们还可以对它进一步优化，所以我们现在考虑y的特点，前面说过：

$y$ :单个训练样本label真实值, $y = (y_1,...,y_k)$ ; 例如： $y = (0, 0, 0, 0, 1, 0)$

也就是说向量y中只有一个值为1,所以 $\sum_{j=1}^Ky_j = 1$ 。

于是(9)式将变为:
$\frac{\partial L(\hat y,y)}{\partial z_k} = a_k-y_k~~~~(11)$
其中，

$a_k$ : 单个训练样本属于第k类的预测值，为一个概率值。
$y_k$ : 单个训练样本属于第k类的真实值，取值0或1

到此为止，softmax最核心的偏导已经推导完毕。多么简约美妙的一个公式！

3.将（5）、（11）代入（4）求解L对 $w_k$ 的偏导

\begin{aligned} \frac{\partial L (\hat{y}, y)}{\partial w_{k}} & = \frac{\partial L (\hat{y}, y)}{\partial z_{k}} \cdot \frac{\partial z_{k}}{\partial w_{k}} \\ = (a_{k} - y_{k}) x \end{aligned}

\frac{\partial L ( y ^ , y )}{\partial w _{k}} = \frac{\partial L ( y ^ , y )}{\partial z _{k}} \cdot \frac{\partial z _{k}}{\partial w _{k}} = (a_{k} - y_{k}) x

3.1 取出

b_k

最开始说了，我们计算时先把 $b_k$ 融进 $w_k$ 了。现在将它取出来：

因为把 $b_k$ 融合进 $w_k$ 后， $w_k$ 最后一个分量为 $b_k$ 。而 $x$ 最后一个分量为1。所以 $z_k$ 对 $w_k$ 求偏导后， $b_k$ 那个分量对应的偏导就是1。所以
$\frac{\partial L(\hat y,y)}{\partial b_k} =a_k-y_k$

结果总结

好了，现在来总结一下softmax损失函数求偏导的结果：

\begin{aligned} \frac{\partial L (\hat{y}, y)}{\partial w_{k}} = (a_{k} - y_{k}) x \\ \frac{\partial L (\hat{y}, y)}{\partial b_{k}} = a_{k} - y_{k} \end{aligned}

\frac{\partial L ( y ^ , y )}{\partial w _{k}} = (a_{k} - y_{k}) x \frac{\partial L ( y ^ , y )}{\partial b _{k}} = a_{k} - y_{k}

更新权重

还记得梯度下降的步骤吗？

梯度下降更新权重时，是用的代价函数的偏导更新的，我们刚才求导的只是损失函数的偏导。所以还需要对它们求平均。

\begin{aligned} \frac{\partial J}{\partial w_{k}} = \frac{1}{N} \sum_{i = 0}^{N - 1} (a_{k} - y_{k}) x \\ \frac{\partial J}{\partial b_{k}} = \frac{1}{N} \sum_{i = 0}^{N - 1} (a_{k} - y_{k}) \end{aligned}

\frac{\partial J}{\partial w _{k}} = \frac{1}{N} i = 0 \sum N - 1 (a_{k} - y_{k}) x \frac{\partial J}{\partial b _{k}} = \frac{1}{N} i = 0 \sum N - 1 (a_{k} - y_{k})

其中，N为本次参加训练的样本个数。另外，上述式子省去了上标

i

，上标

i

表示这是第i个样本。

顺带一提，像上面这种根据推出的结果反过去更新权重的流程，在神经网络中被称为反向传播。

总结

softmax多分类模型的训练流程

给定训练集X，训练集X共分为K类:

随机初始化模型未知参数 $\theta$ ，本篇文章中为随机初始化权重向量 $w_k,b_k,k=1,2,...,K-1$ 。其中， $w_k$ 为向量， $b_k$ 为标量。
梯度下降算法迭代更新模型参数直至收敛，每一轮具体流程如下：
1. 先通过正向传播求得本轮训练样本预测值。
2. 反向传播更新模型参数：
$\begin{aligned} w_{k} = w_{k} - α \frac{\partial J}{\partial w_{k}} = w_{k} - α \frac{1}{N} \sum_{i = 0}^{N - 1} (a_{k} - y_{k}) x, k = 0, 1, . . ., K - 1 \\ b_{k} = b_{k} - α \frac{\partial J}{\partial b_{k}} = b_{k} - α \frac{1}{N} \sum_{i = 0}^{N - 1} (a_{k} - y_{k}), k = 0, 1, . . ., K - 1 \end{aligned}$
wk=wk−α∂wk∂J=wk−αN1i=0∑N−1(ak−yk)x,k=0,1,...,K−1bk=bk−α∂bk∂J=bk−αN1i=0∑N−1(ak−yk),k=0,1,...,K−1

注意：上述公式省去了上标i，上标i表示这是第i个样本。另外别把学习率的 $\alpha$ 和预测值 $a$ 搞混了，我写完了文章才发现这两个符号没处理好（写的长得比较像）。

softmax多分类模型的预测流程

经过训练后，模型参数已经确定。现在只需要用这些参数对需要预测的数据跑一遍正向传播就行。

不过可能在求出预测值后，需要加一步判断：哪个类别的概率最大，就认为该样本属于哪一类。

到此，整个softmax分类器说明完毕。

softmax多分类器的具体代码实现和应用

关于softmax的具体代码实现和应用将在下一篇文章介绍。在下一篇文章中，将会以经典的鸢尾花数据集为例，对其进行softmax多分类的手动代码实现。
下篇文章：【机器学习笔记14】softmax多分类模型【下篇】从零开始自己实现softmax多分类器（含具体代码与示例数据集）_Twilight Sparkle.的博客-CSDN博客

相关阅读:
2.1 JAVA基础语法
scp通过跳板机向服务器传文件的方法
微服务框架 SpringCloud微服务架构 8 Gateway 网关 8.6 过滤器链执行顺序
灰色关联分析(Grey Relational Analysis, GRA)
数据科学与机器学习案例之Stacking集成方法对鸢尾花进行分类
【AGC】管理签名密钥相关问题
使用viewerJs替换fastadmin中表格图片预览功能，实现鼠标缩放旋转等功能
冠军方案！2023第二届广州·琶洲算法大赛
企业制程控制需要注意什么？
【深入浅出Spring6】第一期——入门

原文地址：https://blog.csdn.net/qq_52466006/article/details/127525149