论文笔记：多标签学习——BP-MLL算法

原文
Zhang, M.-L., & Zhou, Z.-H. (2006). Multi-label neural networks with applications to functional genomics and text categorization. IEEE Transactions on Knowledge and Data Engineering, 18, 1338–1351.

符号系统

符号	含义	说明
$\mathcal{X}=\mathbb{R}^d$	$d$ 维特征空间
$\mathcal{Y}=\{1,2.\cdots,Q\}$	标签空间大小为 $Q$
$f:\mathcal{X\times Y}\rightarrow \mathbb R$	回归器	为每个标签预测一个概率
$h:\mathcal{X\rightarrow 2^Y}$	分类器	通过设置阈值对标签进行分类

学习过程
将训练数据输入神经网络，神经网络通过损失函数进行训练得到参数，输出的数据是神经网络经过计算之后预测每个标签在该输入数据中出现的可能性，最后通过与设置的阈值进行比较，得出结果。
如下图是作者给出的含有一层隐藏层的BP-MLL结构：
只有一层隐藏层的BP-MLL结构
其中， $a_i(i\in[1,d])$ 是输入的数据； $a_0,b_0$ 为偏置数据，初始值均为1，设置偏置可以提高激活函数的灵活性（控制其左右移动），以提高模型的拟合性； $\mathnormal {V,W}$ 是各层之间设置的权重值； $c_i(i\in [1,Q])$ 是模型针对每个标签计算的概率。

关键——损失函数的设计
全局的损失函数表示为：
$E=\sum\limits_{i=1}^mE_i \tag{1}$
其中 $E_i$ 是每个样本的平均损失值。
在多标签问题中，针对每个样本使用普通的损失和函数，则表示为：
$E_i=\sum\limits_{j=1}^Q(c_j^i-d_j^i)^2 \tag{2}$
在式（2）中的 $c_j^i$ 表示第 $j$ 个样本经过神经网络计算后，第 $i$ 标签的可能性； $d_j^i$ 表示实际标签值，若该标签属于该样本已有的标签集，则 $d_j^i=+1$ ，否则 $d_j^i=-1$ 。通过式（2），我们发现，当预测值越接近真时值时，损失越小，说明该方法是可行的，但也不难发现，该损失函数并没有考虑标签的相关性。
作者改进后的损失函数：
$E=\sum\limits_{i=1}^mE_i=\sum\limits_{i=1}^m\frac{1}{|Y_i||\overline{Y_i}|}\sum\limits_{(k,l)\in Y_i\times \overline{Y_i}}\exp ^{(-(c_k^i-c_l^i))}\tag{3}$
其中， $k\in Y_i,l\in \overline Y_i$ ， $\overline Y_i$ 是 $Y_i$ 的补集，表示第 $i$ 个样本中所有不被包含的标签集合。当 $c_k^i-c_l^i$ 越大时，对其惩罚就越小，意味着 $c_k^i$ 越应该接近1， $c_l^i$ 越接近0。乘以 $\frac{1}{|Y_i||\overline{Y_i}|}$ 是因为 $Y_i$ 与 $\overline Y_i$ 笛卡尔积后一共有 $|Y_i||\overline{Y_i}|$ 个元素，除以它获得当前样本的损失均值。观察式（3），我们不难发现它不仅关注能否正确给样本打标签还期望正确标签与样本中不含有标签的差值更大。所以与式（2）相比，式（3）还注重了 $Y_i$ 与 $\overline Y_i$ 的差异性。

小结
本篇论文主要设计了一个全局损失函数用在神经网路中解决多标签问题。这个新的损失函数与传统的一些损失函数比较，关注了标签之间的差异性。启发：设计损失函数能调整一个算法在训练过程中的侧重点。

相关阅读:
FreeRTOS学习笔记--概述
React路由组件传参的三种方式——params、search、state
Java中数组的定义与使用
Java学数据结构（4）——PriorityQueue（优先队列）& 二叉堆(binary heap)
数据一致性离不开的checkpoint机制
ChatGPT 在机器学习中的应用
YTM32的增强型定时器eTMR外设模块详解
【MySQL】MySQL参数调优与实战详解(调优篇)(实战篇)（MySQL专栏启动）
vue模版编译
8路高速光栅尺磁栅尺编码器4倍频计数转Modbus TCP网络模块 YL99-RJ45

原文地址：https://blog.csdn.net/Z__XY_/article/details/125505446