Re14：读论文 ILLSI Interpretable Low-Resource Legal Decision Making

诸神缄默不语-个人CSDN博文目录

论文名称：Interpretable Low-Resource Legal Decision Making
论文ArXiv下载地址：https://arxiv.org/abs/2201.01164
论文AAAI官方下载地址：https://ojs.aaai.org/index.php/AAAI/article/view/21438/21187
论文官方GitHub项目，但是只放了README文件：RohanVB/Interpretable-Low-Resource-Legal-Decision-Making: Source code for paper “Interpretable Low-Resource Legal Decision Making”

本文是2022年AAAI论文。
本文的任务是输入案例事实描述文本，预测判决结果，即案例中提及的两个商标是否存在likelihood of confusion问题。
在这里插入图片描述

为了解决法律裁决任务中的可解释性问题，本文提出了预测中间标签的方法，并使用curriculum learning strategy解决了弱监督学习的问题，使模型可以利用到海量的仅用规则标注的noisy label的弱监督数据。

ILLSI这个模型简称是我编的。

1. Background

likelihood of confusion：新商标与旧已有商标太像，会引起混淆，所以不允许。

低资源：深度学习模型会对小样本标注数据表现好（我觉得怪怪的……）：(1) 迁移学习+finetune（对超参敏感）(2) 弱监督或远程监督
在这里插入图片描述

可解释性

2. 数据集

（说要公布但是还没有公布）由两部分组成：

525个样本：有从5个角度来衡量相似性的中间标签。分成训练集/验证集/测试集。
2852个样本：全都作为训练集。
augment：

我没有搞懂这个augment数据集的标签数据是怎么得来的，意思是跟clean数据中相似的句子有一样的中间标签？然后最后标签就直接求最大值？阈值是什么？我看跟人工筛选的规则也不一样啊，没有各feature之间的关联？

3. 模型

3.1 主模型

在这里插入图片描述
$f_1$ 在端到端baseline上预训练（交叉熵）
$f_2$ 在端到端baseline上预训练，损失函数：（Smooth L1 Loss：关注outliers）

$E_{intern}$ ：transformer→前馈神经网络
融合：

3.2 curriculum learning

实现中间标签生成时使用的curriculum learning：
在这里插入图片描述

3.3 不做多任务范式的原因

在这里插入图片描述
（实验部分也拿多任务作为baseline了）

4. 实验

4.1 baseline：RoBERTa

End-to-End
多任务

4.2 实验设置

超参数：
$f_2$ 的β设为1
$E_{intern}$ 隐藏层维度300（随便设的），transformer 6 layers with 6 heads，前馈维度512
batch size为8
一张 RTX 2080Ti machine with 11 GB of memory
curriculum learning的bins数为3（在calibration experiments中用5）
在这里插入图片描述