该研究探讨了大型语言模型(如GPT-3.5)与小型语言模型(如BERT)相比,在检测假新闻方面的有效性。研究结果表明,尽管大型语言模型能够提供有价值的多视角依据,但性能不如微调的小型语言模型,例如BERT。该研究将这种表现不佳归因于大型语言模型在选择和整合这些依据形成连贯结论方面的局限性。因此,该文提出大型语言模型不应该替代小型语言模型,但可以作为顾问,增强小型语言模型的检测能力。因此,论文提出了ARG,旨在有效地将大型语言模型的洞察力整合到小型语言模型中。实验显示,这种混合方法的表现优于传统模型,有效结合了大模型和小模型的优势。
通过大模型和小模型的性能对比,我们可以发现:
性能比较:尽管大型语言模型通常被认为功能强大,但在所有四种提示方法中,它们的性能都不及经过特定任务微调的小型语言模型(SLM),例如BERT。这表明在特定任务上,小型模型通过微调获得的任务相关知识对于性能至关重要。
提示方法的效果:少量样本提示方法(Few-Shot Prompting)的性能优于零样本提示方法(Zero-Shot Prompting),表明在此任务中使用相关样本是重要的。然而,引入样本的数量只是缩小了与SLM的性能差距,并没有超越SLM。
思维链提示(CoT)的额外益处:在零样本设置中,特别是在英文数据集上,思维链提示带来了额外的性能增益。这说明了有效使用理由可能需要更仔细的设计,以及思维链方法在解析复杂问题时可能的优势。
作者也进一步从文本描述、常识、事实性分析等方向验证了大模型的多视角分析能力:
首先,输入为新闻文本以及LLM生成的文本描述、常识原理。分别对新闻文本和依据进行编码。然后,对新闻文本及其原理进行交互,最后聚合新闻文本特征和交互特征,做出预测。
使用bert分别对新闻文本和LLM生成的原理进行特征提取。
News-Rationale Interaction:这是一个交叉注意力+平均池化模块。例如:f(t->x)由Rt为query,x提供key和value的交叉注意力,再经过池化得到
LLM Judgement Prediction:对原理的特征Rt和Rc进行预测,预测其是否为虚假新闻。起到辅助头的作用。
Rationale Usefulness Evaluation:对f(x->t)与f(x->c)再连一个辅助头。
将新闻特征与交互特征进行加权,预测其是否为虚假新闻
如上图所示, 对ARG进行蒸馏,保留ARG中新闻编码器(ecoder)和分类器,并训练一个rationale-aware feature simulator(用Transformer实现)和一个注意力模块来内化知识。