开放域对话生成前沿综述
——CCL 2022 自然语言处理国际前沿动态综述
总体概览
1 基础任务
1.1 对话多样性代表工作
多样性这块的工作今年来大多都是基于大模型的,使用比较多且比较有效的一个方法就是用 VAE 的方法.
论文标题:DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation
论文网址:https://openreview.net/forum?id=WuVA5LBX5zf
收 录 于:ACL 2022
方法:
- 将连续隐变量引入到 encoder-decoder 框架。
- encoder 决定隐空间的分布。
- 隐变量则从隐空间中抽样得到。
- encoder 和隐变量共同引导 decoder。
- 设置 4 个预训练任务:
- MLM: 增强 encoder 对上下文的理解;
- 回复生成: 提高 decoder 的规划能力;
- KL 散度: 最小化隐变量的后验分布和先验分布之间的差异;
- 词袋预测: 减少后验分布崩溃。
这个模型整体的框架还是使用 encoder-decoder 的结构,其中引入了隐变量,这个隐变量就是从 VAE 结构上的一个扩展。主要是包含了 4 个任务,其中一个比较重要的任务是 MLM (Masked Language Model) 任务,它主要是对话的编码,另外一个比较重要的任务就是回复生成,这两个任务定下来之后,剩下的就是我们中间怎么样在编码端和解码端进行先验和后验的对齐,这里就是使用 KL 散度 和 词袋预测 来保证编码和解码的有效性。
实验结果及结论:
- 模型在多个开放域对话集中实现了较好的性能
- 在回复生成方面具有更好的相关性和多样性
Tabel 2 中 BLEU-1 和 BLEU-2 评价的是相关性,Distinct-1 和 Distinct-2 评价的是多样性,无论是相关性和多样性,该模型都达到了 SOTA 的效果。
1.2 对话安全性的代表性工作
论文标题:SaFeRDialogues: Taking Feedback Gracefully after Conversational Safety Failures
论文网址:https://aclanthology.org/2022.acl-long.447/
收 录 于:ACL 2022
动机:
- 目前开放域对话系统在回复时会生成 攻击性的语句,与其交互的人类往往能针对这类语句能给出反馈信号 (模型生成的回复存在的问题)。
- 对于一个负面的反馈信号,现有的 SOTA 模型往往会进一步强化生成的观点 (攻击),或者 忽略 用户负面的反馈信息。
方法:
- 提出风险对话场景下的针对用户反馈信息进行礼貌回复的数据集 SD
- 风险场景来源于 Bot-Adversarial Dialogure (BAD) 数据,诱导对话模型产生不安全回复;
- 针对负面的反馈 修正回复 来促进对话的进行。
- 微调模型
- 结合 Blended Skill Talk 数据保证模型的对话能力;
- BST2.7 和 DialoGPT 来进行不安全回复的修正,也就是改写和重写的过程。
实验结果及结论:
其中 Tabel 4 为自动指标,Figure 1 为人工指标。
2 知识融入
2.1 基于常识知识对话的代表性工作
论文标题:Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation
论文网址:https://aclanthology.org/2022.acl-long.88/
收 录 于:ACL 2022
方法:
- 利用简单匹配的方法 对齐 对话集与常识知识图谱。
- 利用模板将知识图谱三元组 改写 成自然语言或问答形式。
- 利用构造的数据集 训练 模型
- 先思考:生成知识(使回复可解释)。
- 再回复:生成对话回复。
实验结果及结论:
2.2 情感对话代表性工作
论文标题:MISC: A Mixed Strategy-Aware Model integrating COMET for Emotional Support Conversation
论文网址:https://aclanthology.org/2022.acl-long.25/
收 录 于:ACL 2022
动机:
- 现有的情感对话用于心理支持有两个局限
- 采用对话级别的情感标签,过于粗糙;
- 大多侧重于在共情回复,而不是减少用户的焦虑。
方法:
-
提出了一个新的模型 MISC
- 预测出用户的细粒度的情绪状态 (分布);
- 使用混合策略进行情绪回复 (动作)。
-
融合 COMET 生成模型的常识知识辅助解码。
实验结果及结论:
- MISC 模型在自动评价指标上优于现有的情感对话方法,展现出细粒度的情感理解和移情能力;
- 人工评价显示 MISC 模型能更准确地选择回复策略,增强模型降低用户焦虑的能力;
- 人工评价显示 MISC 模型的回复包含更多的背景知识。
论文标题:CauAIN: Causal Aware Interaction Network for Emotion Recognition in Conversations
论文网址:https://www.ijcai.org/proceedings/2022/628
收 录 于:IJCAI 2022
动机:
- 在现有情感分析研究中,对情感的识别往往仅依据当前句子,而忽略了对话历史中存在的能够帮助识别当前情感的深层线索
- 对话某一方自身的话语中,存在可退里情感的因果联系 (Intra-cause)
- 对话双方的话语中,存在可以帮助推理对方情感的交互因果联系 (Inter-cause)
- 目前还没有相关的标注有情感线索的数据集,因此论文提出了一种利用常识知识自主寻找线索的方法来确定线索所在句子
方法:
- 利用 ATOMIC 常识知识语料库,获得对话历史每句的 6 种因果线索
- 3 种来自自身因果线索 (Intra-cause),xEffect,xReact,xWant
- 3 种来自交互因果线索 (Inter-cause),oEffect,oReact,oWant
- 利用因果线索,建模对话历史
- RoBERTa + GRU 建模对话历史文本
- 利用因果线索,获取对话历史每句与当前句情感的相关程度分数
- 利用相关程度分数加权后的向量进行分类获取情感
实验结果及结论:
- 不同数据集结果
- CauAIN 分别在三种情感分类数据集 IEMOCAP、DailyDialog、MELD 中均达到了 SOTA 效果
- CauAIN 模型中,自身因果关系和交互因果关系均对模型的推理起到了正向作用
2.3 多模态对话代表性工作
论文标题:Multimodal Dialogue Response Generation
论文网址:https://aclanthology.org/2022.acl-long.204/
收 录 于:ACL 2022
动机:
- 多模态开放域对话的回复生成,目前研究者们基本都是围绕检索任务进行研究,很少涉猎 生成任务
- 检索模型会受训练数据集的制约,无法在新场景下获得良好表现
- 多模态对话生成任务除文本生成外,还涉及难度较大的图片生成
- 多模态对话 数据集 由于人工构造难度大,真实数据涉及隐私等原因,可用数量很少
- 图像与文本难以 联合表示 的问题依然存在,图片会含有大量难以用文本表示的抽象信息
方法:
- 虽然文本对话+图片的相关数据集较少,但图片描述+图片的数据集很多
- 对于文本回复生成,采用常规的开放域 对话回复 生成方法
- 对于图片的生成,采用间接生成的策略,先依据对话文本生成 图片描述,再根据图片描述文本生成图片
- 采用基于 Transformer 的端到端模型 (Divter),分别单独预训练两个子模型
- Text-to-Text 模型,依据对话文本生成文本回复和图片描述
- Text-to-Image 模型,依据图片描述生成图片
实验结果及结论:
- 机器评价
- 文本生成任务采用 PPL、BLEU 和 Rouge 作为评价指标,图片生成任务采用 FID 和 IS 评价图片质量
- Divter 模型在图片描述生成、文本回复生成和图片生成三个任务上均取得了高于 baseline 的表现
- 人工评价
- Divter 模型在文本和图片方面都获得了更高的人工评价分数
3 任务迁移
3.1 辩论生成代表性工作
论文标题:Employing Argumentation Knowledge Graphs for Neural Argument Generation
论文网址:https://aclanthology.org/2021.acl-long.366/
收 录 于:ACL 2021
方法:
- 使用论证相关的知识图谱来控制论证的生成
- 用被编码的论证图和文本一起 fine-tune 预训练生成模型 (GPT-2)
辩论生成结果评价:
3.2 对话式推荐代表性工作
论文标题:User-Centric Conversational Recommendation with Multi-Aspect User Modeling
论文网址:https://dl.acm.org/doi/10.1145/3477495.3532074
收 录 于:SIGIR 2022
动机:
- 用户偏好在推荐工作中至关重要
- 对话式推荐属于推荐的一种,因此用户偏好的建模同样重要
方法:
-
用户偏好信息的种类
-
当前对话上下文语义及包含的属性
-
历史对话上下文语义及包含的属性
-
与当前用户相似的用户信息
-
UCCR 模型
实验结果及结论:
- 模型在中文与英文数据集、商品推荐和对话生成上都达到了 SOTA 效果
总结
- 基础任务
- 在相关性和多样性方面大模型成为了必备基础
- 可以通过改写策略减少不安全回复的产生,但安全的范畴和评价仍然需要系统性定义
- 知识融入
- 利用结构化知识提升对话模型性能的关键在于如何选取知识
- 情感信息可以看作是一种认知知识,用于指导情感对话和共情回复
- 大模型提升了多模态知识融合的效果,但如何应用在对话中仍然值得探索
- 任务迁移
- 辩论作为与对话相关的任务,目前重理解、轻生成的趋势没有改变,论辩挖掘与理解相关成果较少应用于生成中,原因可能由于评价指标的限制
- 对话式推荐的研究更加侧重于推荐系统的角度,对话的作用没有充分发挥