• 相似度系列-6:单维度方法:Evaluating Coherence in Dialogue Systems using Entailment


    Evaluating Coherence in Dialogue Systems using Entailment

    coherence 英文中意味着连贯性、条理性。
    这篇文章是面向对话应用的,更加关注于对话中上下位的连贯性。
    
     1. 直接转换为 NLI问题,premise-hypothesis问题。——
     2. 数据集是自己构造的。——数据集的质量保证上,好像是引入了5个人工检验。
     3. 连贯性是通过分级评价得到的,三个级别.,矛盾、中性、一致的。这种分类体系下真的能够较好的发现人类和机器之间的correlation吗?
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    抓住评测矩阵中的某一项指标做评估,比如一致性、完整性或者其他的性质。

    这篇文章评估的是对话系统中的连贯性。

    摘要部分

    摘要部分,写的ok .
    背景:Evaluating open-domain dialogue systems is difficult to the diversity of possible correct answers.
    前人的研究:Automatic metrics such as BLEU correlately weak with human annotations,resulting in a significant bias in different models and datasets.
    我们的研究:In this paper ,we present interpertable metrics for evaluating topic cohence by making use of distributed sentence representations.
    结果:Results show that our metrics can be used as a surrogate for human judgement.

    美 /ˈsʌrəɡət/,英 /'sʌrəɡət/
    v. 代理, 【法】代替
    n. 代理人, 代替, 〈英〉(宗教法庭上)主教代表, 【心】代用人物
    adj. 替代的, 代用的

    introduction部分

    引入部分:
    对话系统是什么?对话系统最关键的困难是什么?连贯性是评估对话系统最关键的指标
    A challenging task of building dialogue systems lies in evaluating their systems.
    什么情况下是好的dialogue? 能够sustain coherence的dialogue是好的对话。
    最后1-2段介绍自己的工作:transform the consistency of dialogue system as the NLI question.
    NLI 是natural language inference problem
    NLI:premise 和hypothesis
    NLI的重点是认识到一个假设是否是从一个前提中推断出来的

    说明了为神魔要选择NLI? The intuition 这种选择背后的直觉是,人类对话中的话语往往遵循一个一致的、连贯的流程,每个话语都可以从之前的互动中推断出来。

    模型部分

    核心思路:Given a conversation history H and a generated response r, the goal is to understand the premise-hypothesis pair((H, r)) is entailing.
    在表征模型预测结果时,建模的问题类型是分类。
    Learn a function to predict one of the three catagorys (含义一致/矛盾/中性) given premise-hypothsis pairs.

    定义何为不连贯?何为连贯?
    如果一个机器的回答与它以前的话语直接矛盾,或者在整个对话过程中遵循不合逻辑的推理,就可以认为是不连贯的。

    数据部分

    数据部分采用人工合成的方法。
    premise-hypothesis pairs, namely InferConvAI.

    模型部分

    use the entailment model to predict a score for the generated utterances.

    diagonal history is premise and generated response r as hypothesis.

    These models were trained on the InferConvAI dataset. During evaluation, we use our test dialogue corpus from Reddit and OpenSubtitles, in which the majority vote of the 4-scale human rating constitutes the labels

    评价指标效果

    (1)三个baseline
    在评价指标效果时,三个baseline,three
    textual similarity metrics (Liu et al., 2016) based
    on word embeddings: Average (A), Greedy (G),
    and Extrema (E)

    是将sentence视为Word的集合,忽视了句子词序

    (2)semantic similarity,它衡量生成的反应和对话历史中的语料之间的距离。

    Universal Sentence Encoder (USE) (Cer et al., 2018)
    带下标数字的表示:第几轮对话
    Abert表示使用bert得到sentence的embedding,然后取平均作为最终的embedding。

    SS应该是在整个句子的前提计算NLI的分值。
    A/G/E是在单个Word的基础上,计算NLI的分值。

    在这里插入图片描述

  • 相关阅读:
    第二章 第八节:列表的增删改查
    「C++」简单模拟
    基于I2C协议的OLED显示(利用U82G库)
    SizeBalanceTree
    图片太大,怎么压缩图片大小?
    java计算机毕业设计河南口腔医疗机构线上服务系统源码+mysql数据库+系统+lw文档+部署
    一文读懂HD Wallet以及BIP32、BIP39、BIP43、BIP44
    去除尾部和头部空格及换行符
    计算机18个专业方向
    浅谈设计模式(六)
  • 原文地址:https://blog.csdn.net/Hekena/article/details/127868786