论文:《What Have We Achieved on Text Summarization?》
Dandan Huang1,2∗, Leyang Cui1,2,3∗, Sen Yang1,2∗,
Guangsheng Bao1,2, Kun Wang, Jun Xie4, Yue Zhang1,2†
1 School of Engineering, Westlake University
2 Institute of Advanced Technology, Westlake Institute for Advanced Study
3 Zhejiang University, 4 Tencent SPPD
{huangdandan, cuileyang, yangsen, baoguangsheng}@westlake.edu.cn,
wongkhun@outlook.com, stiffxie@tencent.com, yue.zhang@wias.org.cn
Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, pages 446–469, November 16–20, 2020. c@2020 Association for Computational Linguistics
2020年自然语言处理经验方法会议论文集,第446-469页,2020年11月16-20日@2020计算语言学协会
<2020.emnlp-main.33.pdf>
目录
5.2 Extractive vs Abstractive Summarization
多年来,通过研究各种方法,深度学习显著改善了文本摘要,并提高了ROUGE评分。然而,自动汇总器生成的摘要与人工专业人员之间仍然存在差距。
为了在细粒度语法和语义水平上对摘要系统的优势和局限性有更多的了解,我们查阅了多维质量度量1(MQM),并手动量化了10个代表性摘要模型的8个主要错误源。首先,我们发现,
1)在相似的环境下,由于信度和事实一致性的优势,提取式摘要通常优于抽象式摘要;
2) 里程碑式的技术,如复制、覆盖和混合提取/抽象方法确实带来了具体的改进,但也显示了局限性;
3) 预训练技术,尤其是序列到序列的预训练,对于改进文本摘要非常有效,BART可以提供最佳结果。
自动文本摘要由于其实际重要性而受到了人们的广泛关注。现有的方法可以分为摘录法(Dorr等人,2003;Mihalcea和Tarau,2004;Nallapati等人,2017)和抽象法(Jing和McKeown,2000;Rush等人,2015;See等人,2017年),前者直接从原文中选择短语和句子作为摘要,后者通过使用词汇词合成摘要。由于深度学习的复兴,已经对提取式(Cheng和Lapata,2016;Xu和Durrett,2019)和抽象式(Nallapati等人,2016;Lewis等人,2019;Balachandran等人,2020)摘要系统的神经架构进行了研究。
尽管多年来在Gigaword(Graff et al,2003)、NYT(Grusky et al,2018)和CNN/DM(Hermann et al,2015)等标准基准上报告了ROUGE分数的提高,但人们普遍认为,机器生成的摘要质量仍远远落后于人类书写的摘要。部分原因是,ROUGE作为摘要质量评估的精确指标不够充分(Liu和Liu,2008;B¨ohm等人,2019)。在研究文献中,人类评估作为补充进行(Narayan等人,2018)。然而,伴随ROUGE评分的人类评估报告在范围和覆盖范围上都是有限的。在细粒度层面上,我们仍然不确定我们总体上取得了什么,以及每个里程碑技术带来了什么根本性的变化。
我们旨在通过量化代表性模型的主要误差源来解决上述问题。特别是,在MQM(Mariana,2014)之后,我们设计了8个关于准确性和流畅性方面的指标。根据每个指标,通过测试集上的总体错误计数来分析模型,因此,与现有的手动评估报告相比,我们的评估可以更具信息性和客观性。我们将这组度量称为PolyTope。使用PolyTope,我们手动评估了10个文本汇总器,包括Lead-3、TextRank(Mihalcea和Tarau,2004)、Sequenceto sequence with Attention(Rush等人,2015)、SummaRuNNer(Nallapati等人,2017)、PointGenerator(见等人,2017年)、Point Generator with Coverage(Tu等人,2016;见等人,2016)、BottomUp(Gehrmann等人,2018)、BertSumExt(Liu和Lapata,2019)、BertSumExtAbs(Liu和Lapata,2019)和BART(Lewis等人,2019年),通过我们将神经结构与传统的前辈模型进行了比较,并将抽象模型与提取模型进行了对比,讨论了摘要系统中常用技术的有效性。根据经验,我们发现:
Preneural vs Neural:在强大的神经架构下,传统的基于规则的方法仍然是强大的基线。
提取与抽象:在类似的设置下,提取方法总体上优于抽象模型。主要缺点是提取模型不必要,抽象模型的遗漏和内在幻觉。
里程碑技巧:复制能有效复制细节。它还减少了单词级的重复,但往往会导致一定程度的冗余。覆盖率在很大程度上解决了重复错误,但显示了忠实内容生成的局限性。混合提取/抽象模型反映了两种方法的相对优缺点。
预训练:预训练对于摘要非常有效,甚至可以在没有复制和覆盖机制的情况下实现更好的内容选择能力。特别是,结合文本理解和生成的联合预训练提供了最显著的优势,BART模型在自动和人工评估方面都取得了最先进的结果。
我们发布了测试集,其中包括基于PolyTope的10个系统输出及其手动标记的错误,以及一个用户友好的评估工具包,以帮助未来研究评估方法和自动摘要系统(GitHub - hddbang/PolyTope)。
Extractive Summarization
提取式摘要
基于统计方法的早期工作(Neto等人,2002;Mihalcea和Tarau,2004)利用专业知识手动设计特征或规则。最近基于神经架构的工作将摘要视为一个单词或句子级别的分类问题,并通过计算句子表示来解决这个问题(Cheng and Lapata, 2016; Nallapati et al., 2017; Xu and Durrett, 2019). 最近,Zhong等人(2020)采用了文档级特征来重新排序摘要。
Abstractive Summarization
抽象式摘要
Jing和McKeown(2000)提出了一种基于剪切粘贴的抽象摘要生成器,它将提取的片段编辑并合并为连贯的句子。Rush等人(2015)提出了一种用于抽象摘要的序列到序列架构。随后,Transformer被使用,并在ROUGE得分方面优于传统的抽象汇总器(Duan等人,2019)。还检查了诸如AMR解析(Liu et al,2015)、复制(Gu et al,2016)、覆盖(Tu et al,2016;参见et al,2017)、平滑(M¨uller et al,2019)和预训练(Lewis et al,2019;Liu和Lapata,2019年)等技术,以增强摘要。混合抽象和提取方法采用两步方法,包括内容选择和文本生成(Gehrmann等人,2018;Hsu等人,2018年;Celikhilmaz等人,2018),在ROUGE中实现了比端到端模型更高的性能。
Analysis of Summarization
总结分析
基于ROUGE的摘要系统分析已经有很多工作。Lapata和Barzilay(2005)探讨了机器生成摘要中“连贯性”的基本方面。Zhang等人(2018)分析了抽象系统,而Kedzie等人(2018年)和Zhong等人(2019年)在提取摘要中寻找有效的架构。
Kryscinski等人(2019)从冗余、相关性和信息性方面评估了摘要的总体质量。所有这些都依赖于自动评估指标。我们的工作与这些努力一致,因为我们对各个方面进行了细粒度评估。与上述工作不同,我们使用人工评估而不是自动评估。事实上,在得出丰富结论的同时,上述分析工作也暴露了自动工具包的不足。自动评估的质量经常受到研究界的批评(Novikova等人,2017;Zopf,2018),因为它既没有渗透到基于生成的文本的整体质量中(Liu和Liu,2008),也没有与人类判断相关联(Kryscinski等人,2019)。
也有分析工作用人类评估来增强ROUGE(Narayan等人,2018;Liu和Lapata,2019)。这类工作报告了粗粒度的人类评估分数,通常包括2到3个方面,如信息性、流畅性和简洁性。最近,Maynez等人(2020)对500篇文章中的5个神经抽象模型进行了人类评估。他们的主要目标是验证抽象模型的真实性和真实性。相比之下,我们对基于规则的基线和提取/抽象汇总器进行了8个错误度量的评估,其中包括真实性和真实性。
我们的工作也与人类总结评价的研究有关。为此,Pyramid(Nenkova和Passonneau,2004)根据系统输出和多个参考对汇总器进行评分。注释员被要求识别语义意义的最小内容单元,然后通过计算包含该单元的参考摘要的数量,将每个单元与权重相关联。摘要的分数是根据单位的数量和权重计算的。除了金字塔,还有基于排名的人类评价指标(Narayan等人,2018)、最佳最差尺度(Kiritchenko和Mohammad,2017)和问题回答(Clarke和Lapata,2010)。上述方法为每个摘要输出分配一个分数。与这些方法相比,我们基于错误计数的度量是由人类写作的MQM驱动的,并且更细粒度和信息量。我们在第6节的图3中展示了评估指标之间的更多实证对比。最近,Stiennon等人(2020)将人类评估作为训练自动汇总器的奖励,报告了与使用参考汇总训练的模型相比的显著改进。他们的工作也证明了人类评价在文本摘要中的有用性。
我们重新实施并评估了10种具有代表性和影响力的方法。他们公开报道的ROUGE F1成绩如表1所示。
表1:CNN/DM数据集(非匿名版本)上10名汇总者的ROUGE得分。我们分别从Nallapati等人(2017)和Zhou等人(2018)获得了Lead-3和TextRank的分数。
Lead-3
Lead-3是一个常用的基线,它简单地选择前三个句子作为摘要。最近的工作将其用作标准基线(Cheng和Lapata,2016;Gehrmann等人,2018)。直观地说,新闻领域文章的前三句话可能是其摘要,因此Lead-3的结果可能是对人类书面摘要的高度忠实的近似。
TextRank
TextRank(Mihalcea和Tarau,2004)是一种基于基于图的排序模型的无监督关键文本单元选择方法(Page等人,1998)。它通过计算句子之间的共相似性并相应地生成加权图来定义“推荐”。具有高权重的句子被提取为摘要。它被选为统计模型的代表。
SummaRuNNer
SummaRuNNer(Nallapati等人,2017)是一种代表性的神经提取模型,从输入中选择完整句子作为摘要。它首先使用分层BiGRU对输入进行编码,然后从左到右扫描输入句子。累加的摘要表示由所有先前选择的加权和生成,该加权和被馈送到逻辑分类器以对摘要进行最终预测。
BertSumExt
BertSumExt(Liu和Lapata,2019)采用预先训练的BERT(Devlin等人,2019年)作为句子编码器,并使用额外的Transformer作为文档编码器。句子表示的分类器用于句子选择。它利用来自微调BERT的知识来生成更好的摘要。
Seq2Seq with Attention
Rush等人(2015)首次将序列到序列模型结构用于抽象摘要。为了允许有效和自由的文本生成,而不是简单的选择和重新排列,采用了目标到源关注模块来捕获来自每个编码器隐藏状态的信息。我们遵循See等人(2017)的实施。
Pointer-Generator
See等人(2017)引入了指针网络(Vinyals等人,2015),以解决seq2seq模型倾向于不准确地再现事实细节的问题。该方法既可以通过生成器从词汇表中生成单词,也可以通过指针从源中复制内容。
Pointer-Generator-with-Coverage
See等人(2017)使用覆盖机制(Tu等人,2016)来避免重复问题。该机制计算覆盖向量作为注意力机制的额外输入,以加强对不同位置的注意力。
Bottom-Up
Gehrmann等人(2018)提出了一种两步方法,首先选择潜在的输出词,然后基于指针生成器网络生成摘要。自下而上被选为混合模型的代表,该模型集成了提取和抽象方法。
BertSumExtAbs
BertSumExtAbs(Liu和Lapata,2019)采用了与BertSum Ext相同的编码器,以及具有随机初始化参数的6层Transformer解码器。它被选为具有预训练上下文化句子表示的神经抽象模型的代表。
BART
BART(Lewis等人,2019)联合预训练了一个seq2seq模型,该模型结合了双向编码器和自回归解码器,而不是仅对编码器进行预训练。进一步对摘要数据集进行微调,它在ROUGE分数方面达到了当前最先进的结果。
我们通过使用ROUGE(Lin,2004)进行自动评分和使用PolyTope进行人工评分来分析系统性能。ROUGE已被大多数总结工作所采用。它是一个基于召回的度量,计算系统输出和人类摘要之间的词汇重叠。特别地,ROUGE-1基于单码重叠,ROUGE-2基于双码重叠,而ROUGE-L基于最长公共子序列。
PolyTope是一种基于多维质量度量(MQM)的面向错误的细粒度人类评估方法(Mariana,2014)。特别是,它由8个问题类型(第4.1节)、8个语法标签(第4.2节)和一组严重性规则(第4.3节)组成,以定位错误并自动计算测试文档的总体得分。
如图3所示,与ROUGE相比,PolyTope在提供总体质量的详细和诊断方面更加精细。
我们开发了一个注释操作界面,如附录A.1所示。特别是,人类注释员将原始文本和输出摘要并列显示,并被要求在阅读后选择被认为不正确的片段。在初步选择后,他被要求分别在8个问题类型和8个句法标签中进行进一步选择。然后,为每个不正确的段自动生成嵌入的严重性分数,并为带注释的摘要计算质量分数,如下所示:
where I∈ {MINOR、MAJOR、CRITICAL},指示每个严重性的错误计数。对于不同严重性的错误,将扣除严重性分数,对于轻微错误、严重错误和严重错误,扣除比例分别设置为1:5:10。wordcount是示例中的单词总数。对于熟练的注释员来说,完成一个样本的注释平均需要2.5-4分钟,其中2-3分钟用于广泛阅读,0.5-1分钟用于注释。PolyTope评估后,三维误差点显示了测试模型的总体质量(图1)。根据皮尔逊相关系数,20份文件的注释人之间的一致性为0.8621,这表明PolyTope可以显著减少注释人的主观偏见。更多人工注释详情见附录B。
图1:PolyTope根据其句法和语义角色,通过三个坐标来判定每个错误。
PolyTope的问题类型可分为准确性和流畅性问题,其定义可追溯到MQM原则。准确性相关问题是指目标摘要所传达的内容与源文本不匹配或不准确反映的程度。它包括五个子类型:
Addition
摘要中包含了源代码中不必要和不相关的片段。
Omission
输出中缺少关键点。
Inaccuracy Intrinsic
来源中的术语或概念被歪曲,因此不忠。
Inaccuracy Extrinsic
摘要的内容未在来源中呈现,事实上不正确。
Positive-Negative Aspect
输出摘要表示肯定的语句,而源段表示否定的语句,反之亦然。
流利性问题是指文本的语言质量。与准确性不同,流利性独立于源和目标之间的关系。
它包括三个子类型:
Duplication
文本中的一个单词或较长部分不必要地重复。
Word Form
单词形式的问题,包括协议、POS、紧张语气方面等。
Word Order
句子句法成分顺序的问题。
附录A.2详述了它们的示例。
句法标签旨在定位错误,使错误问题和句子成分之间的关联更加紧密。根据ACE2005(自动内容提取),我们定义了8个句法标签来区分句子成分,即主语、谓语、宾语、数字和时间、地点和名称、属性、虚词和整句。
其定义详见附录A.3。
严重性是一个特定错误的严重程度的指示。它有三个级别:轻微、严重和很严重,由评估工具根据错误类型和句法标签的人为决定自动计算。实际上,表2中的每个单元格对应于特定的严重性级别。
表2:PolyTope用于汇总诊断。这个错误矩阵避免了主观性,因为人类判断者只需要注释每个错误的问题类型和句法标签。严重性规则和分数是预定义的,并自动计算,而无需提供自己的偏好和分数。
严重性越高的问题对摘要的感知质量影响越大。
Minor
不影响内容可用性或可理解性的问题。例如,如果语法虚词重复,多余的介词被视为错误,但不会使文本难以使用或出现问题。
Major
影响内容可用性或可理解性但不会使其不可用的问题。例如,额外的属性可能会导致读者更加努力地理解预期的含义,但不会使内容不适合目的。
Critical
导致内容不适合使用的问题。例如,一个省略的主题改变了文本的含义,将被认为是关键的。如果错误导致读者无法按预期使用内容,或者错误信息可能会对用户造成伤害,则必须将其归类为严重错误。一般来说,即使是一个严重的错误也可能导致严重的问题。
我们使用上述两个指标对上述10个模型进行了评估,重点是前神经方法和神经方法、提取方法和抽象方法之间的比较,并更好地理解里程碑技术(如复制、覆盖、预训练和混合抽象/提取模型)的影响。我们从非匿名的CNN/DM数据集中随机抽取150项试验(Hermann等人,2015)。
在预测摘要时,我们选择三个句子作为原始论文之后提取模型的摘要,并让算法自动停止抽象模型,在大多数情况下,抽象模型也会给出三个句子的解码结果。
表3显示了基于PolyTope和ROUGE的性能。支持以下观察的案例如附录C所示。
在ROUGE-1上,Lead-3在萃取模型中排名第二,在所有模型中排名四。在PolyTope上,它在提取模型中排名第三,在所有模型中排名四。这表明,即使在神经方法中,简单方法也是一个强有力的基线。TextRank在ROUGE和PolyTope上的所有方法中分别排名第9和第7,与一些抽象神经模型相比仍然具有竞争力。从负面来看,这两种方法显示了最大的加法误差,这表明与有监督方法相比,无监督方法在过滤无用信息方面相对较弱。
在ROUGE上,提取和抽象方法之间没有很大的差距,BART和BertSumExt分别是顶级的抽象和提取模型。在PolyTope上,作为抽象模型的代表,BART压倒性地优于其他模型(使用t检验,p<0.01)。然而,不包括BART,抽取式模型占据以下前三位。在相似的条件下,提取方法比抽象方法更好(使用t检验,p<0.01)(例如,BertSumExt与BertSum ExtAbs,SummaRuNNer与Point-Generator, Point-Generator-with-Coverage).
提取模型往往只会产生3种错误,即加法、省略、重复,而抽象模型会产生4到7种错误。就准确性而言,提取方法在Inacc内在和外在方面明显更强,这反映了通过直接从源代码中复制片段,提取方法可以保证生成具有公平语法性、合理性和忠诚度的摘要。然而,提取法在加法和省略法中没有表现出更强的表现,这是因为提取的句子包含与要点不直接相关的信息。关于流利性,两种方法通常相互竞争,这表明目前神经模型在合成连贯摘要方面相对有效。
我们首先比较了神经方法BertSumExt和SummaRuNNer。与SummaRuNNer相比,BertSumExt提供了更好的ROUGE1/2,但在ROUGE-L或PolyTope下差异不显著。
在详细的错误中,BertSumExt仅在重复方面表现出优势,这可能是因为相同短语的上下文表示可能因BERT编码而不同。
它与先前的研究结果(Kedzie等人,2018)一致,这些研究结果表明,在提取摘要的设置下,生成句子表示的更复杂的架构不会带来更好的性能。考虑到黄金标准提取摘要是根据ROUGE构建的,BertSumExt的ROUGE得分越高,反映了在拟合训练数据方面表现越强的有效性。
图2:用于内容生成的源语句的分布。X轴:源文章中的句子位置。Y轴:句子覆盖率的负对数。
然后我们考虑统计模型。图2a显示了每种方法用于内容生成的源语句的分布。在前五句中有很高的比例,在所有参考摘要的位置上都有平滑的尾部。相比之下,BertSumExt和SummaRuNNer大多从开头提取句子,从而在结尾处丢失了有用的信息。
TextRank略微提高了覆盖率,因为它是基于图形的,不依赖于序列信息。但由于缺乏监管,该模型存在大量的添加和省略。
Copy
幼稚的seq2seq模型的InaccIntrinsic计数为304,是所有模型中最差的。相比之下,点生成器模型将错误计数减少到14,证明了复制机制在忠实再现细节方面的有效性。另一个有趣的发现是,复制错误也从139大幅减少到68,尽管复制机制没有明确设计来解决这个问题。进一步的研究表明,减少的重复模式主要在单词水平上,而对句子水平重复减少的影响几乎为零。一个可能的原因是,seq2seq解码器在决定下一个输出字时严重依赖于短期历史,而没有有效使用长期依赖关系。Point-Generator模型通过用复制概率内插词汇水平概率来解决这个问题,减少了对先前输出的依赖。另一方面,复制机制引入了加法错误,因为自回归点生成器网络倾向于从源中完整地复制长序列,无法以期望的长度中断复制。Gehrmann等人(2018)和Balachandran等人(2020)也观察到了这一点。
Coverage
覆盖率(Tu等人,2016)被引入到神经摘要系统中,以解决重复问题。与点生成器相比,具有覆盖率的点生成器将重复错误从68个减少到11个,将遗漏错误从286个减少到256个,这证明了覆盖率对于更好的内容选择是有用的。然而,具有覆盖率的PointGenerator比PointGenerator产生更多的Addition和Inacc固有错误。我们进一步提取了不存在重复错误的Point Generator输出,发现引入覆盖机制将平均PolyTope分数从77.54降低到74.07。这表明覆盖机制缺乏推理能力,并且倾向于生成将源内容错误地组合成不相关信息的摘要(参见附录C中的图10和图11)。这很可能是因为覆盖机制迫使从解码器到编码器的关注值单调向右移动,从而可能干扰原始内容选择过程。
Hybrid Abstractive/Extractive Model
混合抽象/提取模型
BottomUp的ROUGE得分很高,但在PolyTope排名第二。与其他软件相比,它更容易出现不准确错误。ROUGE和PolyTope之间的不一致反映了该方法的相对优势和劣势。
从积极的方面来看,它结合了提取模型和抽象模型在从源中选择片段和在摘要中生成新内容方面的优势,从而提高了召回率。另一方面,抽象生成模型仅将复制注意力限制在提取的片段上,从而遭受不完整的信息源进行推断,从而缺乏可信性和事实一致性。
Pre-training
BertSumExtAbs和BART都大大优于非预训练抽象模型。它们在两个方面与其他方法不同,即Transformer架构和上下文化知识。由于已经表明,与LSTM相比,Transformer并没有带来改进的ROUGE(Gehrmann等人,2018;Zhong等人,2019),大规模预训练编码的知识可能是其更好性能的关键。在没有复制和覆盖的帮助下,BertSumExtAbs提供的Inacc和复制错误数量更少,而BART在几乎所有错误中提供的错误数量最少,这表明了预训练技术的强大。
值得注意的是,在10款车型中,BART在ROUGE和PolyTope上均排名第一。与仅预训练编码器的BertSumExtAbs不同,BART与seq2seq去噪自动编码器任务联合预训练编码器和解码器。它大大改进了添加、省略和Inacc错误,证明了统一的理解和生成预训练对于内容选择和组合非常有用。特别是,BART在处理CNN/DM数据集的领先偏差方面表现出优异的性能。图2b显示了用于抽象方法生成内容的源语句的分布。可以看出,抽象模型倾向于忽略源文档中间和末尾的句子(e.g.,Bottom-Up, BertSumExtAbs),这表明抽象汇总器的性能受到数据集领先偏差的强烈影响。相比之下,BART可以关注整个文档周围的句子,稍微接近黄金参考的分布。直观地说,这种改进可能来自于BART预训练的文档旋转变换,它为同一解码器在编码器端对句子进行混洗。我们将验证留给未来的工作,这需要对BART进行重新培训,而无需进行文件轮换转换。
本文的主要目的是研究摘要系统之间的差异,而不是促进人类评价指标。尽管如此,我们的数据集为我们提供了一个测试台,用于计算自动评估方法和人工评估方法之间的相关性。在本节中,我们报告了ROUGE和PolyTope之间的定量对比,以及PolyTobe和其他人类评估指标之间的定性对比,以证明我们为什么将PolyTop用于我们的研究目标。
首先,研究表明,ROUGE与人类对摘要质量的评估不一致(Liu和Liu,2008;Zopf,2018;Kryscinski等人,2019;Maynez等人,2020)。我们使用PolyTope从实例级和系统级性能的角度评估ROUGE。
在实例层面,采用10个模型的1500个单独输出来计算ROUGE和PolyTope之间的皮尔逊相关系数。此外,我们选择只会产生准确度或流畅度错误的测试实例,以更好地理解ROUGE和准确度/流畅度方面之间的相关性。在系统层面,采用每个模型的总体得分来计算ROUGE和PolyTope之间的皮尔逊相关系数。
表4:分别从实例和系统层面看,ROUGE评分和人类注释之间的皮尔逊相关系数。
结果总结在表4中。对于实例级比较,我们发现ROUGE和人类判断之间存在弱相关性。此外,在准确度和流畅度方面,ROUGE可以在一定程度上测量准确度,而ROUGE-2在评估流畅度方面优于ROUGE-1/L。对于系统级比较,ROUGE-1、ROUGE-2和ROUGEL的皮尔逊相关系数分别为0.78、0.73和0.52,远高于实例级的0.40、0.32和0.32。这证实了ROUGE对于样本聚合后的排序系统是有用的,但对于评估单个摘要质量而言相对较弱,而细粒度PolyTope可能会有所帮助(Peyrard等人,2017)。
图3:将各种评估方法相互比较的案例研究。
其次,图3显示了两个模型在一个测试文档上的结果,分别是ROUGE、Pyramid、排名、缩放、QA和PolyTope评估指标。
从图中可以看出,PolyTope在质量评估中提供了更细粒度的信息。Sun等人(2019)警告称,人类评估更倾向于对更长、更具信息性的总结给出更高的分数。在PolyTope的设置下,句子长度的影响相对较小。以BertSumExt和BertSum ExtAbs模型为例,它们的输出长度和相应分数之间的皮尔逊相关系数为0.25和0.27,这表明PolyTope对于生成没有预先指定长度的摘要的当前模型更为客观和有意义。
最后,我们还通过PolyTope评估了150项测试的参考摘要,获得了96.41的总分,准确性方面有63个错误,流利性方面有0个错误。黄金摘要在PolyTope评估中未获得满分,主要是因为内容令人产生幻觉。例如,一篇新闻文章在摘要中描述了一个事件发生在“星期三”,尽管原始文件中有“4月1日”。人类总结需要文件之外的外部知识,因此受到惩罚。另一种常见的幻觉涉及修辞性但不相关的句子,例如“点击此处查看更多新闻”。此外,还有一些语法问题会影响准确性。例如,在“小猪出生在中国,只有两只前腿学会了走路”中,两个动词短语之间缺少连词。
我们使用根据人类写作MQM设计的一组细粒度人类评价指标,对10个具有代表性的文本摘要进行了实证比较,旨在更好地理解最近研究的神经文本摘要系统和里程碑技术的效果。我们的观察表明,通过人类评估,提取式汇总器通常优于抽象式汇总器,并且还发现了更多关于复制、覆盖、混合和特别是预训练技术所获得的独特优势的细节。总体结论在很大程度上与现有研究一致,而我们在错误诊断方面提供了更多细节。