这篇文章是用生成模型解决问题,根据生成模型中输入和输出的差别,代表不同的评测方面。
不足:针对不同的任务选择bart score的输入和输出?different input and output contents
weight 为什么等权重?
One of big challenge of the these applications is how to evaluate the genertated texts are actually flent, accruate, or effective.
The general idea is that models trained to convert the gererated text to a reference output or the source text will achieve higher scores when the gererated text is better.
在introduction中,介绍背景和research community jobs之后,转到现在的问题上,however …This lead to potential under-utilization of the pretrain model.
然后,新的一段,介绍自己的工作.In this paper we ....
新的一段,介绍result 。Experimentally,we evaluate ....
问题定义:
In this work, we focus on
conditional text generation (e.g., machine translation), where the goal is to generate a hypothesis
(h = h1, · · · , hm) based on a given source text (s = s1, · · · , sn). Commonly, one or multiple
human-created references (r = r1, · · · , rl) are provided to aid this evaluation
人类是怎么评价相关工作的?
前人工作——使用不用的模型评价
T1: Unsupervised Matching. Unsupervised matching metrics aim to measure the semantic equivalence between the reference and hypothesis by using a token-level match
BERTScore [76], MoverScore [77] or discrete string space like ROUGE [35], BLEU [51], CHRF [53]
T2: Supervised Regression. Regression-based models introduce a parameterized regression layer
BLEURT [63], COMET [57] and traditional metrics like S
[52], VRM [21].
T3: Supervised Ranking. Evaluation can also be conceived as a ranking problem, where the main
idea is to learn a scoring function that assigns a higher score to better hypotheses than to worse ones
COMET [57] and BEER [65]
T4: Text Generation. In this work, we formulate evaluating generated text as a text generation task
from pre-trained language models. The basic idea is that a high-quality hypothesis will be easily
generated based on source or reference text or vice-versa.
PRISM
根究文本生成的顺序,或者可以描述为参考句子和生成句子,判断bart score描述的是哪个方面。
- - 忠实度(s → h):从源文件到假设的p(h|s,θ)。这个方向衡量的是基于源文本产生假设的可能性有多大。潜在的应用场景是§2.2中介绍的事实性和相关性。这个衡量标准也可用于估计只衡量目标文本的质量,如连贯性和流畅性
(§2.2)。
- - 精度(r→h):从参考文本到系统生成的文本p(h|r, θ)。这个方向评估了根据黄金参考文献构建假设的可能性,适用于**以精度为重点
**的情况。
- - 召回率(h→r):从系统生成的文本到参考文本p(r|h,θ)。这个版本量化了假设生成黄金参考文献的难易程度,适用于总结任务
中基于金字塔的评估(即第2.2节中介绍的语义覆盖率),因为金字塔得分衡量了系统生成的文本所覆盖的细粒度语义内容单位(SCU)[50]。
- - F得分(r ↔ h)。考虑到两个方向,并使用精度和召回率的算术平均数。该版本可广泛用于评估参考文本和生成文本之间的语义重叠(信息量、充分性
,详见第2.2节)。
人为制作的方式,在种子prompts的基础上,收集其他的prompts.
测评是采用Pearson Correlation[15]测量两组数据之间的线性相关。Spearman Correlation [73] 评估两个变量之间的单调关系。Kendall’s Tau[27]测量两个测量量之间的顺序关联。准确度,在我们的实验中,衡量事实性文本和非事实性文本之间正确排名的百分比。
第一张图片是在不同top-k的机器翻译系统下,不同metric的性能变化趋势。可以发现,当k增加的时候,BA下降趋势是较为平稳的。BA的相关性也是优于几个模型的。
(折线图分析的是下降趋势和整体性能)
第二张图是分析,在不同的reference length条件下的模型性能。整体来看,BA平稳。但性能上,用了tie with other unsupervied models.
第三张图是分析prompt的影响,分为了三种。分别测评的。
BARTScore is less effective at distinguishing the quality of extractive summarization systems while much better at distinguishing the quality of abstractive summarization systems.