相似度系列—2传统方法BLEU：BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU: a Method for Automatic Evaluation of Machine Translation

在相似度系列1中，刘老师的文章中，我感觉，维度似乎是一个很重要的指标，维度的设计应该是对实验结果产生影响，但是，作者的关注点似乎更注重怎么实现各个维度的统一evaluate？
他的难点：1是每个维度下数据的构建？2 每个维度下如何评测？

这篇文章是早期的BLEU评测，常用于机器翻译，本质是overlap，基于precision。
为什么会有这篇文章：human evaluation is expensive.

这篇文章看的目的是这里边有很多假设，这些假设一般在后续的改进或者其他新的评测指标中，都是遵循的。
（1）机器翻译的维度：including adequacy, fidelity , and fluency of the translation

（2）怎么评测机器翻译的表现？measure translation performance。机器翻译越接近于人的翻译，说明翻译效果越好。
（3）evaluation metric需要什么？——和人类评估水平非常接近的矩阵；接近于人类翻译水平的语料。

这篇文章围绕BLEU的提出，展开了很清晰的介绍，包括，他的组成，怎么一步步提出来的？

基本前提——在衡量翻译质量时

1 n_grams:在候选答案和参考答案中，当有n_grams越接近时，说明翻译效果越好。

2 当翻译中使用相同的一元单词越多的情形下，说明candidate 和reference越满足 adequacy

3 当翻译中的candidate和reference中最长的n_gram越长的时候，说明越满足fluency。

4 当有越多的reference时，模型的relevance分值越高。

计算准确率（n_grams）

计算n_grams情形下的准确率，是将所有candidate中的n_gram和reference的n_gram对照，然后匹配上的n_gram数量/所有的n_gram数量。

计算权重下的准确率

需要将所有的reference下的结果求和，然后作为整个翻译性能的计算。考虑每个reference下的权重。

recall不太容易计算，然后就把recall以一种惩罚项的形式融入到了BLEU函数中。
惩罚项是根据句子的长度设立的，当candidate的句子长度小于reference时，设立惩罚，句子长度越小，惩罚越大。

在这里插入图片描述

总结

BLEU还是有一些不足的，虽然考虑了n_grams的匹配数量，但是在句法、单词顺序、同义词方面，考虑的不是很多。后面的改进，而且，他算是单一维度的评价指标吧。虽然在开头提到需要考虑四个维度：连贯性、完整性（一元gram相同的越多时）、流畅度（最长的n_gram越长的时候）…，但在计算中，这四个维度，体现的还不是太好。

相关阅读:
React16、18 使用 Redux
2.1.1进位计数制
es6两个数组取交集、并集、差集、补集
React render方法的原理？在什么时候会被触发？
淘宝分布式文件存储系统(一) -TFS
shell脚本中getopt介绍
ABB 5SHY3545L0010可控硅模块
NC16884 [NOI2001]食物链
【WPF】附加事件
补涨龙的底层逻辑和应用

原文地址：https://blog.csdn.net/Hekena/article/details/127854458

相似度系列—2传统方法BLEU：BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU: a Method for Automatic Evaluation of Machine Translation

基本前提——在衡量翻译质量时

1 n_grams:在候选答案和参考答案中，当有n_grams越接近时，说明翻译效果越好。

2 当翻译中使用相同的一元单词越多的情形下，说明candidate 和reference越满足 adequacy

3 当翻译中的candidate和reference中最长的n_gram越长的时候，说明越满足fluency。

4 当有越多的reference时，模型的relevance分值越高。

计算准确率（n_grams）

计算权重下的准确率

总结