因为有的语言没有文字,比如将狗叫翻译出来。
将任务转化成翻译任务,硬训一发,效果不错。
https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330
encoder和decoder基本一样,decoder多了一个masked mutil-head attention
因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出
增加一个停止token,一般来会跟begin用一个符号
NAT的表现通常不如AT。原因:multi-modality
作者:山河动人
链接:https://www.zhihu.com/question/450039091/answer/2952680112
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
1.“Fine-tuning Language Models from Human Preferences” by Zhang et al. (2019):该论文指出,BERT的生成速度相对较慢,并且由于是自回归模型,无法一次生成多个词,这使得在一些生成任务中,BERT的效率可能不如一些并行的生成模型。
2.“Domain Adaptive Text Generation Through Self-Supervision” by Li et al. (2020):该论文指出,BERT是在大规模无监督数据上进行预训练的,因此在生成任务中可能无法捕捉到一些特定领域或任务的细微差异。
3.“Assessing the Ability of Transformer-Based Language Models to Generate Contextually Relevant Text” by Hossain et al. (2020):该论文指出,BERT的生成质量取决于输入的上下文,因此在输入上下文较少或不完整的情况下,它可能无法产生合理的生成结果。
4.“Text Generation with Exponential Memory Self-Attention” by Grave et al. (2019):该论文指出,BERT缺乏对生成任务中先前生成的单词的记忆,因此在生成长文本时,可能会出现不连贯的问题。该论文提出了一种新的自注意力机制,能够在一定程度上解决这个问题。
5.BERT在生成任务中表现欠佳的限制:Zhang, X., Han, X., Huang, T., & Liu, X. (2021). On the Weaknesses of the Transformer-XL Language Model for Data-to-Text Generation. arXiv preprint arXiv:2106.06238.
虽然BERT可以用于一些生成任务,但对于一些需要产生连贯、长文本的生成任务,可能需要更加专门化的生成模型来取代BERT。