任务描述: 自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本。自动的文本摘要是非常具有挑战性的,因为当我们作为人类总结一篇文章时,我们通常会完整地阅读它以发展我们的理解,然后写一个摘要突出其要点。由于计算机缺乏人类知识和语言能力,它使自动文本摘要成为一项非常困难和艰巨的任务。自动摘要通常分为抽取式摘要和生成式摘要,区别在于抽取摘要选择原文中若干句子作为只要,而生成式摘要利用文本生成技术根据原文生成摘要,这个摘要会出现原文中没有出现过的句子和词。本教程介绍一种seq2seq+attention 生成式摘要算法。
数据集:其中训练集20000个数据,验证集1000个数据,测试集1000个数据。
运行环境:
- Python==3.6
- numpy==1.18.0
- pandas==0.24.2
- torch==1.0.0
- torchtext==0.4.0
- spacy==2.1.8
- rouge==1.0.0
方法概述:本教程旨在介绍如何利用pytorch深度学习工具实现一个seq2seq+attention自动摘要模型。