基于深度学习的生成式文本摘要技术综述

2021-11-18 02:18:24朱永清赵菲菲慕晓冬尤轩昂

计算机工程 2021年11期

朱永清，赵鹏，赵菲菲，慕晓冬，白坤，尤轩昂

（1.火箭军工程大学作战保障学院，西安 710025；2.陆军边海防学院，西安 710025）

0 概述

自动文本摘要技术最早应用于加拿大政府的天气预报工作，后来被应用于金融分析、医疗数据整理、法律文本处理等多个领域进行辅助决策。在神经网络和深度学习被广泛使用之前，大部分摘要类实现方法都是以抽取的方式，例如文献［1-3］利用基于图排序的摘要方法，文献［4］利用基于启发式规则的摘要方法，文献［5］利用基于有监督学习的摘要方法，文献［6-8］利用基于神经网络的摘要方法，文献［9-10］利用基于次模函数的摘要方法，文献［11-13］利用基于预训练模型的摘要方法，等。以上方法均可以理解为序列到序列的抽取式摘要方法，即从原文中分析并提取出最重要的原文完整句子，进行简单拼接后得到一个抽取式摘要结果。在现实中的人工条件下，摘要更多的是生成式的过程，即在阅读一段、一篇或多篇文段后，经过脑内抽象分析得到一个抽象理解，之后结合自己的知识结构输出为一段高度概括的内容。因此，随着深度学习的快速发展，自动文本摘要的方法逐渐由抽取式向生成式偏移。现已有不少国内［14-15］和国外［16-18］的研究人员对目前的自动文本摘要方法进行了综述分析，但是针对生成式自动文本摘要的文献综述，如文献［19-20］，在直接将目前生成式自动文本摘要等价于基于深度学习后便不再深入分析，缺乏问题导向和足够深入的研究，对于目前最新研究成果分析不够充分。

本文针对生成式文本摘要技术，指出其在深度学习下的发展优势和关键问题，描述生成式摘要系统的基本结构和数据预处理的相关基础知识，并以关键问题为导向，展示基于深度学习的生成式摘要模型突出的研究成果，比较优秀的深度预训练和创新方法融合模型。此外，介绍生成式摘要系统常用的数据集和评价标准，并对这一技术的发展局限性及发展前景进行分析。

1 研究背景及现状分析

信息摘要是对海量数据内容的提炼和总结，以简洁、直观的摘要来概括用户所关注的主要内容，方便用户快速了解关注目标。文本类摘要作为众多模态信息摘要中最常见的类型，通过筛选、提炼、总结等方式得到与原文语义相近但极大程度缩短长度的句段。随着各类文本信息数量的爆炸式增长，公众需求大量增加，自动文本摘要技术起到了重要作用。

基于深度学习的生成式自动文本摘要任务模型主要具有以下优点：

1）灵活性高，允许生成的摘要中出现新的字词或短语。

2）相比于抽取式摘要，生成式摘要模型的思路更符合实际需求，其结果更贴近人工摘要的结果。

3）生成式摘要能够在建立完整语义信息的同时有效避免过多冗余信息。

同时，基于深度学习的生成式自动文本摘要任务模型存在以下关键问题：

1）未登录词（Out of Vocabulary，OOV）问题。在处理文本时，通常会有一个字词库，未登录词就是不在字词库中的单词。这个字词库可以是提前加载的，可以是自己临时定义的，也可以是从训练数据集提取的，如何处理未登录词是文本摘要任务的关键问题之一。

2）生成重复问题。利用注意力得分从分布中采样得到的字词连续重复生成，导致语法不通或语义不明。

3）长程依赖问题。在长文档或多文档摘要任务中，较长文档或多文档远距离语义抽取能力不足。

4）评价标准问题。生成的摘要好坏，不仅单纯地由评价指标决定，同时也需要考虑语义相关性、语法准确性、流畅性等问题。

2 数据预处理及基本框架

目前生成式自动文本摘要主流的基本框架是结合数据预处理［21-22］和编解码器的序列到序列框架［23-24］，其中涉及CNN［25］、RNN［26］、LSTM/GRU［27-28］、Transformer［29-30］、BERT［31］及其变体RoBERTa［32］等作为编码器或解码器的基本模型。

在编码器之前，需要实现数据的预处理，包括分词、词嵌入等。分词是中文特有的需求，在实际的深度学习过程中，虽然无论是语义关联还是文本生成都是基于字而非基于词的，但是分词的作用仍然很重要，它有利于下一步融合注意力机制的权重分配，其中，BERT、GPT［33-35］等预训练模型以及fastBERT［36］等蒸馏后的预训练模型［37-38］所使用的基于WordPiece［39］的分词方法，常用于提高模型生成的准确性和合理性。词嵌入包括文档嵌入［40-42］以及位置嵌入，是数据预处理中最重要的一环，每一个单词对应唯一的词向量，词嵌入的诞生促使机器可以通过数学的方法对其进行分析建模推演，这些向量是高维度的，通过分析这些高纬度向量，可以找出很多利于分析的规律。随着机器学习的发展，趋向使用各种预训练模型加以适当微调，即可完成数据预处理工作，因此，预训练模型已经成为词嵌入的常态配置。

目前在利用深度学习技术进行自动文本摘要方面已经有了不少研究成果，重点在于编码器和解码器的序列到序列框架。在将一个序列输入框架之后，通过编码器得到隐藏上下文向量，然后将其作为输入送入解码器，在解码过程中计算概率分布得到输出。目前，越来越多基于序列到序列框架的模型被提出，但基本上都是基于RUSH 等［43］提出的加入注意力机制的序列到序列框架，如图1 所示。该模型有助于更好地生成摘要，已经成为生成式自动文本摘要模型的主要框架。

图1 带注意力机制的序列到序列神经网络模型框架Fig.1 Framework of sequence to sequence neural network model with attention mechanism

3 模型关键技术分析及效果对比

针对上文所述基于深度学习的生成式文本摘要模型中存在的关键问题，下文分析相应问题的解决方案，介绍常用深度预训练生成摘要模型技术，以及基于深度学习的创新性生成摘要模型技术，并对主流生成式摘要模型在不同数据集上的效果进行对比分析。

3.1 针对未登录词问题的解决方案

未登录词问题是生成式文本摘要任务中的首要问题，最开始的解决方法有替换成特殊字符“UNK”，或进行删除操作，或从原文中随机抽取替换，但都会影响摘要生成效果。

针对该问题，SEE等［44］提出指针生成器网络（Point-Generator Network，PGN），即复制机制。针对序列到序列基本模型经常不准确再现事实细节的问题，通过指针从源文本中针对性复制单词的方式，缓解了OOV 问题，既允许摘要单词通过指针复制源文档单词的方式生成，也允许一定概率下从固定字词库中采样生成。复制机制对于准确地复制罕见但必须出现的单词至关重要，如人名、地名等专有名词。该方法已经成为生成式文本摘要模型最常用的网络模型之一。但该模型存在一个问题，即摘要中的新颖性字词依赖于字词库中的新颖性字词，这使得模型机制对于字词库有较大程度的依赖性。

针对PGN存在的问题，CHAKRABORTY 等［45］分析指针生成网络解决未登录词问题过程中不能生成新词问题的根本原因，并通过增加未登录词惩罚机制，优化可以生成新词的生成式摘要模型效果。

3.2 针对生成重复问题的解决方案

生成重复问题指的是，基于注意力的序列到序列模型生成的摘要在注意力机制的影响下有倾向于生成重复字词的情况，导致出现不必要的冗余或语法错误等问题。针对该问题，SEE 等［44］提出覆盖（coverage）机制，利用注意力分布追踪目前应被选中的单词，当再次注意指向与上一时间步同一内容时予以惩罚，解决基于注意力的序列到序列模型生成句子中经常有重复片段现象的问题。

虽然覆盖机制解决了生成重复的问题，但是对于生成重复的情况并没有做区分，因为有些主语是必须要重复生成的。因此，如果只是一味地避免重复，对于生成式摘要而言是一种惩罚，会导致这类本该重复生成的词会被替换为未生成过的其他词，降低了摘要的质量。为实现有选择性的覆盖，CHUNG等［46］提出MPG 模型，修正了主题词无法选择性重复生成的问题，提高了生成摘要的质量。

此外，LIN 等［47］提出了一个全局编码框架。该框架基于源上下文的全局信息来控制从编码器到解码器的信息流，其由一个卷积选通单元组成，用于执行全局编码，以改善源端信息的表示，在提高生成摘要质量的同时也达到了减少重复的目的。COHAN等［48］针对长序列摘要字词重复生成的问题，跟踪注意力作用范围，提出解码器覆盖范围作为注意力功能的附加输入，以避免注意力重复指向相同的内容。

3.3 针对长程依赖问题的解决方案

长程依赖问题指的是，面对较长或主旨不集中的输入信息，通过加大输入长度提高上下文向量的语义抽取能力时，后期输入内容对上下文向量语义的影响基本消失的问题。

在基于注意力机制的序列到序列基础模型基础上，CHOPRA 等［49］以卷积注意力作为编码器并以循环神经网络（Recurrent Neural Network，RNN）作为解码器，NALLAPATI 等［26］结合庞大字词库，利用RNN 作为编码器解码器来提高生成摘要质量，但都深受RNN 长程依赖问题的影响。为减少该问题影响，COHAN 等［48］提出分层RNN 用以捕捉文档话语结构，利用语篇相关信息来修改词级注意功能，缓解长程依赖问题。CELIKYILMAZ 等［50］使用长短时记忆网络（Long-Short Term Memory，LSTM）抽取句子的语义表示，利用深度代理通信（DCA）的方式解决长距离情况下如何更好进行信息聚留的问题，并采用最大似然估计、语义衔接、逐句间强化学习策略等方式提高生成摘要的准确性、连贯性、抽象程度。LIN 等［47］将双向LSTM 作为编码器，将单向LSTM 作为解码器，并增加自注意（Self-Attention）模块，挖掘某一时刻标记（Token）之间的关系，提高全局信息关注能力，从而减少长程依赖影响。

目前，越来越多研究着眼于利用预训练模型进行生成式摘要生成。YANG 等［51］针对BERT 输入长度受限的问题，提出通过对句子单独应用推理来解决这个问题，然后聚合句子分数来产生文档分数的思想，以缓解BERT 的长程依赖问题。

3.4 针对评价标准问题的解决方案

评价标准问题包括两点：1）生成式摘要任务训练模型需要考虑ROUGE 函数不可微而不适用于梯度计算的问题；2）生成式摘要任务中的评价标准常采用人工评价或ROUGE 自动评价标准，但是生成式摘要的ROUGE 评价结果并不能充分说明摘要质量，归根于生成式摘要结果评价指标希望更看重整体语义匹配程度，而ROUGE 更看重字词组合的形式匹配。针对以上2 个评价标准问题，在设计损失函数时，需要考虑如何将ROUGE 标准融入损失函数及其优化计算方法，同时设计兼具语义相似性和字词匹配度的损失函数。

针对第1个评价标准问题，NG等［52］提出针对ROUGE 的单词嵌入方法，提高了摘要评估效果，其在使用斯皮尔曼（Spearman）和肯德尔（Kendall）秩系数测量时不测量词汇重叠，而是通过词嵌入来计算摘要中使用的词的语义相似度，达到与人类评估更好的相关性，并避免2 个单词序列具有相似含义时由于词典表示法的差异而受到ROUGE 不公平处罚的影响。AYANA 等［53］将不可微而无法直接用作损失函数的ROUGE、BLEU 等评测指标引入训练目标函数中，使用最小风险训练策略进行优化计算，改进了标题生成的效果。CELIKYILMAZ 等［50］使用强化学习的自我批判训练方法计算不可微的ROUGE 函数。LI 等［54］提出在卷积序列到序列框架中使用自临界序列训练SCST 技术直接优化模型，缓解了曝光偏差问题并实现了不可微的摘要度量ROUGE 的计算。

针对第2 个评价标准问题，FABBRI 等［55］使用神经摘要模型输出以及专家摘要和外包人工标注摘要，以全面和一致的方式重新评估了12 个自动评估指标，并使用这些自动评估指标对23 个最近的摘要模型进行了基准测试，得到一个更完整的文本摘要评估协议，提高摘要自动评估指标的普适性。

3.5 包含深度预训练框架的生成式文本摘要模型

深度学习发展至今，随着Transformer 框架的提出，原先由基于RNN、LSTM、GRU 等模型作为编码器和解码器的序列到序列模型，已经发展为基于Transformer 的序列到序列模型，逐渐形成了深度预训练模型的主要框架。同时，对于训练集的需求也由有监督学习向无监督学习转化，大幅提升了缺乏足够有标签数据情况下的模型性能。

目前，生成式文本摘要领域最常用的深度预训练模型包括MASS［56］、TAAS［57］、UniLM［58-59］、T5［60］、STEP［61］、BART［62］、PEGASUS［63］、ProphetNet［64］等。MASS［56］模型使用的方法是掩蔽序列到序列的生成，避免在给定句子剩余部分的情况下重构句子片段，随机选择一个句子片段。TAAS［57］模型包含了1 个利用潜在主题表示文档潜在语义结构的主题感知抽象摘要模型框架。UniLM［58-59］模型包含3 种语言建模任务的联合训练，即单向（从左到右和从右到左）、双向（单词级掩码，带有下一句预测）和序列到序列（单词级掩码）预测。T5［60］模型展示了扩大模型大小（至110 亿个参数）和预训练语料库的优势，并引入了C4 大规模文本语料库。该模型利用随机损坏的文本段进行预训练，这些文本段具有不同的掩码比和段的大小。STEP［61］模型包含3 个与抽象摘要任务有关且都基于恢复源文本而设计的预训练目标，即句子重新排序（SR）、下一句生成（NSG）和屏蔽文档生成（MDG）。与在更大的语料库（≥160 GB）上进行模型预训练相比，该模型在语料库只有19 GB 的情况下仍然可以获得相当甚至更好的性能。BART［62］模型引入去噪自动编码器对序列间模型进行预训练，利用任意的噪声函数破坏文本，并学习重构原始文本。对于生成任务，噪声函数是文本填充，其使用单个掩码标记来掩码随机采样的文本范围。PEGASUS［63］模型提出了新的预训练目标间隙句生成GSG（Gap Sentences Generation），从文档中选择并屏蔽整个句子，并将间隙句连接成伪摘要。ProphetNet［64］模型提出一个新颖的自监督学习目标函数，即预测未来N元组（Predicting FutureN-gram）。与传统序列到序列模型中Teacher-forcing 每一时刻只预测下一个字符不同，该模型每一时刻都在学习如何同时预测未来N个字符。

以上基于Transformer 的序列到序列深度预训练框架的生成式文本摘要模型优势，在于不需要过多的有标记数据，仅凭借大量无标记语料库进行预训练再用少量标记数据微调即可，随着预训练语料库内容的不断扩充，促使生成摘要的得分不断提高。值得注意的是，这类框架极大地弱化了对标记数据的需求和调试的门槛，但也大幅提高了语料库精细程度及硬件训练的门槛，同时目前关于这些预训练模型可解释性相关研究仍然缺乏，对于如何在预训练框架中优化生成式摘要的未登录词、生成重复、长程依赖、评价标准等核心问题，缺乏足够深入的研究。

3.6 融合深度学习创新方法的生成式文本摘要模型

为提高基于深度学习的生成式摘要模型性能，研究者通过尝试与其他领域模型及方法的创新融合，在不同方面推进了生成式摘要模型的发展。

GUO 等［65］通过融合具有问题生成和蕴涵生成等辅助任务的多任务学习模型，提高了抽象摘要的蕴含源文本核心信息能力，并提出新的多任务体系结构，总体上提高了摘要模型的学习显著性和蕴含能力。XU 等［66］融合图卷积网络模型，使用图来连接文档中句子的解析树，并使用堆叠图卷积网络来学习文档的语法表示，通过选择性注意机制提取语义和结构方面的显著信息并优化生成摘要结果。ZOU等［61］融合自建大规模语料库，使用无监督训练方法，达到了有监督训练的效果。ZHENG 等［67］为播客领域的生成式摘要提供了基线分析，突出分析了当前先进预训练模型在该领域的效果。CHEN 等［68］针对对话摘要生成问题提出一个多视图序列到序列模型，从不同的视图中提取非结构化日常聊天的会话结构来表示会话，利用多视图解码器来合并不同的视图以生成对话摘要。ZHENG 等［57］通过融合神经主题模型，有效提高了摘要生成效果及全局语义蕴含。FABBRI 等［69］引入一种称为维基转换的通用方法，以无监督、特定于数据集的方式微调摘要的预处理模型，在零样本抽象摘要模型性能比较中取得了最优，同时为少样本情况提供了研究依据。ZAGAR等［70］提出跨语言生成式摘要模型，针对小语种资源少的问题，使用一个基于深度神经网络和序列到序列架构的预处理英语摘要模型来总结斯洛文尼亚新闻文章，通过使用额外的语言模型进行目标语言评估来解决解码器不足的问题。

通过上述研究可以发现，利用其他领域的知识迁移可以提高生成式自动文本摘要的生成效果。

3.7 模型对比

以上对深度学习下的生成式文本摘要模型的分类与说明，表明专用模型精于解决于特定问题，具有不同的算法原理、编解码器、适用范围、优势、局限性等，因此，需要根据实际情况进行研究后再使用，融合出更优秀的生成式自动文本摘要模型。针对专用模型的编解码器、解决核心问题的方案比较如表1所示。

表1 不同模型的编解码器、核心问题解决方案比较Table 1 Comparison of codec and core problem solving methods of different models

由表1可见，指针网络（PGN）中的Copy 和Coverage 模块是较多模型处理未登录词和生成重复问题的主要模块，而处理长程依赖和评价标准问题的方法各不相同，缺乏较为权威的标杆模型。对于预训练模型，利用Transformer 的多头注意力可缓解长程依赖问题，经过大容量语料库的训练，学到的序列内字词之间的关系也更全面，降低了遇到未登录词和生成重复的几率，因此，很少有专门针对4 个核心问题的模块。各模型的算法核心技术、适用范围、优势和局限性比较如表2 所示。

表2 不同模型的算法核心、适用范围、优势和局限性比较Table 2 Comparison of core algorithm，application scope，advantages and limitations of different models

3.8 实验效果对比与分析

目前主流模型主要采用Cnn&Dailymail stories［26，44］、Gigaword［43，71］、DUC-2004、LCSTS［72］这4种数据集。评价标准通常采用ROUGE［73］标准中的ROUGE-1、ROUGE-2 和ROUGE-L。将不同模型在各个数据集上的ROUGE 分数进行对比，如表3 所示，数据取自各模型的最优分，加粗表示该项数据各模型中的最优值。可以看出，基于深度学习的生成式摘要模型，ROUGE-1、ROUGE-2、ROUGE-L 评价得分在Cnn&Dailymail 数据集上最高分别提高了8.53、8.65、8.02 分，在Gigaword语料库上分别提高了8.67、8.05、8.80 分，在DUC-2004数据集上分别提高了4.60、3.81、5.63 分，在LCSTS 数据集上分别提高了6.92、7.88、7.28 分，总体效果提升显著。

表3 不同数据集上常用模型的ROUGE 分数对比Table 3 Comparison of ROUGE scores of common models on different datasets

基于深度学习的生成式摘要模型较传统模型有较大程度的突破，但仍有较大的进步空间，主要包括：

1）ProphetNet模型［62］在英文数据集Cnn&Dailymail 和Gigaword 上的效果最好，其他预训练模型如UniLM、T5、STEP、BART、PEGASUS 等均有不弱于ProphetNet 的表现，差距不明显。

2）虽然RTC 模型［54］在中文数据集LCSTS 上的效果最好，但由于预训练模型尚未在中文数据集LCSTS上进行实验，因此模型的中英文泛化能力有待进一步验证。在目前生成式摘要领域中，中文的进展相较于英文是短暂且缓慢的，实验数据远远不够。

3）这些模型总体上能够较大程度地提升摘要生成效果，但大部分模型都仅在一两个数据集上进行实验，不够完备。

4）大部分模型都基于短文本摘要，目前在长文本、多文档文本、特定领域文本等方面缺乏模型及其效果的数据对比。

4 常用数据集及评价标准

4.1 常用数据集

适用于生成式自动文本摘要任务的常用数据集包括Cnn&Dailymail 数据集、Gigaword 语料库、会议共享数据集、LCSTS 单文本摘要数据集等。

1）Cnn&Dailymail 数据集。Cnn&Dailymail 是单文本摘要数据集，由30 万篇新闻短文摘要对组成，该数据集为英文数据集。

2）Gigaword 语料库。Gigaword 语料库包含约380 万个训练样本、19 万个验证样本和1 951 个测试样本用于评估。输入摘要对由源文章的标题行和第一句组成，该数据集为英文数据集。

3）会议共享数据集。常用的会议共享数据集包括DUC 和NLPCC 数据集。DUC（Document Understanding Conference）是摘要评估领域的国际评测会议，各大文本摘要系统均热衷于此进行测评比较，这里提供的数据集都是小型数据集，用于评测模型。最常用的是DUC-2004 数据集，该会议共享数据集为英文数据集。NLPCC（Natural Language Processing and Chinese Computing）是CCF 国际自然语言处理与中文计算会议，NLPCC2015、NLPCC2017、NLPCC2018均有摘要任务相关的摘要数据集，该会议共享数据集为中文数据集。

4）LCSTS 单文本摘要数据集。LCSTS（Largescale Chinese Short Text Summarization dataset），是哈工大提出的从新浪微博获取的短文本新闻摘要中文数据集。该语料库由240 万篇真实的汉语短文组成，每一篇文章的作者都给出了简短的摘要，其中手工标记了10 666 个简短摘要与相应的简短文本的相关性。

5）其他数据集。除了以上数据集，还可以通过其他不同途径获取数据集，如文献［74］发布的一个基于新浪微博的中文数据集，共包含863 826 个样本，以及通过参加摘要类比赛获取相关数据集等。

目前生成式自动文本摘要领域的主流数据集偏向于英文，由于国内在该领域的研究滞后于国外，因此对于中文数据集的制作、共享、使用及研究程度不深。此外，常用数据集多为短文本数据集，长文本或多文档数据集尤为缺乏。随着深度学习的不断发展，各研究对于数据集的需求急速加大，需要各界学者持续加大对于该领域数据集的全方面研究力度，其中包括长文本摘要数据集、多文档摘要数据集、多语言混合摘要数据集、科研或医学或法律等方面具有领域特色的细粒度摘要数据集，等。

4.2 评价标准

生成式自动文本摘要评价标准可以分为人工测评方法和自动测评方法2 种。人工测评即专家进行人工评判，综合考虑摘要的流畅性、中心思想相关性、可解释性等方面进行评价。本文主要介绍自动测评的评价标准，其中分为内部评价和外部评价标准2 类，内部评价标准包含信息量、连贯性、可读性、长度、冗余度等，外部评价标准为间接评价，包含检索准确度、分类准确度等。在生成式自动文本摘要任务中，ROUGE（Recall-Oriented Understudy for Gisting Evaluation）［73］是一种常用的评价标准。ROUGE重在召回率，将系统生成的自动摘要与人工生成的标准摘要做对比，通过统计两者之间重叠的基本单元数目，来评价摘要的质量。在当前环境下，ROUGE 是最常用的自动文本摘要评价标准，而ROUGE-1、ROUGE-2、ROUGE-L 是其中最常用于评价自动文本摘要效果的3 个子标准。

虽然ROUGE 评价标准已经得到了广泛的认可，但是抽取式摘要方向在深度学习提出之前占据了自动文本摘要领域的主导地位，ROUGE 评价方法也深受影响。在随深度学习快速发展的生成式摘要任务领域，该方法评测质量比不上人工，因为它只是从基本语义单元的匹配上去评测候选摘要和标准摘要之间的相似性，缺少语义方面的维度比较，注重外部评价而欠缺内部评价。针对ROUGE 不可微的缺陷，不少研究在设计损失函数时，将ROUGE 评价标准融入损失函数并训练优化方法［53］。

针对ROUGE 缺少内部评价的缺陷，越来越多研究者提出内部评价优先的评价标准，ZHANG 等［75］提出命名为BERTScore 的文本自动生成评价指标，计算候选句子中每个标记与引用中每个标记的相似性分数，即使用具有上下文信息的BERT 嵌入来计算相似度。在多个机器翻译和图像字幕基准上的评估结果表明，在与人类判断的相关性这一维度，该评价指标比现有的度量标准更准确，甚至优于特定任务的监督度量标准，可以作为自动文本摘要评价标准之一。FABBRI 等［64］将BERTScore 作为建立摘要模型评价体系的12 个指标之一，用以评价摘要模型的连贯性、一致性、流畅性、关联性等特性。CHAKRABORTY 等［45］使用自定义的归一化n-gram新颖性标准对生成式摘要进行比较，实现新词生成方面的较大突破，但新颖性主导势必会导致ROUGE评分一定程度的降低。BHANDARI 等［76］研究无人评判下的自动评估有效性问题，提出不局限于狭窄评分范围，同时从摘要生成的难易性、抽象性和覆盖面间进行综合评估，强调了需要收集人类的判断来识别值得信赖的度量标准，表示比较相关性时应使用统一宽度的箱以确保更稳健的分析，指出比较抽象数据集上的摘要系统时需要谨慎使用自动评价标准。

虽然越来越多的研究者认清并针对ROUGE 的缺陷提出各种假设和实验方案，但仍没有一个方案取代ROUGE 这一评价标准，因此，设计一个更为合适和权威的综合外部评价和内部评价的摘要评价标准，是目前文本摘要任务领域的一个重要研究方向。

5 发展局限性及前景分析

随着深度学习的快速发展，语义提取模型从早期使用正则和传统的机器学习方法向pipeline 的方式进化，再进化到端到端的自动摘要模块textsum［77］和序列到序列框架。同时，模型使用的特征抽取器也逐步进化，从CNN、RNN 到LSTM/GRU，再到基于Transformer 的MASS［56］、TAAS［57］、UniLM［58-59］、T5［60］、STEP［61］、BART［62］、PEGASUS［63］、ProphetNet［64］等预训练模型，信息抽取能力越发强大。深度学习理论发展至今，预训练的语料库数据越来越庞大，模型学习能力越来越强。但是，预训练的基础是对语料库的预训练，而语料库总有极限也很快会到达极限，那么预训练模型的突破必然会受限于语料库的数量和质量。同时，模型网络越发庞大意味着参数的急剧增长，必须对此进行研究，否则模型系统会出现越来越大的黑盒。黑盒的不可解释性和不可控性必然阻碍人工智能的可信赖程度，从而可能导致未来发展的不可控性。

本文针对深度学习的生成式文本摘要技术指出以下6 个方面的发展前景：

1）目前各模型在ROUGE 得分方面稳中有进，多数模型建立的目标中包含关键问题的部分作为目标函数，但更值得深究的是与关键问题之间的关联程度，因此，应继续探索解决生成式自动文本摘要关键问题（未登录词、生成重复、长程依赖等）的解决方案，尽可能在一个模型中解决多个问题，研究仍有较大探索空间。

2）推动制定更权威的生成式自动文本摘要评价标准，改进ROUGE 偏向外部评价的缺陷，提高对于生成式摘要模型输出的准确性、语义相关性、冗余性、流畅性等属性的评价标准权威性。

3）促进传统摘要模型思想与基于深度学习的生成式自动文本摘要模型思想进一步融合。例如抽取式与生成式的融合：针对长文档，首先利用抽取式模型将重要句子抽取，转化为符合中心思想的中短文档，再将文档送入生成式模型进一步压缩为短摘要。

4）强化可解释性方面的研究，加速与知识图谱领域的融合，如常识的引入、提高挖掘知识蕴含或推理知识的能力、注意力模块方面在不同的位置或形式对于摘要结果的可解释性等。

5）加速摘要模型的创新性发展，如推动与其他领域或任务模型相融合、改进语义抽取模型、多语言的融合模型、长短文及多文档综合性文摘模型、多模态摘要模型、脑机信号分布融入甚至取代注意力分布的摘要模型、用无监督小数据集训练代替有监督大数据集训练的摘要模型等。

6）深化摘要任务的下游任务发展，如基于摘要的整编（例如某部门的年终总结可由下属不同职能的分部部门年终总结摘要整编生成）、基于摘要的二次摘要（例如部门某方面的年终总结由下属相同职能的分部部门年终总结摘要整编生成。此外，第3 个趋势前景也属于一种二次摘要任务）、基于摘要的合理研判（如对于投资市场，通过对投资对象的实时新闻等进行汇总并生成摘要总结，并基于摘要总结研判投资趋势）、基于摘要的事实分析（针对生成的摘要内容可能偏离事实的问题，通过融入知识图谱或多专家模型等方法，比对结果后修正生成摘要的事实准确程度）等。

6 结束语

基于深度学习的生成式文本摘要任务是自然语言处理领域的核心任务之一，其中蕴含的各类问题需要被关注并加以解决，传统基于浅层神经网络的方法已经逐渐被基于深度学习的方法超越，但是新的模型方法也有自身的问题。本文总结基于深度学习的生成式文本摘要任务领域相关文献资料，分析未登录词、生成重复、长程依赖、评价标准这4 个核心问题，并以此为分类标准对模型进行分类，研究各模型针对核心问题的解决效果，通过汇总模型设计、数据集、评价指标、生成效果等方面性能，对比分析各模型自身的优势及局限性，并给出相应的解决方案。在此基础上，对该技术未来发展进行局限性分析与前景展望。