面向人民日报语料的新闻自动摘要生成

2022-10-09 00:42梁媛王东波黄水清
知识管理论坛 2022年4期
关键词:语料自动文本

梁媛 王东波 黄水清

1.南京农业大学信息管理学院 南京 210095

2.南京农业大学人文与社会计算研究中心 南京 210095

1 引言

网络信息的爆炸式增长在使人们获取信息更加便利的同时,也带来了信息利用效率低、阅读成本过高等问题,而自动摘要技术通过对信息的压缩和精炼,为提高知识获取效率提供了辅助手段[1],该技术的产生和发展使解决上述问题成为可能。目前,自动摘要的主要方式有抽取式和生成式两种,抽取式自动摘要起步较早,经过许多学者多年研究,该技术已较为成熟,而随着机器学习引入到自动摘要领域,生成式自动摘要再一次迎来了发展的可能。

新闻是记录社会问题、传播时代信息、获取时事热点的重要途径,而《人民日报》是中国共产党中央委员会机关报,是国家与人民沟通的主要媒介,也是国内外文化交流的桥梁,因此,人民日报语料的研究具有重要意义。本文实验语料来自新时代人民日报语料库(New Era People’s Daily Segmented Corpus,简称NEPD)[2],NEPD中收录的《人民日报》文章经过人工分词和校对,是具有良好可用性的精语料[3]。通过NEPD中的语料可快速便捷地计算词语及其频次,进而进行后续的数据预处理,完成相应的文本处理任务。

笔者结合人们新闻浏览趋势的变化,针对大量新闻文本需要精炼的特征,面向人民日报语料,实现抽取式新闻自动摘要算法和生成式自动摘要模型的构建,并对摘要结果进行评价,进而提高新闻信息使用效率,节省用户阅读成本,为文本自动摘要技术及其评价方法提供思路。

2 相关研究

早期,莫燕[4]和王永成[5]介绍了自动文献摘要和自动提取知识的思想和算法。之后,王永成和许慧敏[6]、王知津[7]分别提出并设计了OA中文文献自动摘要系统和基于句子选择的自动文本摘要系统,并对中文文献自动摘要的历史、发展和意义进行了概述。史磊和王永成[8]则对英文文献自动摘要系统进行了研究。

在前人研究的基础上,文本自动摘要研究得以快速发展,各类算法推陈出新。熊娇等[9]、张筱丹和胡学钢[10]、刘星含和霍华[11]、纪文倩等[12]、曾哲军[13]、刘静和肖璐[14]分别采用图模型、向量空间模型、互信息、连续LexRank算法、依存句法分析图模型对文本进行自动摘要处理。王帅等[15]采用基于图模型和循环神经网络模型两阶段的长文本自动摘要方法,在大规模金融长文本数据上进行了摘要生成实验;吴云等[16]提高与标题相似的特征词的词频,进而计算词频矩阵和句子相似度,得到了词句协同的自动摘要提取算法;陈晨等[17]应用词句协同排序提出了基于图模型的自动摘要算法;丁建立等[18]采用多维度词嵌入模式,基于双编码器融入双通道语义对短文本进行自动摘要任务;冯读娟等[19]同样基于双编码器网络结构构建了CGAtten-GRU模型,并在大规模中文短文本摘要中取得良好的效果;廖涛等[20]参考图结构表示提出了事件网络表示文本中的事件关系,进而进行文本自动摘要;徐馨韬等[21]改进了TextRank算法,将Doc2Vec模型和K-means算法融入其中,优化了主题句提取生成摘要的效果;陈海华等[22]将引文上下文内容特征与支持向量机(support vector machine, SVM)模型融合,对学术文本进行自动摘要;黄水清等[23]根据计算机类文献设计了该领域自动文本摘要系统;张晗和赵玉虹[24]则针对医学文本,对文本及语义关系进行规范化抽取和语义图的构建,以实现句子主题归类,进而生成摘要;陈志敏等[25]、李芳和何婷婷[26]则从信息检索方面入手,基于用户查询扩展及查询文档集合辅助生成摘要。

在这些算法中,采用主题划分、多特征融合算法的自动摘要研究尤为突出。张哲铭等[27]提出了结合主题感知与通信代理的高质量长文本摘要模型,能够生成主题突出的摘要结果;陈燕敏等[28]提出了一种融合主题与内容的自动摘要方法,并通过指代消解获得具有良好的连贯性和流畅性的自动摘要结果;罗芳等[29]改进了图模型方法,基于隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型挖掘出的主题语义信息,将主题特征、统计特征和句间相似度等多维度对文本进行度量和抽取,最终达到深层主题语义挖掘利用的目的,实现自动摘要;杜秀英[30]针对大规模多文本摘要,构建了基于聚类与语义相似分析的MapReduce自动摘要架构,在时间性能、压缩效果和摘要质量上都有一定的提升。但以上方法和模型主要集中于抽取式自动摘要的研究,而对于生成式自动摘要仍有较大的研究空间。

随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式摘要到生成式摘要的方向演化,从而达到生成更高质量的自然流畅的文摘的目的。近年来,深度学习技术逐渐被应用于生成式摘要研究中。吴世鑫等[31]基于带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型引入语义对齐的神经网络,实现生成式自动摘要模型的构建;方旭等[32]提出了一种结合核心词修正的长短期记忆网络(long short-term memory,LSTM)算法自动生成中文短文本摘要;唐晓波和翟夏普[33]改进了PageRank算法,并采用句子向量化、分类器分类、句群划分和句子重组混合机器学习模型进行多文档自动摘要研究;谭金源等[34]和张克君等[35]融合多个深度学习模型分别提出了Bi-MulRnn+和BERT-指针生成网络BERT-PGN生成式自动摘要模型,有效改善了生成式摘要的准确性和流畅度;李维勇等[36]、肖元君和吴国文[37]也都进行了基于深度学习的中文生成式自动摘要模型的研究与实现。

逐渐加快的生活节奏不断改变着人们的阅读习惯,人们从纸质书籍、报刊转向电子化阅读,阅读的新闻也逐渐转为短文本,因此,新闻媒体以及读者对于新闻摘要自动化的需求也随之增大。官礼和[38]分析了中文网络新闻自动摘要的思路和流程,并通过实验进行了分析佐证;韩永峰等[39]探讨了自动摘要中信息冗余的问题,并提出了基于事件抽取的网络新闻多文档自动摘要的改进方法;沈洲等[40]建立了新闻文献主题提取规则库,构建了面向新闻文献基于规则的自动摘要系统;李孟爽等[41]提出的自动摘要算法是基于互信息对文本词句语义特征的计算结果,并据此进行主题划分,抽取出关键句生成最终的文本摘要;王凯祥和任明[42]为满足用户查询的信息需求,设计了基于查询的新闻自动摘要算法,还与TFIDF、TextRank、LDA等6种方法进行了对比实验;黄小江等[43]基于协同图排序模型自动生成了新闻话题的对比摘要,具有很强的新颖性;柯修和王惠临[44]则融合多种算法,包括指代消解、文本外部特征和图排序方法,实现了汉语、英语、孟加拉语3个语种的多文档新闻自动摘要;叶雷等[45]同样采用图排序方法,提出了多特征融合的汉越双语新闻摘要方法,能够自动获取同一事件的汉越双语新闻摘要。除新闻外,如微博、论坛等用户自主生成内容中的信息也拥有巨大的研究价值,而自动摘要是获取这类重要信息的一种手段,但这些短文本高冗余、高噪声等特征对于自动摘要造成较大的影响[46],学者们[47-50]也在为解决这一问题作出不懈努力。

通过对上述文献的梳理可以发现,从基于规则、基于统计到后来的深度学习,从普通文本到动态视频,自动摘要技术的研究正随着技术的进步和用户的需求不断更迭发展着。而新闻自动摘要一直具有重要意义,其能够在很大程度上满足人们快节奏生活中的新闻获取。但目前新闻自动摘要的应用型研究主要集中在新闻的抽取式自动摘要上,而对于生成式自动摘要尚未有领域性、准确性较强的模型和系统。因此,笔者面向人民日报语料展开自动摘要的研究,通过传统算法和深度学习算法完成自动摘要任务,旨在根据当前主流新闻媒体的文本特征构建自动摘要模型,解决用户阅读长文本新闻耗时长、信息利用率低的问题,同时也为新闻媒体的知识聚合服务提供帮助,为新闻传播、文化传承提供新思路。

3 算法模型介绍

自然语言处理(natural language processing,NLP)作为一个传统研究领域,自其产生始终热度不减,其中缘由不只是新技术的诞生和引入,也因NLP有“最困难的人工智能子领域”之名。其中的自动摘要任务也是研究者们不断研究、突破的主要难点之一,特别是在快速阅读成为人们生活中非常重要的阅读方式的前提下。目前,自动摘要方法按生成方式主要分为抽取式自动摘要和生成式自动摘要,抽取式自动摘要主要应用关键词句排序的思想,而生成式自动摘要更多是基于深度学习模型来完成。在本文的实验中,抽取式自动摘要主要运用了关键词确定句子权重和TextRank等传统算法的思想,生成式自动摘要则参考了基于指针生成网络构建的面向中文的Text-Summarizer-Pytorh-Chinese模型[50]及其思路。

3.1 抽取式自动摘要

本研究中的抽取式自动摘要主要采用的是按词频和簇确定关键词,再通过关键词对所在句打分,分数排序确定最终生成摘要的句子。这种方法源自IBM公司H. P. Luhn的一篇文章The Automatic Creation of Literature Abstracts[51],他提出用簇(cluster)表示关键词的聚类结果,这里的簇即包含多个关键词的句子片段,如图1所示:

图1 关键词簇聚类示意图

簇权重的计算公式[52]如下:

其中,簇长指句子片段中所包含词语的数量,以本研究中的部分人民日报语料为例:

“经过全国各族人民共同努力,‘十二五’规划圆满收官,广大人民群众有了更多获得感”,

分词后语料实例为:

“经过/全国/各族/人民/共同/努力/,/‘/十二五/’/规划/圆满/收官/,/广大/人民/群众/有/了/更/多/获得感”,

设“‘十二五’规划圆满收官”为一簇,簇长为6,“十二五”“规划”“收官”为关键词,“广大人民群众有了更多获得感”为另一簇,簇长为8,关键词为“人民”“群众”“获得感”,则两簇权重分别为32/6=1.5和32/8=1.125。按权重对文本包含的句子进行排序,确定抽取阈值(本文设定的阈值为10,即抽出重要性最高的前10个句子),将这10个句子整合,即为该文本的自动摘要。类似TextRank算法,该算法源于PageRank算法,相当于将网页替换为句子,通过句子相似度矩阵以及设定的阈值来获得得分较高的句子作为自动摘要结果,这是一种无监督的抽取式自动摘要。

3.2 生成式自动摘要

指针生成网络(pointer-generator network)的自动摘要任务原理见图2。该模型能够通过自注意力机制集中于文本中的重要词汇,并由此生成新词汇。同时,它不是通过复制原词来生成摘要,而是权衡词表中词汇的概率、词汇分布以及注意力分布来确定候选词的权重并获得最终分布情况。

图2 指针生成网络自动摘要原理图示[53]

目前,面向中文的基于指针生成网络自动摘要的模型较少,因此,笔者参考Text-Summarizer-Pytorch-Chinese的 构 建 思 路,将预训练语料调整为NEPD语料,词表也针对NEPD语料进行了更新,之后再进行预训练和模型构建。

4 面向人民日报语料的新闻自动摘要生成实验

“《人民日报》是一张权威、严肃的综合性日报,凭借其采编力量对新闻事件做出反应,报道国内外重大事件”[54]。作为耳目与喉舌、桥梁和纽带的主流媒体,其文本信息价值不言而喻,人民日报语料一直以来也是研究者们的重要数据来源,其中,北京大学计算语言学研究所构建的人民日报语料库[55]是我国第一个大型的现代汉语标注语料库,之后,南京农业大学人文与社会计算研究中心在2019年对2015年至2018年《人民日报》发表的文章进行加工处理,构建了新时代人民日报语料库(NEPD)[56]。本研究以NEPD中2015年1月、2015年6月和2016年1月3个月的语料为实验对象展开研究,原始语料如图3所示:

图3 NEPD原始语料截图示例

4.1 数据预处理

根据本研究需要,笔者将每篇新闻从源语料中分割出来,处理后的文本见图4,为之后的摘要抽取和生成做准备。经过数据清洗(同时清洗了未生成标准摘要的数据),获得2015年1月新闻2 628条、2015年6月新闻916条、2016年1月新闻2 748条,共计6 292条数据,本研究将以上述数据作为研究对象进行自动摘要研究。

图4 单篇新闻截图示例

4.2 实验环境与参数设置

本实验中生成式自动摘要模型训练及测试时采用的操作系统为ubuntu 16.04,内存为16GB DDR4,显 存 为4GB GDDR5,CPU为Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz,GPU型号为NVIDIA Quadro K1200。生成式自动摘要模型参数设置如表1所示。

表1 生成式自动摘要模型参数设置

4.3 实验流程

本研究主要分为两个部分:面向人民日报语料的新闻抽取式自动摘要算法(以下简称“抽取式自动摘要算法”)研究,以及面向人民日报语料的新闻生成式自动摘要模型(以下简称“生成式自动摘要模型”)构建。

在抽取式自动摘要算法实验中,主要包括以下8个步骤:①人民日报分词语料获取; ②待摘要文本预处理:包括去除特殊字符和空格空行等;③去停用词和词频统计:由于本研究选用的NEPD语料为精校过的分词语料,因此,不需要进行分词处理,在去停用词后直接进行词频统计即可;④计算句子权重:参考特征包括标题关键词信息、句子长度等特征; ⑤根据权重对句子进行排序;⑥选定合适的阈值提取摘要句;⑦生成摘要;⑧根据标准摘要对自动摘要进行评价(评价指标包括Rouge-1、Rouge-2和Rouge-L)。

生成式自动摘要模型构建过程主要包括以下7个步骤:①人民日报分词语料获取;②待摘要文本预处理:去除特殊字符和空格空行等,并根据模型要求调整训练语料格式;③预训练模型构建:将步骤②中的语料进行预训练,得到具有《人民日报》特色的预训练模型;④加入特征:根据NEPD分词语料统计关键词,并作为自定义词表引入到模型训练中,同时加入标题特征;⑤生成式自动摘要模型训练:根据训练过程及结果调整参数并进行迭代训练;⑥根据最终模型生成摘要;⑦根据标准摘要对自动摘要进行评价(评价指标包括Rouge-1、Rouge-2和Rouge-L)。

5 实验结果评价与分析

由于目前尚无针对人民日报语料的摘要标准语料库,因此,笔者在对自动摘要实验结果进行评价时,分别以关键词词频抽取式自动摘要结果和百度智能云的新闻摘要接口的分析结果作为标准摘要集合。百度智能云的新闻摘要是基于深度语义分析模型自动抽取文本,能够根据文本中的关键信息进一步生成指定长度的新闻摘要[57]。

以本文选取的人民日报语料为例:

标准摘要(关键词词频抽取式自动摘要):

“恐怖主义是国际社会公敌,中国历来反对一切形式的恐怖主义,积极参与国际反恐合作。军队和武警部队出境执行反恐任务,要遵守《联合国宪章》的宗旨和原则,遵循国际关系准则,并充分尊重当事国的主权。至于今后军队和武警部队是否赴境外反恐,将根据国家统一部署作出安排。”

自动摘要(面向人民日报语料的抽取式自动摘要):

“中国军队和武警部队赴境外反恐将根据国家统一部署作出安排,军队和武警部队出境执行反恐任务,要遵守《联合国宪章》的宗旨和原则,遵循国际关系准则,并充分尊重当事国的主权。至于今后军队和武警部队是否赴境外反恐,将根据国家统一部署作出安排。”

标准摘要(百度智能云新闻摘要):

“据报道,在河南省南阳市镇平县城郊乡的大刘营村,因当地污染严重,怀孕的村民只能离村待产。媒体曝光之后,当地已经责令涉事企业停产整治,并且问责环保部门领导。村民以这种方式远离环境污染,映射出对美好生态环境的要求底线,更映射出恶意排污的现实和环保执法的缺位。让我们的后代成长在美好的环境中,这是我们对子孙后代的责任。”

自动摘要(面向人民日报语料的生成式自动摘要):

“重庆的不会愿意折腾到外村村民村民以这种方式远离环境污染映射出对美好的生态环境。”

5.1 评价指标

Rouge(recall-oriented understudy for gisting evaluation)是评估自动摘要、机器翻译等自然语言处理任务的常用指标,它是将标准摘要和自动生成摘要进行相似度计算,得到的数值即为评价结果,计算公式如下[58]:

其中,分母为n-gram个数,分子为标准摘要和自动摘要共有的n-gram个数。例如,Rouge-1中的分子是自动摘要和标准摘要中均出现的1-gram的个数,分子是标准摘要的1-gram个数。笔者选取的评价指标为Rouge-1、Rouge-2和Rouge-L,Rouge-L是 指 运 用LCS(longest common subsequence,最长公共子序列)计算的Rouge评测指标,计算公式分别为:

其中,LCS(X,Y)是X和Y的最长公共子序列的长度,m和n分别表示标准摘要和自动摘要的长度(通常为词语个数),Rlcs和Plcs分别表示召回率和准确率。B的数值通常较大,导致Rouge-L几乎只考虑召回率Rlcs,这与Rouge-N相同。

此外,上述3种Rouge评测指标内部运用的P、R、F为准确率(Precision)、召回率(Recall)、F值(F-Measure)。具体计算公式分贝如下:

5.2 实验结果

在抽取式自动摘要实验中,本研究分别通过词频和簇聚类抽取关键词的方式对句子进行打分,并按分数对句子进行排序,进而抽取出相应的摘要结果。将词频抽取式自动摘要结果作为标准摘要,将簇聚类抽取式自动摘要作为自动摘要结果并与标准摘要进行Rouge评测,部分摘要结果截图如图5所示:

图5 自动摘要实验结果示例

全部自动摘要的综合评测结果见表2。通过表2可以看出,整体上抽取式自动摘要实验结果抽取效果良好(均值:Rouge-1=0.8447,Rouge-2=0.8257,Rouge-L=0.8446),能够对原始语料进行大致概括。由于在抽取式自动摘要实验中,标准摘要同样为自动生成,且在Rouge指标计算相似度的过程中,一旦抽取出的语句与标准摘要不同,则两个对应的完整长句相似度将会极低,这可能会导致Rouge指标明显偏低的问题出现。因此,笔者将会在未来的研究中一方面调整标准摘要的准确度,另一方面完善自动摘要的评价方法。

表2 抽取式自动摘要实验评测结果

在生成式自动摘要实验中,本研究将全部新闻语料进行预处理,接入百度智能云新闻摘要接口,获取相应的自动摘要结果,由于该平台输入文本长度有限,因此,笔者经过代码筛选,共获得7 967条符合文本长度限制的新闻文本。另外,由于本文拟构建的指针生成网络模型需要大规模训练语料,遂将2015年1月、2015年6月和2016年1月3个月的原始语料合并后再继续进行实验。

对语料进行预处理后,将原始文本和标准摘要(百度智能云生成摘要)匹配并输入指针生成网络模型中进行训练和测试。笔者在模型训练过程中引入了自定义词表,该词表由NEPD分词语料生成,能够提高自动摘要模型的训练效果,以及生成摘要的流畅度和贴合度。在结果评价阶段,笔者在生成式自动摘要实验中采用的同样是Rouge指标进行评价,评测结果如表3所示:

表3 生成式自动摘要实验评测结果

以本研究生成结果的其中一组数据为例(见表4),不同算法或模型生成的摘要内容有一定的差别,但总体上流畅度问题较小,可读性有一定的差别。抽取式自动摘要由于单句抽取自人民日报原文,因此句子内部可读性高于生成式摘要,句间连贯性低于生成式摘要。从摘要内容整体上看,抽取式摘要包含的内容更丰富,但概括能力较差,内容冗余,句子间关联度较低;而生成式自动摘要有一定的语义理解能力,生成的摘要内容更简练,相对比较符合新闻摘要的特征,对原始语料的总结更灵活,但会出现个别词汇重复、摘要内容不全面等问题。

表4 面向《人民日报》的新闻自动摘要生成结果样例

本研究选用的评测指标为Rouge指标,这种评价方式虽然直观简洁并且能够在一定程度上反映词序和摘要效果,但该指标区分度不高,特别是Rouge-N中N>3时,指标数值通常较小[58],对结果评价有较大影响。除此之外,Rouge指标主要是根据文本相似度对标准摘要和自动摘要进行对比,同时,它具有一定的奖励机制,会给予原始表达(词汇)更高的分数[53],这就导致在同一篇新闻中,通常抽取式自动摘要的分数会高于生成式自动摘要。因此,这种计算方式有一定的局限性,特别是对于生成式自动摘要而言更是如此。笔者将在后续研究中尝试多种评价方式对实验结果进行综合测评,主要包括人工生成摘要数据,将其作为标准摘要数据集,或通过对生成的自动摘要人工打分的方式进行评价,以求得到更准确的评价结果。

6 结语

自动摘要是将长文本提炼为简洁精炼的短文本的过程,能够帮助人们快速浏览文本资源并知晓文章大意,节省阅读成本的同时,也提高了知识利用效率,特别是在信息资源日益庞大的当下,自动摘要技术的需求更是与日俱增。笔 者 以NEPD中2015年1月、2015年6月 和2016年1月3个月的人民日报分词语料作为实验语料,根据新闻文本特征,面向人民日报语料设计了基于关键词词频排序和关键词簇排序的抽取式自动摘要算法,并构建了基于指针生成网络的生成式自动摘要模型,均在Rouge测评中取得了良好的实验结果,生成的摘要结果具有较好的完整性。笔者将在接下来的研究中完善算法,改进模型,增强模型的复用性,并对评价方法做出改进,加入文本内外部多个特征,增加人工生成标准摘要数据集和人工打分的环节,以提高自动摘要的流畅性和可读性。

猜你喜欢
语料自动文本
自动捕盗机
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
基于STM32的自动喂养机控制系统
基于语料调查的“连……都(也)……”出现的语义背景分析
关于自动驾驶
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
华语电影作为真实语料在翻译教学中的应用
Stefan Greiner:我们为什么需要自动驾驶?
《苗防备览》中的湘西语料