黄鑫池
摘要 随着近些年的移动互联网的高速发展,网络中的新闻资源急速增长,而读者希望能够快速有效的获取新闻中的关键信息,筛选适合自己喜好的新闻进行阅读。因此为新闻生成一条简洁全面并且有吸引力的标题会极大的提升读者的阅读体验,特别是在移动新闻客户端中,用户往往仅根据推送消息中的简短的标题中的内容决定这条新闻是否符合他的喜好,从而决定是否阅读,标题直接影响了在移动新闻客户端中的一条新闻的阅读量。具体来说,新闻标题是一则新闻的内容的概括,旨在用最简短的语言最大限度的呈现新闻中的关键信息,同时还要足够新颖,能够吸引读者的注意,同时也应该避免标题内容夸大事实引起读者反感。
【关键词】神经网络 生成摘要 汉语新闻标题
1 新闻标题生成技术的相关研究
1.1 新闻标题生成技术
在实际应用中,由于新闻资源过多,使用新闻标题生成技术为新闻自动生成一个准确、流畅且有吸引力的标题很有必要。事实上新闻标题生成是自动文本摘要技术的一个分支,自动文本摘要技术是从一篇或多篇原始文本中提取出文本中的关键内容,并且要求摘要的长度不大于或远小于原始文本的长度,其广泛应用于自动报告生成,搜索结果预览,论文摘要生成等。尽管实际应用中对于自动文本摘要技术有着巨大的需求,但是自动文本摘要技术的发展仍然十分缓慢,其要求计算机能够对原始文本中的关键信息进行识别,筛选,重新组合,同时还要兼顾生成摘要的语义连贯性和流畅性,特别的对于新闻标题生成任务而言还需要考虑标题的新颖程度。
1.2 自动文本摘要技术
自动文本摘要技术种类按照实现的方式大致可分为抽取式和摘要式两种。抽取式要求计算机根据原始文本中的句子或者其中的某些词的重要程度,选取一些词或句子将他们重新排序,生成一段流畅的摘要。摘要式并不要求生成的摘要中的句子或者词完全来自于原始文本,而是要求计算机根据原始文本的语义信息通过复杂的自然语言处理技术产生一段能够准确代表这段文本的语义信息摘要,这一过程更加接近人类对文本进行摘要的过程,同时也更加复杂。对于抽取式文本摘要由于其相对简单,且易于理解。
人们很早就对抽取式自动文本摘要进行了研究。1958年,Luhn等人提出了一種基于特征得自动文本摘要方法他们加设原始文本中得高频词可以代表文本的主题因此选取涵盖文本中高频词得句子并加以组合生成摘要,在此基础上Edumdson等人综合考虑了线索此,标题词和句子所在位置以及关键词词频等因素,选取最有可能成为摘要的句子组合成为摘要。随着统计自然语言处理技术的发展,Aone等人于1995年提出了一种基于统计的自动摘要生成系统,该系统基于朴素贝叶斯模型计算原始文本中每个句子属于摘要的概率,并根据概率排序选取概率较高的句子组合成为摘要。随后Osbonre等人提出了一种基于对数线性模型的自动摘要生成系统,相比较于朴素贝叶斯模型其性能有较大提升。以上这些工作都是只是局限于抽取式方法,而摘要式由于需要理解原始文本的语义,长久以来摘要式生成方法没有得到较大的发展,然而今年来人工神经网络特别是循环神经网络在自然语言处理领域的广泛应用使得摘要式方法成为可能。
2015年Rush等人首先将人工神经网络和注意力机制应用于自动文本摘要领域并在DUC-2004和Gigaword上取得了优异的成绩,随后Chopra将循环神经网应用于这一问题在此基础上Nallapati又引入了分层神经网络,明显的提升了自动文本摘要系统的性能思维。
2 模型的选取应用与实验
2.1 选取模型进行实验
由Abigail See和Peter J Liu等人所提出的结合覆盖机制的指针生成网络,在英语的自动文本摘要领域取得了很好的成绩。所以实验选取了以下几个模型进行实验:
(l)带注意力机制的序列到序列网络。
(2)指针生成网络。
(3)覆盖机制。
2.2 实验具体实验过程如下
实验方面:由于时间有限,没有基线系统,只有一次实验结果,并不一定是最佳结果。语料处理方面:本次实验所使用的汉语新闻语料来自于搜狗实验室其包含了来自若干新闻站点2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。获取得到中文新闻语料共计1143520条。在预处理时采用了Stanford Core NLP进行分词。为了加快模型训练速度,本次实验选取的词表大小为50000,从训练数据的分词结果中选取出现频率最高的50000个词作为词表,其余词标记为UNK。模型参数:模型采用服从正态分布的方式进行随机初始化。模型使用Adam算法作为模型的优化算法,学习率为0.15,初始累加器值为0.1。为了避免梯度梯度爆炸问题,这里采用了梯度裁剪技术,正则项系数为2在训练时,我们将新闻内容分为小段,每个小段不超过400个词,每个标题限定为不超过100个词。模型训练迭代轮次为300000轮,批次大小设置为16。单次训练使用Titan Xp GPU训练需要3天10小时。
2.3 实验结果分析
实验结果测试数据为从测试集数据中随机选取得到的100个生成摘要及其参考摘要。在随机抽取的文章中提取一篇如下:“中广网遂川6月13日消息(记者胡啸、通讯员梁路峰、刘会平)6月11日,江西遂川县公安局在开展打击侵财性犯罪专项行动中,侦案民警通过千里追踪,数夜蹲守,在南昌县抓获4名涉嫌诈骗的犯罪嫌疑人,缴获作案车辆2辆,破获系列“捡钱分钱”诈骗案。
2011年11月份以来,遂川县发生多起“捡钱分钱”诈骗案,受害人达10余人,涉案金额近10万余元,且受害人多为中老年人,受害人群中,不仅财物受到损失,精神也受到损伤,严重影响了人民群众的安全感。
6月4日,遂川县泉江镇银川大道发生一起“拾钱分钱”诈骗案,案件发生后,刑警大队迅速展开侦查,发现一辆车牌号为“赣M83702”的五菱面包车和一辆车牌号为“赣M76903”的长安面包车纳入侦查员的视线,该局情报信息研判科迅即跟踪侦查,通过信息研判、调查取证,一个由几名南昌县八一乡籍的犯罪分子组成的诈骗团伙浮出水面。
因这几名犯罪嫌疑人都是南昌县人.且该团伙人员大都是南昌县八一乡某村人,该村民风彪悍,给抓捕工作造成巨大的困难。
6月5日,侵财性案件专项行动组民警不顾前一夜通宵工作未眠之劳累,由刑警大队副大队长刘会平立即带领王强伟、刘海平、李晨三名刑警又前往南昌开展抓捕工作,经过细致摸排数夜蹲守,在南昌市警方的大力协助下,于6月8日成功抓获4名犯罪嫌疑人,并缴获作案车辆2辆。
当晚,专案组民警连夜将这4名犯罪嫌疑人带回遂川突审。4名犯罪嫌疑人在铁一般的证据和事实面前,主动交代其所犯下的犯罪事实。
目前,4名犯罪嫌疑人都已刑事拘留,案件在进一步审理中。
作者胡啸梁路峰刘会平”
在此文中,生成的摘要为“江西、遂川县、警方、破获、系列、捡钱分钱、诈骗案”,而本文的参考摘要为:“江西、遂川、系列、捡钱分钱、诈骗案、警方、破获”。通過对实验结果的分析可以发现生成的摘要语义与参考摘要相近,并且生成摘要可以很好的概括输入文本中的关键信息。
3 总结
通过运用不同的模型进行实验,以及对其实验结果的分析可以发现自动生成的摘要语义与人工摘要相近,并且系统生成的摘要相比人为摘要,更加省时省力,同时也可以很好的概括文章中的关键信息。
参考文献
[1] Manning.
Chris topher D., MihaiSurdeanu, John Bauer, Jenny Finkel,Steven J. Bethard, and DavidMcClosky. The Stanford CoreNLPNatural Language, 2014.
[2] Abigail See, Peter J. Liu.Christopher D. Manning. Get To ThePoint: Summarization with Pointer-Generator Networks [C]. ACL. 2017.
[3]Marc' Aurelio Ranzato. SumitChopra, Michael Auli, WojciechZaremba. Sequence level trainingwith
recurrent
neural
ne tworks[C].International Conference on LearningRepresentations. 2016.