关莉莉
吉林电视台,吉林 长春 130021
加权信息论下的突发事件新闻主题抽取方法
关莉莉
吉林电视台,吉林 长春 130021
新闻媒体是传递信息的重要途径,在突发事件发生后,人们往往希望能够通过新闻及时了解到突发事件产生的缘由以及后续发展情况。为了能够将突发事件新闻文本更好的分类,需要采取有效的主题抽取方法,而基于加权信息论的抽取方法,便得以产生并开始运用于该项工作中。本文就加权信息论下的突发事件新闻主题抽取方法进行了研究分析。
加权信息论;突发事件新闻;主题抽取方法
突发事件新闻文本中,主题词出现的位置等都具有一定的特点,通过加权信息论,能够实现对主题词的精准查找,考虑新闻文本主题本身所带有的相关统计信息,从而实现对突发事件新闻的有效分类。因此,相关工作者在工作中,还应积极分析基于加权信息论的主题抽取方法,并予以合理运用,从而进一步完善突发事件新闻分类体系,推动新闻事业的快速发展。
突发事件主要是人们难以预测的、随时随地都有可能发生的、完全随机的时间,而突发事件新闻,则是对这一类时间的新闻报道。突发事件的发生往往与人们的生活有密切关联,因而,人们对突发事件报道也十分关心。相关学者也针对人们在各个阶段的新闻关注热点,进行了统计分析。本文选取了“煤矿爆炸”、“非洲埃博拉病毒疫情”以及“恐怖袭击”三类新闻进行阐述分析,从Web上获取了各500篇语料。
经过一系列的统计分析发现,这几类突发事件新闻文本具有两方面特点。第一,在形式结构上。突发事件新闻文本主要分为正文及标题两部分,标题是对文本内容、事件情况的充分概括,主要由突发事件的发生的地点、事件名称以及带来的影响组成,正文则是包含多个句子,阐明了信息的来源、突发事件的基本信息及其原因、后果等。且正文中的第一句话,往往就会直接表述本信息的来源,其他内容则会在后续句子中进行表述。第二,在文本长度上,通过对这几类文本的统计分析,发现其标题字数平均在18-20字之间,相差不大,正文句数平均在7.43-11.95句,而字数从100字到400字不等(如表1)。
表1 突发事件各类新闻文本统计分析数据
当前对突发事件新闻主题进行抽取,主要是通过对突发事件主题词在文本主题方面的贡献程度进行分析,从而将其中贡献最大的主题词找出来。在加权算法的运用中,主要是通过对主题词在突发事件新闻文本中的位置、频率以及不同文本间的引用关系等进行计算,一些专家学者还能够通过构词能力、特征字串、语言理解角度等进行抽取。而据相关调查以及研究表明,基于加权信息论的突发事件新闻主体抽取,也能够获得良好的效果。词在文本中的包含的信息量计算公式为H(wi)=-N(wi)×log p(wi)。其中,wi为突发事件新闻文本中的一个词汇,文本用d表示,H(wi)表示该词信息量,N(wi)为该词出现频率,p(wi)则为该词概率分布。通过极大似然估计方法,对词的概率分布进行计算,公式为p(wi)=F(wi)×F。其中,F(wi)为训练文本中该词出现的频次,F则表示文本集中总词频数[1]。为了能够结合主题词的实际分布情况,还需基于加权信息论,将文本形式特征以及词汇所处位置加入计算中。设Y为句权向量,Xi为词位向量,且Y=(s1,s2,…,sj),Xi=(pi1,pi2,…,pik),sj为该词在文本中j句的重要性因子,pik则为该词在j句中出现的频次,n为总句数。两个向量的乘积,就是最终词汇的位置权重,通过将其与信息论特征抽取方法结合,便能够获得最终结果。文本首句即标题句,在主题中贡献最大,权值最大,其次为第三、四,五句,再者为第二句消息来源,最后为其余句子,权值较小。
加权信息论下的突发事件新闻主题抽取方法应用中,应先进行文本预处理。分词并获取词集合,对一些语气词、介词等词汇进行剔除,获得候选词集c(w1,w2,…,wm)。其次,需要进行权威计算,对c中的所有词汇按照上述方法进行位置权重计算,并结合H(wi)值,计算出wi的总权重。最后,对所有词的权重计算结果进行排列,选取权值最大的几个词,组合成最终的主题。
为证明加权信息论下的突发事件新闻主题抽取方法的有效性,将这一方法与人工抽取方法一同运用,并对所获取结果进行比较分析。选用“煤矿爆炸”类突发事件新闻100篇、“非洲埃博拉病毒疫情”类突发事件新闻100篇以及“恐怖袭击”类突发事件新闻100篇,用于训练语料,同时,每一类别中选出25篇文本作为测试语料。运用两种方式对新闻主题进行抽取后发现,“煤矿爆炸”文本中,有22篇结果一致,与人工抽取一致比率在88%,正确率在96%。“非洲埃博拉病毒疫情”文本中,有13篇结果一致,比率在52%,正确率在36%,其主题偏离率较大的原因主要是文本本身结构性较差、内容分散。而在“恐怖袭击”文本中,有21篇结果一致,比率在84%,正确率在88%。且据相关学者对加权信息论以及信息论下的主题抽取结果比较发现,加权信息论下的突发事件新闻主题抽取方法的准确度与人工抽取相比,明显呈现出了提高趋势,由此,可见这一方法在主题抽取中的重要性及良好的效果。
本文基于突发事件新闻文本相关统计数据,运用加权信息论方法进行主题抽取,并将抽取结果与人工抽取相比较,得出了这一方法具有良好性能的结果。相关工作人员也应加强对这一方法的研究,并将其灵活运用在其他文本中,以促进当前新闻领域相关技术方法的进一步发展。
[1]韩永峰,许旭阳,李弼程,朱武斌,陈刚.基于事件抽取的网络新闻多文档自动摘要[J].中文信息学报,2012,1(1):58-66.
[2]夏华林,张仰森.基于规则与统计的Web突发事件新闻多层次分类[J].计算机应用,2012,2(2):392-394.
[3]曹学艳,张仙,刘樑,方宽,段飞飞,李仕明.基于应对等级的突发事件网络舆情热度分析[J].中国管理科学,2014,3(3):82-89.
TP
A