唐亚娟 张德贤 杨琳
【摘要】 文本自动摘要技术目前已经成为计算机语言学领域的一个研究热点。本文讨论了自动摘要的定义和分类。针对自动文摘中主题句的冗余现象,提出了一种新型的自动摘要冗余处理的方法。该方法将初始文摘中的句子表示成句链.根据任意文摘句中所有特征词的激活水平、初始化水平、影响因子以及语句相干性公式,计算其与其它初始文摘中句子的相干性.去除相干性比较大的冗余句子,从而得到最终的自动摘要。
【关键词】 自动摘要 冗余处理 语句相干性
【Abstract】 Automatic Text Summarization technology has become a hot topic in the field of computational linguistics. This article discusses the definition and classification of automatic summary. Againsting the redundancy of the topic sentences in automatic summary, it puts forward a new method of automatic summarization, which automatically processes prolixity. This method represents sentences in initial abstract into sentence chains. Calculate its initial coherence with other sentences in initial abstract according to activation levels and initialization levels of all the feature words in every sentence in initial abstract, influence factor and statement coherence formula. Remove the sentences which have the relatively large coherence, thus get the final automatic summarization.
【Key words】 automatic text summarization prolixity processing Statement coherence
自动摘要就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。自动摘要技术作为一种典型的文本抽取技术,是信息检索、自然语言处理、文本挖掘等文档信息处理技术的有益补充。通过自动文摘系统生成的主题句,并不一定能作为最终摘要提交给用户。因为经过自动摘要系统初步筛选出来的主题句,通常具有比较多的冗余信息。本文针对自动文摘中的主题句冗余现象,提出了一种新型的自动摘要冗余处理的方法。
一、相关工作
1.1 文本的自动摘要方法
(1)基于统计的自动摘要
基于统计的自动摘要方法,即基于文本物理信息(文本中的词语出现频率、词语出现位置以及句子出现位置等文本表层信息)分析的自动摘要方法,是一种将词语视为句子的线性序列,将句子视为文本的线性序列的方法。此方法步骤如下图(图1)所示:
计算词权、句权、选择文摘句的依据是文本的六种形式特征[2]:F词频(Frequency):一般情况下,中频词往往是指示文章主题的有效词,根据句子中有效词的个数计算句子的权值。T标题(Title):即作者给出的提示文章内容的短语。借助停用词词表,去除标题中的功能词和只具有一般意义的名词,剩余的词和文章内容往往有密切的联系,可以作为有效词。L位置(Location):在文本信息中处于特殊位置(首段、末段、段首、段尾等)的句子的权值应该提升。S句法结构(Syntactic Structure):句式与句子重要性之间存在关联,例如,文摘句多为陈述句,疑问句、反问句、感叹句等不能作为文摘句。C线索词(Clue):句子中有些词或者短语虽然不是有效词,但是它们能起提示作用,告知读者此句含有重要信息,例如“总的来说”、“综上所述”等。
I指示性短语[3](Indicative Phrase):指具有主题的词组,例如“我们认为”、“本文提出”等。
上述各种特征从不同角度指示文章的主题,应该将它们有机结合起来,以W=f(F,T,L,S,C,I)作为计算句子权重的公式。
(2)基于理解的自动摘要
基于理解的自动摘要[4]以自然语言理解技术为核心。对于某一特定领域的文章,利用利用语言学手段识别出读者感兴趣的内容,用话语加以组织,从而形成文摘。此方法步骤如下图(图2)所示:
(3)基于信息抽取的自动摘要
基于信息抽取的自动摘要[5]仅对有用的文本片段进行有限深度的分析。首先识别出文档中的时间、地点、人物和事件等基本实体,并将之套用在事先定义好的模板或者框架中,接着经由这些知识表示模型的推演得知文章内容的主题,最终用模板生成摘要。在知识表示的选择上,相对于不同领域、不同类型的文章,采用不同的知识表示模型表示文档。此方法步骤如下图(图3)所示:
二、基于语句相干性的自动摘要冗余处理
2.1 基本思想
首先对网页过滤后的文本首先进行分词,根据句子中词语的重要性以及句子的位置,抽取文本的初始文摘句,将初始文摘中的句子表示成句链,根据任意文摘句中所有特征词的激活水平和初始化水平以及语句相干性公式,计算其与其它初始文摘中句子的相干性,去除相干性比较大的冗余句子,从而得到最终的自动摘要。
2.2 算法描述
算法:基于相干性的文本摘要的自动生成
输入:一篇待提取摘要的文本;初始文摘占原文本的百分比;最终生成摘要的最小长度阈值
输出:生成的摘要
(1)对输入的待处理文本进行预处理。将文本内容切分成若干段落和句子,过滤掉无用链接,图片信息以及不可能成为摘要句的反问句,感叹句或者疑问句等语句。(2)统计抽取出来的预处理后的文本长度,对文本进行切词处理和特征选择,计算词权,根据词权由高到低抽取若干词语作为特征词。(3)根据特征词词权、标题特征词、提示词、指示性短语、句子所处位置等信息计算句权,将文本句子按照句权权值高低排序,根据初始文摘占原文本的百分比要求,选取权值最高的若干句子作为初始文摘句。(4)根据相干性公式,计算任意两个初始文摘句的相干性,删除相干性高的冗余句,直到文摘长度低于最终摘要的最小长度阈值,最后进行润色,从而得到原文本的最终摘要。
三、结束语
本文介绍了文本自动摘要定义及其分类,并且根据语句相干性,针对初始文摘提出了一种新型的自动摘要冗余处理的方法。该方法对自动摘要中基于词语共现的信息冗余处理提出了一个新思路,希望对这方面的深入研究做出一点贡献。在下一步的工作中,将对此方法的完善做进一步的研究。
参考文献
[1] 江开忠,李子成,顾君忠.自动文本摘要方法[J].计算机工程,2008,34(1):221 -223
[2] 刘挺,王开铸.自动文摘的四种主要方法.情报学报 1999(1)
[3] Mathis B A, Rush J E. Abstracting encyclopedia of computer and technology [M]. New York: Marcel Dekker Inc,1975:102 -142
[4] 崔长利,李辉,刘桢祥.自动文摘技术的原理与应用.黑龙江电子技术.1999(17):7-9)
[5] 谭翀,陈跃新.自动摘要方法综述.情报学报.2008(2)
[6] D. Shahaf and C. Guestrin. Connecting the dots between news articles. In Knowledge Discovery and Data Mining07,2010