王健
摘 要 自动文本摘技术的出现为人们快速阅读的带来了极大的方便,本文针对于Web文本的特征设计出了计算词权重系数公式及句子得分公式,改进并实现了两种重要的摘要算法
关键词 Web文本 自动摘要 摘要算法 主题词
中图分类号:TP391文献标识码:A
0引言
基于统计的文本自动摘要方法主要根据线索词典、词频、词或句子的启发性函数进行模式匹配,摘取文本中重要句子形成摘要。它不依赖于具体领域,适应面广,响应速度快,因而受到越来越多的研究者的重视。基于统计的文本自动摘要将文本视为句子的线性序列,将句子视为词的线性序列。它通常分4步进行:(1)计算词的权值;(2)计算句子的权值;(3)对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句;(4)将所有文摘句按照它们在原文中的出现顺序输出。在自动摘录中,计算词权、句权、选择文摘句的依据是文本的六种形式特征。
1文本的四种形式特征
(1)词的频度:能够指示文章主题的所谓有效词(Significant Words),往往是中频词。根据句子中有效词的个数可以计算句子的权值,这是Luhn首先提出的自动摘录方法的基本依据。V.A.Oswald主张句子的权值应按其所含代表性“词串”的数量来计算,而Doyle则重视共现频度最高的“词对”。美国IBM公司在1960年前后研制了一套文摘自动生产程序ACSI2Matic,该程序在句权的计算方面对Luhn的方法进行了改进。
(2)标题信息:标题是作者给出的提示文章内容的短语,借助停用词词表(Stoplist),在标题或小标题中剔除功能词或只具有一般意义的名词,剩下的词和原文内容往往有紧密的联系,可以作为有效词。
(3)位置:美国的P.E.Baxendale的调查结果显示:段落的论题是段落首句的概率为85%,是段落末句的概率为7%。因此,有必要提高处于特殊位置的句子的权值。
(4)句法结构:句式与句子的重要性之间存在着某种联系,比如文摘中的句子大多是陈述句,而疑问句、感叹句等则不宜进入文摘。
2主題词评价
本文针对WEB文档的结构化特征,在进行主题词选取时根据文档中词频的出现位置出现的频繁程度来评价词的重要性,并以此给出词的权重,赋予重要词汇权重,并设计出计算权重系数公式。下面是具体的主题词选取和评价过程:
3段落中句子权重评价
美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,段尾句的比例为7%。美国康奈尔大学G.Salton提出了寻找文章的中心段落为文摘核心的思想。我们观察表明:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题。而Mead数据中心的自动摘要系统Searchable Lead,只是简单的摘录文件中的前60、150或250个英文词汇,便达到了90%以上的可接受度(Brandow, et al.,1995)。
4摘要算法分析及改进
4.1 Luhn算法
Luhn在1965年提出了一种基于文章表面级特征的经典的摘要算法,这种算法的核心思想是为文章中的每一个句子赋予一个意义值,那些具有最大意义值的句子将会被抽取出来作为摘要,其中句子的意义值是通过句中意义词的个数计算得到的。Luhn 认为意义词应该是文章中的“中”频词集。高频词区域中的词多是一些过于普通的词,没有什么区分能力,这些无用词可以通过停用词表的构造得以消除。
4.2 LSA算法
LSA是建立在奇异值分解(Singlue value decomposition,SVD)之上。SVD是一个矩阵分解技术,已经被人们大量应用到文本集上。给定一个m*n 的矩阵,A = [A1,A2,…An],每一列Ai 表示目标文档中一个句子的词频向量,SVD可以表示为:
A = V U A (T)
其中U = [uij] 是一个m 的列标准化正交矩阵,它的每一列被称为左奇异向量;∑=diag( 1,2,…,n)是一个n 对角矩阵,其对角线上的元素是按降序排列的非负奇异值;
LSA算法描述:
(1)输入WEB文档,并对其进行解析,解析出文本字段;
(2)进行分词处理,并消除停用词;
(3)主题词选择;
(4)根据主题词建立句子词项矩阵,进行奇异值分解;
(5)建立索引矩阵,根据索引矩阵建立句子摘要;
(6)输出摘要。
LSA能够通过从语义上对词和句子进行聚类来捕捉并建模词语之间的关系,另外,LSA能够捕获文章用来表示特定概念和主题的那些显著的、不断重现的词的组合模式。
参考文献
[1] 刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(增刊):24-29.
[2] 陈燕敏,王晓龙等.一种基于文章主题和内容的摘要方法[J].计算机工程与应用,2004,40(33):11-15.