王晓霞
摘 要 本文主要阐述了文摘的三大评估方法以及机械文摘质量自动评估的实现,通过对各种方法的具体介绍来选择合适的文摘评估方法。
关键词 摘要 评估 评价方法
中图分类号:TP391 文献标识码:A
自动文摘的评价方法大致可分为三大类:(1)直接(direct)评价方法;(2)基于任务的评价(task based)方法;(3)基于目标的评估(target-based)方法。以下为具体介绍:
1直接评价方法
在自动文摘研究的初期,主要是系统的开发者对文摘系统进行评价测试,根据评测结果来指导研究工作。因此,他们大多采用直接分析文摘质量的方法来对系统性能进行评价。如下方法:
(1)与“理想摘要”进行比较
这种方法的核心思想是将获得的摘要与“理想摘要”进行对比,根据两者的相似性进行评价。与“理想摘要”越接近,则说明摘要的质量越高。
(2)其他方法
提问回答评价方法认为好的摘要必须能够阐述原文中的关键要点,因此,该方法要求首先对文章进行分析,取出其中的要点,根据摘要中是否包含这些要点来进行评价研究。他认为用于考试而提出的问题通常反映了文章的主题。
2基于任务的评价方法
为了克服直接评价方法的弱点,近年来一些研究者提出应采用基于任务的评价方法来对自动文摘系统进行评价,即将摘要应用于特定的任务,根据文摘系统对该任务的促进作用来评价文摘系统的性能。Brandow尝试在IR(information retrieval)任务中评价文摘系统。对比采用摘要进行检索与原文进行检索的准确度,来确定是否可以在IR中利用摘要来代替原文。Mike(1994)尝试在一个新闻分析任务中,根据利用摘要进行新报分析的效果来进行评价。此外,由于情报处理领域中有许多具体任务,因而不断有研究者提出新的任务、用于基于任务的评价方法。
3基于目标的评估方法
这里只介绍Edmundson方法。Edmundson的评估是典型的基于目标的評估方法,他的评估目的是比较各种自动文摘方法的优劣:标题关键词法,位置法,文中关键词法,指示性词语以及这四备战方法的组合。Edmundson采用了3种评估方法,分别为客观评估、主观评估、统计错摘的句子。下面重点介绍方法的基本原理及其实现技术。
评测的内容选择以原文为依据,评估文摘是否比较准确全面地表达了原文的中心意思,其实质就是文章质量评测。通常,人们一般对文摘有长度限制,在表达同样意思的前提下,认为短文较长文摘要好。这样,好的机械文摘便可定义为“选取了最少的句子数,并全面表达了原文中心意思的机械文摘。”
语篇语言学的理论认为,语篇在意义上存在一种层次关系,即:
语篇的中心意思=各组成意义段的中心意思按一定逻辑关系的组合
意义段的中心意思=各组成子意义段的中心意思按一定逻辑关系的组合。
子意义段的中心意思=各组成下位子意义段的中心意思按一定逻辑关系的组合。
直至不能再划分为更小的子意义段。
需要指出的是,在任何具体语篇中,这种分层是有穷的,而且由于受长度限制,到子意义段的文摘已属少见,一般文摘到意义段已足够。
这种意义上的层次关系必然要在形式上体现出来,即文章的句子之间大致存在一种层次关系,构成一种树形(金字塔形)结构。层次越高所含的句子数目越少。
4机械文摘质量自动评估的实现
(1)机械文摘质量自动评估的模型,在这个模型中,主动要有3个方面的工作要做:
①原文(相当于考试的题目)的选择。
②评价(这是评估的核心)。
③专家文摘的获得。
(2)原文的选择
这一部分工作只能由人来完成,最重要的选择标准是原文对于参加比较的各文摘系统具有可比性。
(3)评价
评价是文摘自动评测的核心部分。在进行评价时,有以下几个基本规定:
①专家文摘和机械文摘都存入文中文件中。
②为使专家文摘与机械文摘具有可比性,只允许专家从原文中抽取句子,而不允许专家根据自己对原文的理解重新生成句子。
③专家文摘和机构文摘的句子都按照在原文中出现的先后顺序给出。
④定义
重合率p=匹配句子数/专家文摘句子数?00%
每一个机械文摘的重合率为按n个专家给出的文摘得到的重合率的平均值。
平均重合率=pi/n?00%
其中,pi为相对于第i个专家的重合率; N为专家的数目。
(4)在系统的实现中,有以下两个因素会给评测带来一定的困难;
①文摘中的句子长度不定,有的句子过长。
②文摘的句子数目过多。
据观察,这两个问题可以解决的。
第一个问题在一篇文章里,任意互不相同的每句话的前15个字均不相同,而句子只能从原文中摘取,因此每句话的前15个字可用来代替该句子。即若机械文摘句子的前15个字组成的字串与专家文摘中句子的前15个字组成的字串相同,则认为该机械文摘句与专家文摘句重合。
第二个问题的解决方案在于对文摘长度的限制。在实践中,如果文摘过长,就会失去其作为摘要的意义。可以规定:机械文摘除了规定摘取率外还规定一个指标即文摘的总字数不能多于1000个汉字。设汉语句平均长度大于10个字,所以句子数目最多只有100。
(5)专家文摘的获得
进行系统评价所必需的专家文摘应具有以下条件;
①专家文摘应与机械文摘有相同的摘取率
②专家文摘应该是机器可读的。
③专家文摘的句序应与原文中的句序相一致。