王 琳, 刘伍颖
(1. 上海外国语大学 贤达经济人文学院,上海 200083; 2. 广东外语外贸大学 语言工程与计算实验室,广东 广州 510420;3. 广东外语外贸大学 网络空间内容安全工程技术研究中心,广东 广州 510420)
在当前大数据时代,海量语言信息带给人们的是信息过载,这使得信息的稀缺性大大降低,而人们时间的稀缺性大大提高,信息的价值不只是语言文字的数量,更重要的是关键信息的浓度。为了应对信息爆炸,人们很早就提出了利用计算机程序提取文摘的想法,迄今发表了很多高效的自动文摘算法文献[1]。自动文摘主要采用计算机程序把文本文档压缩成篇幅较短的文摘,并尽可能在文摘中保留原文档的关键信息。自动文摘技术能够帮助人们在有限的时间内全面把握语言大数据的中心内容,因此再次成为自然语言处理的研究热点。在本轮自动文摘研究热潮中,突出了非通用语言特色。对非通用语言自动文摘技术的探索能够丰富自然语言处理理论,提高多语种信息处理的效率,带动低资源语言的形态、句法、语义分析等基础研究,推动人工智能技术的进一步发展。
回顾相关研究历程可知,人们早在1958年就已经提出了自动文摘这个概念[2]。早期的自动文摘算法主要采用文档的自然结构信息(标题、段首句、段尾句等)来估算句子的重要程度,再组合关键句子形成文摘。从1987年到1997年持续召开的MUC (Message Understanding Conference)学术会议就包含自动文摘研究。
1993年底在德国召开了第一次以自动文摘为主题的国际研讨会(Summarizing Text for Intelligent Communication)。1995年国际期刊Journal of Information Processing and Management出版了Text Summarization专刊[3]。上述两个标志性事件掀起了自动文摘研究的第一次热潮,从1996年到1998年持续进行了SUMMAC (TIPSTER Text Summarization Evaluation)评测。
接着,各种各样的有监督文摘算法[4]被提出,它们根据文本文档和相应的人工文摘学习出句子重要性特征,摘要时根据模型判断候选句子。几乎同时,还有很多半监督[5]和无监督[6]文摘算法也被提出,例如,基于质心句子发现的无监督文摘算法就是其中一种有效的方法。从2000年到2007年持续召开了DUC (Document Understanding Conference)学术会议。再后来,人们转而关注多文档文摘[7]研究,同时追求精炼和综合能力。通常多文档文摘能够涵盖多篇文档的中心内容,而且这些文档之间往往是主题相关的[8]。从2008年至今持续召开了TAC(Text Analysis Conference)学术会议。
经过近60年的发展,自动文摘研究从关键技术探索到实用系统研制,基本遵循从规则方法到统计方法,再到混合方法的研究路径。实用文摘系统在许多领域得到广泛应用,充分体现了自动文摘的价值。近年来,自动文摘研究再掀热潮,研究焦点从单语言向多语言转变[9],很多的自动文摘算法是针对非通用语言的[10]。随着当前东北亚安全形势以及经贸全球化的迫切需求,韩国语自动文摘研究受到越来越多的关注。不过迄今为止,韩国语自动文摘算法还比较稀少[11],而英语、汉语等自动文摘研究相对成熟,可供参考和借鉴。因此,本文主要围绕韩国语自动文摘这个科学问题,从韩国语主要的体词和谓词出发,深入探索一种高效的解决方法。
图1 总体框架
根据当前韩国语文摘的实际应用需求,我们提出如图1所示的总体框架。给定一个韩国语文本文档,首先,根据文档的自然结构进行段落切分,接着,对每个段落通过依次扫描句子终结符进行句子切分。完成上述两步预处理后,词性标注模块对每个句子进行词汇切分并给每个词汇标上词性。基于关键体词抽取的韩国语自动文摘方法(图1❶)根据词性标签对全词进行体词过滤,并将全部体词输出至关键体词抽取模块。然后,关键体词抽取模块统计词频[12]排序体词,并根据预设的TopN值提取前N个高频体词作为关键体词。最后,自动文摘模块根据包含关键体词的数量挑选信息丰富的句子组成文摘。在句子挑选过程中还可以附加MMR(Maximal Marginal Relevance)策略生成文摘,也就是奖励关键句子的同时惩罚与之冗余的句子,使得有限的文摘篇幅能够容纳更多的关键信息。
韩国语句子当中最主要的成分是体词和谓词,包括表1所示的16类体词和5类谓词[13]。我们认为韩国语体词主要传递语义信息,而韩国语谓词更多地担负句法框架功能。因此基于关键体词抽取的韩国语自动文摘方法能够捕获更多的关键语义信息。为了验证这一假设,我们在总体框架中平行设计了基于关键谓词抽取的韩国语自动文摘路径(图1❷),通过对全词进行谓词过滤和关键谓词抽取,挑选句子生成文摘。此外,我们还增加基于关键词抽取的韩国语自动文摘路径(图1❸),通过从全词中抽取关键词再进行自动文摘[14]。
表1 体词和谓词类别标签
我们认为关键词抽取和自动文摘的真正区别仅仅是目标信息的粒度,关键词抽取的目标是词汇粒度,而自动文摘的目标是句子粒度[15]。关键词抽取相当于词汇粒度的文摘,而自动文摘则相当于句子粒度的“关键词”抽取。由于句子粒度较大,重现率相对词汇而言较低,所以通过重现率较高的关键词汇抽取入手,再扩展至关键句子的判定是我们算法的核心思想[16]。
根据上述总体框架,我们设计实现了一个桥接关键词汇抽取和自动文摘的算法——基于关键体词抽取的韩国语文摘(Key-Noun-Extraction-based Korean Summarization, KKS)算法,如图2所示。其中有两个预设参数Ratio和TopN,Ratio表示希望达到的文摘长度占原文档长度的比,摘要时可以通过最终文摘字节数除以原文档字节数计算实际占比,TopN表示前N个高频体词。整个算法主要包括7个功能函数(ParagraphPartitioning,SentenceSplitting,POSTagging,NounwordFiltering,KeynounwordExtracting,Summarizing,MMRSummarizing)。其中NounwordFiltering函数能够过滤出16类体词。该算法时间开销主要包括三个循环的时间,图2第7行循环时间仅仅正比于原文档文本长度,而图2第17行和第23行循环时间也只和预设Ratio值相关,通常是一个相对较小的浮点数。该算法没有其他的耗时操作,这样的时间复杂度对于实际的韩国语文摘应用是可以接受的。为了对比研究,我们还在总体框架下,参照图2算法设计实现了基于关键谓词抽取的韩国语文摘算法和基于关键词抽取的韩国语文摘算法。
图2 基于关键体词抽取的韩国语文摘算法
实验采用经典的ROUGE (Recall-Oriented Understudy for Gisting Evaluation)评价方法,其中ROUGEk表示自动文摘和人工文摘间的k元召回率[17]。最终报告ROUGE1、ROUGE2、ROUGE3和ROUGE4的数值,并据此评价实验结果。
实验采用我们构建的语料。首先,从互联网上抓取了11个韩国语期刊的PDF格式的文档。接着,利用程序抽取每篇文档的文摘和正文组成纯文本格式的实验语料。尽管PDF格式到纯文本格式的抽取并非完美无缺,但适当增加人工干预能够达到较好的效果。最终,构建出包含8 298篇纯文本文档的KorSummBank (V1.1)语料。表2给出了具体的源刊和文档数。
表2 源刊文档数
实验运行时从5到95梯度设置TopN值,并分别运行我们实现的体词文摘、全词文摘和谓词文摘3个文摘器,再加上MMR策略,最终得到6组运行结果。此外,我们还实现了一个单纯的结构文摘器用于对比。
KKS算法的实验结果如表3所示。我们发现体词文摘方法的性能随着TopN值从5增加到55而逐渐提高,随着TopN值从55增加到95而逐渐回落,当TopN值等于55时,四项ROUGE指标(ROUGE1=0.215 8, ROUGE2=0.086 0, ROUGE3=0.048 3, ROUGE4=0.033 3)达到最佳性能。我们还发现增加MMR策略之后,相应的ROUGE1指标有明显提升,例如当TopN值等于55时,体词文摘方法的ROUGE1结果是a0.215 8,而体词+MMR文摘方法的ROUGE1结果提高了0.012 5,是0.228 3。不过其他三项指标则略有下降,而且它们的最优值也漂移到TopN值等于35时,这主要是因为语言结构的灵活性造成的。表3的实验结果表明MMR策略能够提升KKS算法的ROUGE1性能。
表3 体词实验结果
表4给出了全词实验结果。我们发现随着TopN值的递增,全词文摘方法的性能都逐渐提高。当TopN值等于95时,全词文摘方法的四项ROUGE指标(ROUGE1=0.198 7, ROUGE2=0.082 5, ROUGE3=0.047 0, and ROUGE4 =0.032 3)达到最佳性能。当TopN值等于95时,全词+MMR文摘方法的ROUGE1指标最优,而其他三项指标则漂移到TopN值等于85时达到最优。对比表3中相同TopN值的数据可知: 采用全词提取关键词,文摘性能反而有所下降。我们还可以发现MMR策略对全词文摘方法的ROUGE1和ROUGE2指标都有改进,全词+MMR文摘方法的整体性能不及体词+MMR文摘方法的。
表4 全词实验结果
表5给出了谓词实验结果。通过比较发现谓词实验结果不及全词和体词的结果。这也表明谓词主要是担负句法框架功能,对于关键语义的表示不占主体。正因为如此,“错上加错”导致MMR策略对于谓词文摘方法失效。
表5 谓词实验结果
图3显示了上述实验结果的ROUGE1指标趋势。从中不难发现我们KKS算法中体词+MMR文摘方法的整体性能是最优的。
图3 ROUGE1实验结果
上述实验结果还表明从关键体词抽取到文摘生成的泛化过程是一种有效的韩国语文摘方法。为了进一步展示基于关键体词抽取的韩国语文摘算法的优势,我们在表6中给出了一个具体示例。该例中的体词+MMR文摘方法得到的文摘几乎重合了人工文摘(粗体部分完全一致)。
表6 示例
续表
本文针对韩国语这种特定的非通用语言,探索了如何利用计算语言学知识和自然语言处理技术实现高效自动文摘。在KorSummBank (V1.1)语料上的实验结果证明了总体框架和KKS算法的效力,能够很好地解决韩国语文摘这个科学问题,而且MMR策略能够大幅提升体词和全词文摘效果。
当然,我们的算法仍然采用挑选原有句子集合中的一个子集的办法,实现缩短原文本文档的目标。这可能导致文摘句之间有些不连贯。因此,下一步的研究将关注复述文摘方法,力求通过韩国语语义表示和生成技术实现类似人工摘要的简洁连贯文摘。此外,我们还准备扩展上述框架和算法,迁移用于韩国语多文档文摘应用。