基于BootStrapping的中文事件元素抽取系统设计与实现

2012-04-29 00:44赵江江秦兵
智能计算机与应用 2012年1期
关键词:模式匹配结构化语料库

赵江江 秦兵

0引言

事件抽取任务随着互联网信息爆炸式的增长越来越凸显其重要性,而事件元素抽取又是事件抽取中至关重要的-个研究点。该研究旨在将无结构化文本中人们感兴趣的事件以结构化的形式存储下来,以供自动文摘、自动问答、话题检测等自然语言处理上层技术的使用和用户方便的查看。早期的事件抽取研究一般采取模式匹配的方法,这种方法准确率较高,但是模板的获取是实现的瓶颈,后来人们逐渐采用机器学习的方法,这种方法灵活性好,不需要太多的人工参与,但是由于构建的语料库规模不是很大,会引起严重的数据稀疏问题,准确率比模式匹配的方法低。因此针对这两种方法的优缺点,采用结合背景知识库的半指导方法可能解决上述问题。本文采用基于Bootstrapping方法获取模式的事件元素抽取,由于Bootstrapping方法的引入,仪需从一个或少数几个初始事件种子出发,通过检索WEB,即可自动学习出大量高准确率的模板用于事件元素抽取。同时引入模板泛化的概念,以进一步提高模板对语言现象的覆盖率,并最终提高抽取的准确率与召回率。

猜你喜欢
模式匹配结构化语料库
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
《语料库翻译文体学》评介
基于模式匹配的计算机网络入侵防御系统
具有间隙约束的模式匹配的研究进展
OIP-IOS运作与定价模式匹配的因素、机理、机制问题
基于散列函数的模式匹配算法
基于JAVAEE的维吾尔中介语语料库开发与实现
基于图模型的通用半结构化数据检索
基于软信息的结构化转换