赵江江 秦兵
0引言
事件抽取任务随着互联网信息爆炸式的增长越来越凸显其重要性,而事件元素抽取又是事件抽取中至关重要的-个研究点。该研究旨在将无结构化文本中人们感兴趣的事件以结构化的形式存储下来,以供自动文摘、自动问答、话题检测等自然语言处理上层技术的使用和用户方便的查看。早期的事件抽取研究一般采取模式匹配的方法,这种方法准确率较高,但是模板的获取是实现的瓶颈,后来人们逐渐采用机器学习的方法,这种方法灵活性好,不需要太多的人工参与,但是由于构建的语料库规模不是很大,会引起严重的数据稀疏问题,准确率比模式匹配的方法低。因此针对这两种方法的优缺点,采用结合背景知识库的半指导方法可能解决上述问题。本文采用基于Bootstrapping方法获取模式的事件元素抽取,由于Bootstrapping方法的引入,仪需从一个或少数几个初始事件种子出发,通过检索WEB,即可自动学习出大量高准确率的模板用于事件元素抽取。同时引入模板泛化的概念,以进一步提高模板对语言现象的覆盖率,并最终提高抽取的准确率与召回率。