基于规则的中文人名识别与抽取关键技术研究

2012-04-29 00:44姜伟

科技创新导报 2012年28期

姜伟

摘?要：新兴媒体时代的发展使大量的信息涌入了我们的视线和大脑，广大网名用户在面对网上的信息时需要找寻符合自己的资料，在这种情况下，信息抽取发展起来了。国内的信息抽取技术起步时间较短，又由于中文信息的复杂性，所以在中文信息抽取领域，此技术还不是特别的成熟。在本文中，作者对基于规则的中文人名抽取技术进行了初步探索和研究。

关键词：自然语言处理，信息抽取，命名实体识别，人名识别

中图分类号：TP391 文献标识码：A 文章编号：1674-098X（2012）10（a）-0065-02

1 有关背景

信息时代的发展，我们每天都会面临大量的信息，不同的用户接触的信息虽然不同，但用户都需要从这些大量的信息中抽取出自己感兴趣和有实际用途的信息，信息抽取技术在这种情况下慢慢地发展了起来。目前，信息抽取的主要任务是将文字中大量的信息准确地进行分词、识别、整理，提取出人和事的关键特征词，组织成关键语句，方便于查询检索，提高检索效率。在互联网时代，信息抽取技术是信息检索技术的技术支撑，它既可以提高检索效率，又能准确的抓取面对用户有用的信息。例如，信息抽取系统可以从用户感兴趣的信息中分词抽取出时间、地点、关键人物、原因等，将抽取结果保存在数据库中，为用户进一步查询和分析提供支持和帮助。信息抽取的关键任务包括：命名实体识别、句法分析、篇章分析与推理、知识获取等。

本文主要对基于规则的中文人名识别与抽取技术进行了研究和实现。

2信息抽取的研究方式

目前，信息抽取主流的研究方式主要有三种：基于规则的、基于统计的和基于规则和统计相结合的方式。

2.1 基于规则的抽取方式

基于规则的信息抽取是一个基于学习经验和应用的两个阶段过程：规则的确定和应用确定的规则获取用户所需要的信息。信息的抽取的规则是建立在大量的学习经验和既定的某一领域实现的，在经验学习的基础上，确定汉语的语言结构和常用文法结构，例如“名词”+“动词”，“主语”+“谓语”等形式，在这些规则确立之后，将保存在信息库中以备匹配。在语句经过分词后，将这分词后的结构语句和信息库中的规则相匹配，确定分词后的语句结构，再经过句法分析、篇章分析、知识获取之后，抽取出语句中的有用信息，抽取的任务就完成了。所以，基于的规则信息抽取，规则本身的正确与否是提取成功的关键。

2.2 基于统计的抽取方式

基于统计的信息抽取是目前比较常用中文信息抽取技术，也是比较准确和灵活的信息抽取技术。常用的统计模型有：马尔科夫模型、隐马尔科夫、最大熵模型等。其中，隐马尔科夫模型已经形成了比较健全的算法，具备较强的理论基础，很适合自然语言的处理。

2.3 基于规则和统计相结合的方式

基于规则和统计相结合的方式是一种比较理想的信息抽取技术。基于规则和基于统计的方法虽说都有各自的优点，但是二者的缺点也不可避免。因此，专家提出了将二者结合起来的方法，二者混合方法通过启发式规则可以减少识别问题的复杂性，与此同时，也通过统计模型增加系统的适应性，并减少由于数据库的不完全而带来的负面影响。

2.4 其他方法

当然，信息抽取发展这些年以来，专家们也提出除了以上三种方法之外的其他方法。例如利用机器学习的方法，先建立学习模型，训练模型，再用训练的模型对真实文本进行识别；还可以利用机器学习和其他统计模型相结合，或者多种机器学习的方法相结合来识别中文名等，这些方法各有优缺点，在此不再赘述。

以上是信息抽取中比较常见的研究方式，笔者只对基于规则的方式进行了研究，其他方法在以后的学习和研究中会逐渐的深入下去。

3 基于规则的中文人名识别与抽取算法与实现

3.1 基于规则的信息抽取技术的阶段

基于规则的信息抽取技术分为两个阶段：规则的确定和规则的应用，其中，规则的确定是此项技术的关键。规则提取的起步阶段，研究人员大多采用人工编制规则的方法，由于人工编制规则准确度较高，所以在起始阶段，此规则得到了广泛的应用。但是，这种规则提取的方式也有很多弊端。首先，这种规则的提取工作由于牵扯到大量的自然语言处理知识和专业的领域知识，所以只能是具有很精熟的专业知识的人才才能做好，这对人才的获取就提出了很大的挑战；其次，在规则提取和编制过程中，由于面对的是大量的文字信息，所以这个过程是比较费时、费力、耗神、枯燥，规则的提取容易出错，从事规则提取的工作人员成本较高，提高了开发的技术成本。另外，手工提取规则的信息库比较窄，人力不可能把所有的领域文字信息、所有的语言规则都提取出来，这是不现实的，所以，手工提取规则有其片面性和局限性，覆盖面较低，系统的可移植性较差。因而在不断的总结经验和摸索下，自动地获取规则逐渐成为受开发人员欢迎的技术，也逐渐成为一个较为普遍的研究课题。

规则的自动提取是从未被标注的文本信息中学习和提取规则，基本不需要专业的领域知识，基本不需要手工参与，避免了大量的工作和枯燥性，这样便降低了开发的人力成本，可移植性很好，普遍性更强。

但是，由于起步时间较晚，且汉语语法规则的特殊性和复杂性远远超过英文，所以目前对中文信息抽取规则提取方法的研究并不是特别多。由于汉语的特异性，英文规则提取技术并不能照搬应用，所以需要研究新的提取方法。

3.2本文采用的规则提取算法

本文提供的算法是从信息中提取出人名。

信息数据库中已经保存了常用人名的姓氏和名字，供依据规则使用。

所提取的规则如下：人名：<姓氏>+<名字>

具体的算法描述如下：

步骤1：从标注的语料信息中输入一个实例。

步骤2：对文本进行分词、词性标注。

步骤3：对分词后的文本进行从左到右的扫描，查找姓氏。姓氏是识别姓名的触发条件。若查到姓氏，则转到步骤4；否则，转到步骤6

步骤4：再向右扫描一个字，若所扫描到的字是信息库中的名字，则抽取出姓氏和名字，转到步骤6；若不是信息库中的名字，则转到步骤5。

步骤5：再向右扫描一个字。若连续扫描的两个字为信息库中的名字，则抽取出姓氏和名字。

步骤6：继续对文本进行从左到右的扫描，若查找到姓氏，则返回步骤4。

步骤7：直至文本信息结束，扫描结束，输出抽取的名字。

本文所采取的算法可以抽取出人名结构仅为<姓氏>+<名字>，在实际抽取中肯定有很大的局限性。因为人名的结构有很多种形式。主要可分为两大类：

1）完整形式：即“姓氏+名字”的结构，其中姓氏里包含单姓和复姓，名字包含单字和双字。

2）不完整形式：这又可分为5类：（1）前缀+姓氏，例如：小姜、老刘；（2）姓氏+后缀，例如：李总、张总、陈老；（3）姓氏+称谓词，例如：刘老师、陈市长，王先生；（4）有姓无名，例如：张来到王家后就当自家，从不客气；（5）有名无姓，例如：政治文件中的锦涛同志。

另外，人名内部可能组成一个词。即姓氏与名字，或者名字与名字组成词语，例如：张国立，贺国强，汪洋。人名首部也可能与其上文，人名尾部可能与其下文组合成词语，例如：有一次开会，马化腾坐在李彦宏和马云中间，韩寒冷不丁的写了一篇文章，邓小平等同志等。在这些复杂的情况下，需要进一步自然语言的处理。自动分词能够区别出在特定的语句环境下，哪些是真正的人名，哪些只是语句中的词语，所以，想抽取出文本信息中更多的姓名，使抽取出的姓名更准确，还可以进一步完善此基于规则的方法。

4结语

信息抽取有着非常广泛的应用，搜索技术需要信息抽取技术作支撑才能进一步进行处理，最近新浪和百度合作的抓取相关微博的业务也是信息抽取技术的体现。信息抽取技术是从大量的信息中提取出对用户有用的信息，存储到数据库中以备用户进一步应用。信息抽取技术是人工智能自然语言处理领域面向实际应用产生的一个新分支。它从一段语言文字中抽取出用户指定的事件和人物信息，形成一种数据存储在数据库中。此种技术虽有较强的可用性和灵活性，但是技术难度也更大，要掌握此种技术，但就作者本人而言，还有一定的距离和难度，需要进一步学习和研究。

基于规则的信息抽取技术在抽取过程中，依托制定好的语言规则，在自动分词之后只需要进行语言规则的配对就行，所以其优势在于抽取的速度更快，准确度较高，但不足之处也很明显，即规则的应用只能在一个特定的领域，不能扩散到其他文字语言领域，系统可移植性差，领域改变之后，需要再进行规则的提取才能进行新领域信息的抽取。

本文中只是简单的提及基于统计的信息抽取技术，并没有详细的介绍和实现，是因为自己在这方面还有很多需要学习，不足以形成理论性的知识，还需要在以后的学习中进一步深入研究和锻炼。但没有介绍并不代表作者不重视此项技术，实际上实际应用中，基于统计的方法比基于规则的方法应用更为广泛。所以以后作者想在这方面深入研究下去的话，基于统计方法的信息抽取技术是必须要学习的。总之，基于规则的信息抽取是信息抽取的一个方面，将来这个领域还有更深层次的内容需要学习。

本文在我校周法国老师的悉心指点下，经过多次改动终于成型，在此特向周老师作出衷心感谢，感谢周老师的耐心指导和对学生成长的关心及包容。

参考文献

[1]车万翔，刘挺，李生.实体关系自动抽取[J].中文信息学报，2005.

[2]常迥.信息理论基础[M].北京：清华大学出版社，1993.

[3]朱雪龙.应用信息论基础[M].北京：清华大学出版社，2001.

[4]李保利，陈玉忠，俞士汶.信息抽取研究综述[J].计算机工程与应用，2003.

[5]刘迁，焦慧，贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究，2007（7）.

[6]王小婕，常宝宝.自然语言处理技术[M].北京邮电大学出版社.

[7]王晓龙，关毅.计算机自然语言处理[M].清华大学出版社.