基于条件随机场的蒙古文地名识别

2017-03-02 05:55包乌格德勒鲍薇
现代计算机 2017年3期
关键词:蒙古文构词后缀

包乌格德勒,鲍薇

(1.中央民族大学,北京100081;2.呼和浩特民族学院,呼和浩特010051)

基于条件随机场的蒙古文地名识别

包乌格德勒1,2,鲍薇1

(1.中央民族大学,北京100081;2.呼和浩特民族学院,呼和浩特010051)

蒙古文地名识别是命名实体识别的一个子任务,也是蒙古文信息处理的一个基础任务。实现基于条件随机场的蒙古文地名识别。首先,分析蒙古文地名构成特点和蒙古文地名识别难点,实现基于多种特征的蒙古文地名识别方法。在蒙古文新闻语料库上进行测试,蒙古文地名识别的召回率和正确率分别达到60.8%和90.8%。

蒙古文;地名识别;条件随机场

0 引言

蒙古文信息处理经过30多年的研究,取得了一系列丰硕的研究成果,如:大规模语料库的建立、国际标准编码的制定、各种词典的建设、办公软件的开发等。这些成果为这些成果为内蒙古自治区及全国推广应用蒙古文信息处理技术创造了良好条件。当前,蒙古文的词法分析、句法分析、语义分析等研究取得了较好的成绩,但是命名实体研究还处于相当薄弱的地位。

所谓的命名实体(Named Entity)主要包括实体(组织名、人名、地名)、时间表达式(时间、时间)、数字表达式(货币值、百分数)等。命名实体识别是对文本进行理解的前提工作,属于文本信息处理的基础研究领域,它的研究成果将对后续的一系列工作产生影响[1]。目前已有的命名实体识别方法可以大致分为基于规则的方法、基于统计的方法和规则与统计混合的方法、基于统计的方法。其中典型的方法有隐马尔可夫模型(HMM),支持向量机(SVM),最大熵(ME),条件随机场(CRF)等[2]。在中文地名识别方面,何炎祥等人利用基于CRF和规则相结合的方法进行识别和修正,F值达到91%[3]。

在蒙古文命名实体识别研究方面,那顺乌日图等利用规则的方法对蒙古文人名进行了自动识别,在20万词语料库中经过测试,召回率达89%,准确率达86%[4]。苏依拉等运用本体技术构建内蒙古行政区划地名本体,完成了蒙文文档中地名的识别与标注工作[5]。通拉嘎在26万词的语料库上使用统计的方法对蒙古文人名进行了识别,在封闭集上进行测试,正确率94.56%,召回率85.15%,F值89.61%,取得了较好的结果[6]。

统计方法中条件随机场模型方法提供了一个特征使用灵活全局最优的标注框架,它解决了标记偏置问题,本文采用该模型对蒙古文新闻语料中的地名进行识别。本文详细介绍了基于CRF的蒙古文地名识别方法并通过实验进行验证。

1 蒙古文地名构成

1.1 蒙古语语法特点

蒙古语属阿尔泰语系蒙古语族,属于黏着语。现行的蒙古文有33个字母,其中有7个元音、17个基本辅音和9个借词辅音,蒙古文单词由各个字母拼写而成,每个字母在字首、字中、字尾有不同的变体。蒙古文的词语可分为“有词形变化的词类”和“无词形变化的词类”。“有词形变化的词类”又可分为“体词”和“动词”。体词包含名词、形容词、代词、数词和时位词等。蒙古文的构形附加成分包括数、格、领属、级范畴以及数词变化形式;动词的式、态、体范畴和形动词、副动词变化形式。因此蒙古文词法形态变化丰富且复杂。

蒙古文单词由词干和词缀组成,其结构为:

蒙古文单词=词根+构词词缀/构形词缀+构词词缀/构形词缀…

1.2 蒙古文地名构成类型

在蒙古文新闻语料中蒙古文地名可分为以下3类:

(1)蒙古语来源地名:地名来自蒙古语,主要表示内蒙古地区地名。

例如:VLAGAN(由一个蒙古文单词构成)、HOHEH0TA(两个蒙古文单词构成,连写)、SILVGVN HOBEGETU CAGAN HVSIGV(多个蒙古文单词构成,分写)等;

(2)汉语来源地名:地名来自汉语,主要表示国内地名。

例如:$ANGHAI(两个汉语单词组成,连写)、$I JIYA JVWANG(多个汉语单词组成,分写)等;

(3)拉丁语来源地名:地名来自拉丁语,主要表示外国地名。

例如:eUiR0PA、AMeRIKA等。

汉语来源地名和拉丁语来源地名用蒙古文表示时主要采用音译方式,其中汉语来源地名把汉语拼音转换为拉丁字母表示,有时连写(省份直辖市名多数连写),有时分写;拉丁语来源地名直接音译表示,多数时候是连写,经常包含蒙古文借词辅音。蒙古文人名也可分为以上三种类型。

1.3 蒙古文地名识别难点

蒙古文地名识别是蒙古文命名实体识别的一个难点,主要表现在:

(1)无大小写区分:蒙古文与汉文一样,不存在首字母大写的情况;

(2)具有二义性:部分蒙古文地名本身就是一个普通单词,它的词类可以是名词、动词、形容词、数词等,例如:“JIRUHE”作为普通单词表示名词“心脏”,“VLAGAN”作为普通单词表示形容词“红”;

(3)有些地名单词较多,这对识别工作带来一定难度,例如:OBOR M0NGG0L-VN OBERTEGEN JASAHV 0R0N(内蒙古自治区)。

(4)蒙古与人名与地名在构词规则上相近,二者易混淆。

2 基于CRF的蒙古文地名识别方法

条件随机场模型(Conditional Random Fields)是一种基于统计的无向图模型,在序列标注和分割方面有着出色的表现。

2.1 条件随机场介绍

在序列标注任务中,随机变量X={X1,X2,…,Xn}表示可观测序列;随机变量Y={Y1,Y2,…,Yn}表示观测序列对应的标记序列。在本文中X表示蒙古文新闻语料的文本序列,Y表示该文本序列的标记序列。

在序列标注任务中,我们可以观测序列整体作为一个单元结点考虑,每个标记作为一个结点考虑。

图1 条件随机场模型

在序列标注任务中,可以观测序列整体作为一个单元结点考虑,每个标记作为一个结点考虑。由于观测序列X的复杂性,估计势函数Z需要一定的独立性假设。所以,在己知随机变量X的情况下,使用条件式:

其中,Zx是只依赖于观测序列的归一化函数,其公式为:

公式(2)即为条件随机场模型。

2.2 特征选择

本文充分考虑蒙古语语法特点,在单词特征基础上添加了词性特征、常用地名和人名特征、常用地名和人名的前缀后缀特征、构词特征等。

(1)单词特征

以单词以及上下文为特征进行识别。

(2)词性特征

本文遵循了《GBT 26235-2010信息技术信息处理用蒙古文词语标记》标准的词语分类体系,确定了名词(N)、形容词(A)、动词(V)、数词(M)、量词(Q)、代词(R)、时位词(O)、副词(D)、情态词(H)、模拟词(U)、后置词(G)、语气词(S)、连接词(C)、感叹词(I)、时间词(T)等15类基本词,还使用了字母(E)、附加成分(F)、标点符号(W)、不确定词(P)等标记单位,未使用复合词(Y)、固定词(J)、成语(K)、习用语(X)、缩略语(L)等标记。

所以语料库中共使用了共19种词类标记,并且使用的都是第一级标记。

(3)常用地名和人名特征

为了提高识别的准确率建立了蒙古文常用地名词典,其中包括了内蒙古地区地名、中国常用地名和世界常用国家和地区地名。为了区别人名与地名,同时建立了蒙古文常用人名词典。

(4)常用地名和人名的前缀后缀特征

通过分析新闻语料发现,很多地名的前面和后面会出现一些常用词,例如:TIB(洲)、VLVS(国)、M0JI(省)、XIAN(县)等,这些单词对识别地名有一定的帮助。而人名的前面和后面也会跟一些常用词,例如:TERIGULEGCI(主席)、YERUNGHEYILEGCI(总统)、$UJI(书记)等,这些单词有助于区别地名和人名。

(5)构词特征

根据蒙古文地名构成特点,汉语来源地名和拉丁语来源地名有一定的构词规则,它们都采用拉丁转写形式。对语料库中的单词分为3类进行标记:

①汉语拼音(P):单词由汉语拼音拉丁转写形式构成;

②借词(L):单词包括借词辅音;

③其他(Y):其他单词。

2.3 特征模板

在CRF模型的特征中上下文是以当前单词为中心的一个观察窗口,窗口的大小会直接影响识别的效果和效率。为了达到最佳的识别效果,本文选择不同的窗口长度对每个特征进行对比实验,根据F值确定窗口的大小。

本文采用的特征模板如下:

①上下文单词特征w:

w0:当前单词,w-i:前第i个单词,wi:后第i个单词。

②上下文词性特征p:

p0:当前单词词性,p-i:前第i个单词词性,pi:后第i个单词词性。

③上下文地名人名特征n:

n0:当前单词是否为常用地名人名,n-i:前第i个单词是否为常用地名人名,ni:后第i个单词是否为常用地名人名。

④上下文地名人名前缀/后缀特征s:

s0:当前单词是否为常用地名人名前缀/后缀单词,s-i:前第i个单词是否为常用地名人名前缀/后缀单词,si:后第i个单词是否为常用地名人名前缀/后缀单词。

⑤上下文构词特征f:

f0:当前单词的构词特征,f-i:前第i个单词的构词特征,fi:后第i个单词的构词特征。

⑥组合特征:

上面5个特征进行组合生成的特征模板。

3 实验

3.1 实验语料

本文实验所用语料来自人民网蒙古文版的国内新闻和国际新闻两个板块,包含350句,其中训练语料有250句,测试语料100句。对语料库首先进行了校对、词性标注、常用地名和人名标注、常用地名和人名前缀/后缀标注和构词标注。

语料中用于地名识别的标注有3个:B(地名开始)、I(地名内部)和O(其他)。

3.2 评测指标

实验评测标准为准确率P、召回率R和F值3种指标:

3.3实验结果

(1)上下文单词特征实验

表1

(2)上下文词性特征实验

表2

(3)组合特征实验

由以上2个实验结果可知,上下文单词特征窗口长度3时效果最好,上下文词性特征窗口长度为6时效果最好,实验1将以上两个特征模板组合使用,实验2在实验1的特征模板中添加常用地名人名前缀/后缀特征,实验3中添加常用地名人名特征,实验4中添加构词特征。

3.4 实验分析

分析实验结果可知,单词特征和词性特征对蒙古文地名识别贡献最大,加入常用地名和人名特征、常用地名和人名的前缀后缀特征对提高识别效果有很大帮助,构词特征对提高识别效果贡献最小。

表3

对测试结果分析,错误主要表现在以下几点:①对兼类的地名识别效果较差,特别是其左右不出现常用前缀/后缀的情况下;②词性标注错误导致的识别错误。可以从扩充语料规模、扩充地名人名词典、优化特征模板、校对词性标注等入手减少识别错误。

4 结语

本文提出了采用CRF模型对蒙古文新闻语料中的地名进行识别的方法,并采用单词、词性、常用地名人名、常用地名人名前缀/后缀、构词等多种特征,准确率和召回率分别达到了60.8%和90.8%。目前的实验结果发现召回率和准确率还有很大提升空间,还有很多问题需要深入研究,如扩充语料、扩充词典、加入更多的特征等。

[1]李佳正,刘凯,麦热哈巴·艾力,等.维吾尔语中汉族人名的识别及翻译[J].中文信息学报,2011,25(4):82-87.

[2]宗成庆.统计自然语言处理[M].北京清华大学出版社,2008.

[3]何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185,202.

[4]那顺乌日图,雪艳,淑琴,等.蒙古文人名自动识别研究[C].全国第七届计算语言学联合学术会议,2003:97-102.

[5]苏依拉,孙日旺,谭艳梅,等.基于本体标注的蒙文地名识别研究[J].计算机工程与科学,2013,35(8):156-162.

[6]通拉嘎.基于蒙古文语料库的人名自动识别[D].北京:中央民族大学,2013.

Approach to Recognizing Mongolian Location Names Based on Conditional Random Fields

BAOWugedele1,2,BAOWei1

(1.Minzu University of China,Beijing 100081;2.Hohhot Minzu College,Hohhot 010051)

The recognition ofMongolian location names is one of the subtasks of the named entity recognition,as a basic task ofMongolian information processing.Presents amethod to recognize Mongolian location names based on conditional random fields(CRFs).Firstly,introduces the agglutinative characteristics of Mongolian location names and the difficulties of the recognition of Mongolian location names,presents amethod to recognize Mongolian location names based onmulti-features.Tested on the Mongolian news corpus,the results show that the recall rate can reach 60.8%and the accuracy rate can reach 90.8%.

Mongolian;Location Names Recognition;Conditional Random Fields(CRFs)

2014 年国家语委科研项目(No.YB125-89)

1007-1423(2017)03-0006-05

10.3969/j.issn.1007-1423.2017.03.002

包乌格德勒(1979-),男,内蒙古兴安盟人,博士研究生,呼和浩特民族学院副教授,研究方向为计算语言学、蒙古文信息处理鲍薇(1990-),女,江苏徐州人,博士研究生,研究方向为计算语言学

2016-12-07

2017-01-10

猜你喜欢
蒙古文构词后缀
中日文化词汇在英语中的构词体系对比及利弊分析
敖汉旗万寿白塔蒙古文碑文新释
从构词词源看英汉时空性差异
部分海外藏蒙古文文献及其目录
刍议蒙古文文献资源保障体系的建设
变阶马尔科夫模型算法实现①
乌兰察布蒙古文网站正式上线
倍增法之后缀数组解决重复子串的问题
“分”的音变构词及其句法语义特征
两种方法实现非常规文本替换