郭莉莉 孙媛
摘 要:随着藏文信息开始与现代化接轨,藏文信息数量在网络上迅速增加。面对海量的网络信息,如何从中挖掘人们所需的信息成为目前关注的热点。目前中文实体关系抽取研究已取得较多成果,而在藏语人物属性抽取研究方面还有很大的提升空间。实验选取实体位置关系、实体间距离关系、实体及周围词特征进行特征向量化。通过BP神经网络模型进行分类抽取,并且取得了较好效果。研究成果可在搜索引擎、信息安全、机器翻译等许多应用领域发挥重要作用。
关键词:藏语;实体关系抽取;BP神经网络
DOI:10. 11907/rjdk. 181807
中图分类号:TP301文献标识码:A文章编号:1672-7800(2019)003-0007-03
0 引言
随着互联网的迅速发展,电子文本信息资源数量越来越多,网民的增长速度也不斷加快,其中藏族网民近年来的增长幅度达到86%,远高于全国的平均增长速度[1]。如今自然语言处理技术已成为计算机领域的重要研究方向之一,其研究成果也为社会带来了巨大价值。如何对庞大的电子文本信息资源进行有效利用,并从中快速、准确地获取人们所需的信息,已成为当前关注的热点问题。
由于互联网数据的爆炸式增长,使研究热点更多地转向Web内容结构化分析[2],在自然语言处理研究中,知识图谱开始得到人们的重点关注。由于少数民族语言知识图谱的构建才刚刚起步,所有藏文信息以文本形式显示为主,而缺少知识的结构化表示。如果将藏文知识以实体方式表示,并通过实体与实体之间的链接表征知识之间的关系,将有利于藏文知识的结构化分析与深度挖掘。
80年代初期,中国社会科学院民族所张连生尝试用计算机进行藏文词汇排序,开启了藏文文本处理的先河。但由于藏语形式与英语及汉语有着很大不同,在计算机操作系统平台上对其进行开发十分困难。截至目前,在藏语文本资源及文献分类、文本统计[3]与嫡值计算[4]、文本资源建设与词典构建等方面研究已取得较大进展,从而为本文的藏语实体关系抽取研究打下了良好基础。
1 研究现状
实体关系抽取是信息处理技术中的重要环节。由于藏语人物属性抽取工作尚处于起步阶段,还有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]与基于核函数的方法[7-8],在中文研究方面也有针对这两种方法的具体应用研究[9-10]。在使用模式匹配技术的基础上,邓擘等[11]引入词汇语义匹配技术对汉语实体关系进行抽取;张苇如等[12]提出一种基于维基百科与模式聚类的方法,从开放文本中抽取高准确率的中文关系实体对;Culotta[13]利用一些转换规则,定义基于依存树的核函数,并使用SVM分类器进行关系抽取;Zhang等[14]设计了一种复合卷积树核函数进行关系抽取。
藏语自然语言处理[15]研究目前存在最大的困难是藏语语料的缺乏。在藏语实体关系抽取方面,现有研究成虹非常少。在文献[16]中提出基于泛化模板与SVM相结合的方法抽取实体关系;在文献[17]中提出基于SVM的方法进行藏语人名属性抽取研究,并且已取得一定成果。
2 方法描述
BP神经网络的实体关系抽取是将实体关系的判别问题转化为分类问题。本文首先从许多藏文网站爬取得到具有实体关系的文本;然后从文本中筛选出具有实体关系的句子进行预处理,如分词、词性标注等;对于标注好的语料,选取相关实体位置关系、实体之间距离、实体及实体周围词特征进行向量化,作为输入数据;最后利用构建好的神经网络模型进行判别分类。整体抽取过程如图1所示。
2.1 特征向量化
本文对需要处理的语料进行向量化。本文特征选取主要采用实体词位置关系、实体词距离关系、实体词周围特征以及实体本身特征。假设实体关系中的两个实体分别为E1、E2。
(1)实体位置关系。两个实体在藏文句子中出现的顺序是决定其关系的重要因素之一。在非包含关系的实体位置特征中考虑的情况有两种:一种情况是实体E1在实体E2之前,表示为EP12;另一种情况是实体E1在实体E2之后,表示为EP21。
(2)实体距离关系。两个实体在藏文句子中会产生一定距离。两个实体词之间距离不同,表达的两个实体词之间的信息也不同。将两个实体之间的距离特征表示为Ed。
(3)实体及周围词特征。实体词周围特征以及实体本身特征包含词特征以及词性特征。藏语与汉语、英语有很大不同,比如藏语句型是谓语后置,其中的动词是句子的关键。在藏文实体关系抽取工作中,格标记同样起着关键作用。
本文选择实体周围窗口Windows大小为2,也即是实体前后两个词的词性特征,选取格助词(/k)、动词(/v)、形容词(/a)、数词(/m)、连词(/c)作为实体周围词的词性特征。本文研究中实体E2为出生地、出生日期、逝世日期、父亲、母亲、国籍、职业、有关人物、性别等。实体E2词性特征E2pog可以表示为/ng、/nt、/ns、/nh、/nz 共5种。实体E1全部为人名,其词性都为人物名词,没有显著区别,所以在本文中忽略不计。[EWi]表示词汇特征,i=1,2,[Epog]表示词汇词性特征,分别如式(1)、式(2)所示。
2.2 BP神经网络
隐藏层可以有任意多个,本文使用两层隐藏层对实体关系进行判别。隐藏层节点数一般根据前人设计所得经验与自己试验进行确定。另外,隐藏层节点数太多会导致学习时间过长,而节点数太少,识别未经学习的样本能力差。隐藏层节点数L的初始值可先由以下两个公式中的其中之一确定:
3 实验
3.1 语料预处理
本文的藏语语料是通过配置的爬虫系统从多个藏文网站爬取的,如维基百科(藏语版)、康巴传媒网、中国藏族中学网等。然后从中筛选出关于藏族人物介绍的文章,并对这些句子作一些预处理,如人工分词、词性语料标注等,其中筛选包含人物属性的句子4 216句,采用3 000句作为训练数据,1 216句作为测试数据。
3.2 评价指标
实体关系抽取的性能评价使用信息检索中的评价方法,召回率(R)可被粗略看成是测量被正确抽取的信息比例,而准确率(P)用来测量抽取的信息中有多少是正确的。一般召回率与准确率存在反比关系,也即准确率增大会导致召回率减小,反之亦然。本文采用F值对最终的系统性能进行评价,F值越接近1,表示结果越好。
3.3 实验参数设置
本文隐藏层选用Sigmoid函数,输出层选用线性函数。训练函数有trainlm算法、trainrp算法、trainbfg算法、traingdx算法等。本文选用了适合模拟分类的traingdx算法。选择的学习速度参数不能太大,否则会出现算法不收敛的情况,也不能太小,否则会使训练时间太长。一般选择0.01~0.1之间的值,本文选用0.01,训练目标误差为0.01。
3.4 实验结果及分析
在同样语料的情况下,本文采用支持向量机方法进行实验,实验结果如表1所示。
从表1可以直观地看出,在选取相同特征及相同语料的基础上,使用BP神经网络模型比使用SVM模型的实验结果在正确率、召回率以及F值上都有更好效果,其中F值提高了1%。
实验采用MATLAB对结果作进一步分析,如图3所示为训练结果,随着迭代次数增加,检验参数的值不断减少。在迭代106次时,最佳的检验参数是0.653。
图4是BP神经网络模型的实际与预测分类对比结果。黑色表示预测类别的标签,灰色表示测试之前标注好的标签。
4 结语
本文介绍了使用BP神经网络模型对藏语实体关系进行抽取的方法。实验结果表明,BP神经网络相比于SVM分类器,在正确率、召回率以及F值上都有更好效果。目前,藏语语料还不够丰富,与汉语测试数据相比,实验中藏语数据相对比较单一,而且标注数量有限,对语料的收集与检验工作还需进一步完善。因此,在藏语实体关系抽取研究上仍有很大的提升空间。该研究在搜索引擎、网络信息过滤与信息安全、机器翻译等许多应用领域可发挥重要的作用。
参考文献:
[1] 李光,钟雅琼. 大陆研拟藏维文网络舆情监测系统监控分裂风险[EB/OL]. http://news.ifeng.com/.
[2] BIZER C,HEATH T,BERNERS-LEE T. Linked data-the story so far [J]. International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3):1-22.
[3] 梁金宝. 藏语历史文献词汇统计[D]. 北京:中国社会科学院民族学与人类学研究所,2013.
[4] 祁坤钰. 信息处理用藏文自动分词研究[J]. 西北民族大学学报:哲学社会科学版,2006,26(4): 92-97.
[5] ZHOU G D,ZHANG M. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management,2007(43): 969-982.
[6] NANDA KAMBHATLA. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]. Proceedings of ACL, 2004: 178-181.
[7] QIAN L H,ZHOU G G,KONG F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]. Proceedings of COLING, 2008: 697-704.
[8] ZHOU G D,ZHANG M,JI D H, et al. Tree kernel-based relation extraction with context-sensitive structured parse tree information [C]. Proceedings of EMNLP/CONLL,2007:728-736.
[9] CHE W X,JIANG J M, ZHONG SU,et al. Improved-Edit-Distance kernel for Chinese relation extraction[C]. Proceedings of IJCNLP, 2005:132-137.
[10] 莊成龙,钱龙华,周国栋. 基于树核函数的实体语义关系抽取方法研究[J]. 中文信息学报,2009,23(1):3.
[11] 邓擘,樊孝忠,杨立公. 用语义模式提取实体关系的方法[J]. 计算机工程,2007,33(10):212-214.
[12] 张苇如,孙乐,韩先培. 基于维基百科和模式聚类的实体关系抽取方法[J]. 中文信息学报,2012,26(2): 75-81.
[13] CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]. Proceedings of ACL, 2004: 423-429.
[14] ZHANG M, ZHANG J, SU J, et al. A compo site kernel to extract relations between entities with both flat and structured features [C]. Proceedings of ACL, 2006: 825-832.
[15] SUN Y, YAN X, ZHAO X, et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]. International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2010:1-5.
[16] 朱臻,孙媛. 基于SVM和泛化模版协作的藏文人物属性抽取[J]. 中文信息学报,29(6): 220-227.
[17] 兰义涌. 藏文人名属性抽取及消歧研究[D]. 北京:中央民族大学, 2016.
(责任编辑:黄 健)