维吾尔语语义本体辅助构建系统研究

2019-08-26 01:35杨勇任鸽
数字技术与应用 2019年5期
关键词:本体

杨勇 任鸽

摘要:维吾尔语语义本体库在维吾尔语计算语言学研究中扮演着重要角色,在维吾尔语语义理解、词义消歧、信息检索等多项研究领域中发挥重要作用,本文利用了汉语各类语义知识库和词典,充分借鉴了其中的各类语义关系,设计了维吾尔语语义本体的构建方法,利用软件工程知识设计了维吾尔语语义本体辅助构建系统,实践结果表明,该系统可以有效地提高维吾尔语语义本体库的构建效率,加快建设维吾尔语语义本体库的建设周期。

关键词:本体;维吾尔语语义;辅助构建

中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2019)05-0066-02

0 引言

本体(Ontology)是对共享概念的正规、明确的表述。本体始于哲学概念,90年代初被引入人工智能后,作为一种能在语义和知识层面上描述信息系统的概念模型建模工具[1]。中文的语义本体知识库的代表有HowNet(知网)[2,4],知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网作为一个知识系统,实副其名是一个网而不是树,它所着力要反映的是概念的共性和个性,以及反映概念之间和概念的属性之间的各种关系,它包含上下位关系、同义关系、反义关系、部分整体关系等16种关系,知网通过义原标注概念的含义。英语的语义本体知识库的代表是WordNet[3,5],英文WordNet是词汇学家米勒(Mill George A)以及他的研究小组于1985年着手构建开发的一部在线词典数据库系统,是基于英语的词汇语义网络系统,它以词的同义词集合表示一个基本的词汇概念,并在这些词汇概念间建立多种词汇语义关系。

目前,维吾尔语语义研究领域还缺乏本体知识库建设,究其原因是多方面的,其中一个很重要的原因就是缺乏本体辅助构建系统的支持,本文将研究维吾尔语语义本体的构建方法,并在此基礎上设计并实现维吾尔语语义本体辅助构建系统。

1 维吾尔语语义本体构建过程

第一步,利用《维吾尔语同义词词典》,《维吾尔语大辞典》等维吾尔语词典获取维吾尔语同义词集合。

第二步,通过《维汉双语词典》将维吾尔语同义词集合翻译为汉语,在汉语的《同义词词林》的找到对应的分类,确定类别名称,借鉴《同义词词林》的分类体系,将维吾尔语语

义本体分为12大类,94个中类、1428个小类。

上述建立的维吾尔语语义本体知识库中词语只有上下位关系和反义关系,可以参照HowNet添加比较常见的整体-部分关系和反义关系,具体过程如下:

第一步,遍历维吾尔语语义本体知识库,获取类别名称。

第二步,以该类别名称作为关键词搜索HowNet,获取其整体-部分词语和反义词语。

第三步,在维吾尔语语义本体知识库中标注其整体-部分词语和反义词语,建立相关关系。

2 需求建模

维吾尔语语义本体辅助构建系统能够实现系统管理和分类管理两大模块,系统管理和分类管理均采用树形结构实现,系统管理通过用户管理、角色管理以及菜单管理,实现不同的用户可以授予不同的角色,不同的角色可以授予不同的权限,从而实现不同用户登录后的显示界面不同,这样既保护了数据的安全性,又满足了不同用户的需求。分类管理模块以《同义词词林》作为本体标注的基础,整个标注体系由大类、中类、小类、与标题词四级组成,共有十二个大类,包括人、物、时间与空间、抽象事物、特征、动作、心理活动、活动、现象与状态、关联、助语、敬语,每一词群以一最常用词为标题词(例如:Aa、01、人、人民、众人)。能够对分类的标注数据实现数据录入、数据修改、数据删除、数据导出、数据存储、数据查询以及数据的浏览等功能。在标注过程中系统要充分利用《同义词词林》、HowNet,《维吾尔语同义词词典》、《维吾尔语大词典》《维汉词典》等外部知识库资源,设计读取各类资源的功能,使用者按照第2节所描述的维吾尔语语义本体构建过程,构建维吾尔语语义本体库。下面通过用例图描述整个系统的功能,如图1,图2所示。

3 概要设计

系统共分为9个模块,整体模块图如图3所示,每个模块的具体功能如下:

(1)用户管理模块: 管理员登录系统后,进入系统的主界面,可以实现对用户信息的管理,可以浏览所有用户的信息,添加新用户的信息,修改、删除已有用户的信息,并能够通过用户名进行模糊搜索,也可以通过用户角色进行精确搜索,还可以根据需要将用户信息导出到excel中。(2)角色管理模块 :管理员登录系统后,进入系统的主界面,可以实现对角色信息的管理,可以查看所有角色信息,添加新角色,修改、删除角色信息,对角色进行角色授权,赋予角色更多的权限或取消角色拥有的权限,并能够根据角色名进行模糊查询。(3)菜单管理模块:超级管理员登录系统后,进入系统的主界面,可以实现对菜单信息的管理,能够浏览所有的菜单信息,添加菜单信息,修改、删除菜单信息。(4)词典管理模块:管理员登录系统后,可以添加、删除各类机读词典,并可对词典里的数据进行添加和修改。(5)标注管理模块:管理员登录系统后,可以对语义标注体系进行管理,语义标注体系来源于《同义词词林》的分类体系。(6)语义本体管理:管理员登录系统后,可以完成对已标注语义本体的导入、导出操作。(7)维汉翻译:标注人员同过维汉翻译模块,获取要标注维吾尔语的汉语翻译,便于获取在汉语词典中的各种关系。(8)标注单词管理:标注人员利用语义本体标记对维吾尔语单词进行标注同义、上下位、整体-部分等语义关系,构建语义本体库。(9)查询词典:标注人员通过查询汉语词语在《同义词词林》,HowNet中各类词语的关系,确定相应维吾尔语词语之间的相互关系。

4 系统实现效果

系统登录效果如图4所示,登录后效果如图5所示。

5 结语

维吾尔语语义本体库在维吾尔语计算语言学研究中扮演着重要角色,在维吾尔语语义理解、词义消歧、信息检索等多项研究领域中发挥重要作用,本文借鉴《同义词词林》的分类体系,设计了维吾尔语语义本体标注体系,针对语义本体中的各种复杂关系的扩充与确定问题,采用维汉翻译的方式,获取维吾尔语对应翻译结果在HowNet中的关系来扩充维吾尔语语义本体库,为方便研究人员更有效率的构建维吾尔语语义本体库,设计了功能完善的维吾尔语语义本体辅助构建系统,极大的提高了标注人员的工作效率,未来可在建成的维吾尔语语义本体库基础上开展词义消歧义,语义理解多多方面的研究,促进维吾尔语计算语言学的发展。

参考文献

[1] 赵小兵,邱莉榕,赵铁军.多民族语言本体知识库构建技术[J].中文信息学报,2011,25(04):71-74.

[2] 孙柳.《同义词词林》的改进与应用研究[D].广西师范大学,2015.

[3] 哈斯.蒙古语名词词汇语义网的构建[D].内蒙古大学,2013.

[4] 知网[OL]http://www.keenage.com/[t1].

[5] WordNet[OL] http://wordnet.princeton.edu/.

猜你喜欢
本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考