菊 花,那顺乌日图
(1.内蒙古大学,内蒙古 呼和浩特 010021;2.内蒙古师范大学,内蒙古 呼和浩特 010021)
随着互联网处理的开放连接数据与用户应用数据量的爆炸式增长,互联网数据处理技术也在不断增强,计算机不再只是描述网页与网页之间的连接关系,同时需要描述网页与实体、实体与实体之间的关系,因此计算机专业术语逐渐形成[1⁃2]。计算机专业术语通过知识图谱描述真实世界中实体的概念,使实体信息更加丰富。计算机专业术语知识图谱广泛应用于数据挖掘、智能引擎、网络工程中,而计算机专业术语知识图谱识别的精度对专业术语的应用有着重要影响,致使众多学者对计算机专业术语知识图谱自动识别方法产生兴趣[3]。文献[4]提出基于旋转森林和AdaBoost分类器的专业术语知识图谱自动识别方法,该方法采用旋转森林算法对计算机专业术语集进行分割,并通过特征变换将完成分割的计算机专业术语集映射到新的特征空间,形成新的计算机专业术语特征子集。采用AdaBoost算法对特征子集进行多次迭代分类,构建计算机专业术语知识图谱并完成自动识别。文献[5]提出基于BLSTM⁃CRF模型的专业术语知识图谱自动识别方法,该方法采用双向长短期记忆网络构建知识图谱,并采用BLSTM与条件随机场CRF相结合的方式深度挖掘计算机专业术语的知识图谱,完成计算机专业术语知识图谱的识别。
上述方法虽然能完成计算机专业术语知识图谱识别,但识别过程复杂、识别准确率低,因此,文中提出基于数据库的专业术语知识图谱自动识别。
在计算机专业术语存储数据库的研究中,比较主流的是关系惯性存储数据库。此数据库通过二维表的形式完成相关数据的存储,其具有结构简单、存储安全等特点,能够保证存储数据的一致性[6⁃8]。但随着存储数据量逐渐庞大,这种关系型数据库的存储模型已经难以满足现有数据存储的需求。因为在进行海量数据量识别时,传统关系型数据库虽然能够保持数据的独立性,但是,同时会占用大量的数据库资源,导致整体的数据识别性能变差。为了解决传统数据库存在的问题,本文对计算机专业术语数据库进行了设计。数据库模型如图1所示。
图1 数据库模型
由图1中可以看出,根据数据库的概念进行界定,非关系型数据库属于图像数据库。非关系型数据库是一种将数据按照点、线、面等基本元素进行存储的数据库,主要包括节点、关系和属性[9]。
为了使最终的识别结果更加精准,构建了计算机专业术语知识图谱。通过生成数据网格和概念层次排列数据网格[10⁃11]。采用领域本体学习工具,从上述构建的计算机专业术语存储数据库中自动抽取计算机专业术语的领域本体,获得计算机专业术语的语义概念,以简单的概念表示复杂的术语关系。利用抽取的计算机专业术语领域本体,确定计算机专业术语之间的分类学关系。知识图谱层次结构如图2所示。
由图2所示的知识图谱层次结构可以看出,知识图谱可以对计算机专业术语不同实体之间的关系进行描述,因此通过知识图谱可以提高计算机专业术语的覆盖广泛度。针对部分计算机专业术语实体领域描述不准确的问题,通过知识图谱能够使实体关系的描述更为完善,提高计算机专业术语的领域数据完整度。以专业术语领域关系为基础构建的知识图谱框架结构如图3所示。
图2 知识图谱层次结构
图3 知识图谱框架结构
由图3可以看出,专业术语知识图谱可以为识别过程提供优质的实体数据关系,提升识别结果的准确性。在计算机专业术语知识图谱识别过程中,通过知识图谱的结构特征,提升专业术语关联分析的作用效果,使实体关系的覆盖更加全面[12]。因此,通过图3所示的知识图谱框架,可以更好地完成计算机专业术语知识图谱自动识别的目标。
通过上述构建的数据库与知识图谱框架结构,进行计算机专业术语知识图谱的自动识别,识别流程如图4所示。
根据图4所示的专业术语知识图谱自动识别流程,设置具体的识别步骤如下:
图4 专业术语知识图谱自动识别流程
1)将计算机专业术语数据导入所构建的非关系型数据库中,以便更好地识别计算机专业术语数据实体之间的关系。
2)采用计算机处理技术调用Neo4j的REST API接口,完成计算机专业术语知识图谱的构建。
3)通过计算机专业术语知识图谱数据实体之间的位置特征,描述数据实体位置之间的关系,实体位置越接近说明计算机专业术语之间的相关性越强[13⁃15]。实体间的位置关系主要有嵌套、相邻与分离三种。其中,嵌套指一种实体中包含另一种实体,相邻指两种实体之间直接关联,分离指两种实体之间存在字符。
4)通过挖掘专业术语数据实体特征完成知识图谱的自动识别。通过上述步骤获得实体位置关系特征,进行实体特征挖掘。设置专业术语字符表D中存储其所有相关字符,D={ }d1,d2,…,dn,di表示其中的一个实体,则获得的实体特征向量:V={v1,v2,…,vn,vn+1,vn+2,…,v2n}。特征向量的位数为D的2倍。vi的计算公式为:
通过上述步骤,完成基于数据库的专业术语知识图谱自动识别。
为了验证所提出的基于数据库的专业术语知识图谱自动识别方法的有效性,进行对比实验。实验方案为:以知识图谱覆盖范围、识别精度为实验对比指标,将所提方法与文献[4]、文献[5]方法进行对比验证。
1)实验环境。实验环境为Windows 7 64位操作系统,处理器AMD Phenom(tm)Ⅱ×4B97 Processor 3.2 GHz,安装内存(RAM)4.0 GB。仿真环境为Matlab R2012a。
2)实验数据。从构建的数据库中随机选择6×105条语义知识图谱数据,进行验证。在所有的数据中,共包含150种语义特征属性。
在上述实验环境下,以知识图谱覆盖范围为实验对比指标,进行三种方法的对比实验。实验对比结果如图5所示。
图5 知识图谱覆盖范围对比结果
由图5可以看出,所提方法的知识图谱覆盖范围远高于两种文献对比方法,所提方法的覆盖率始终保持在98%。而文献[4]方法覆盖率波动幅度较大,难以保持广泛的覆盖状态,文献[5]方法的最高覆盖率未超过60%。因此,充分说明所提方法具有较高的知识图谱覆盖范围,可以提高识别结果的有效性。
三种方法的识别精度对比结果如图6所示。
图6 识别精度对比结果
由图6中可以看出,在实验时间持续上升的情况下,所提方法的识别精度始终保持较高水平,远高于文献[4]、文献[5]方法。因此,证明所提方法具有较高的专业术语知识图谱自动识别精度。
本文以提高计算机专业术语知识图谱识别的精度与知识图谱覆盖范围为目标,提出基于数据库的专业术语知识图谱自动识别方法。从理论与实验验证两方面对所提方法进行了设计与验证。实验结果表明,与现有识别方法相比,所提方法在知识图谱覆盖范围与识别精度两方面的性能均得到了大幅度提升。因此,证明所提方法能够满足计算机专业术语知识图谱自动识别的需求,可以进行广泛的实际应用。