周晓航 周晓宇
摘 要: 针对原有语义精准抽取系统抽取结果精度较差的问题,设计基于汉英双语语料的语义精准抽取系统。硬件部分沿用原有系统硬件部分,仅对语义信息录入设备与信息存储设备设计。软件部分设计,构建自动语义知识库,增加汉英双语语料信息;根据tf?idf算法制定抽取规则;利用计算机编程语言控制抽取过程,实现精确抽取。至此,基于汉英双语语料的语义精准抽取系统设计完成。构建测试环境,完成性能测试,通过与原有系统对比可知,此系统抽取准确率与信息召回率远高于原有系统。由此可知,该系统抽取精度更高,更为有效。
关键词: 语义抽取; 系统设计; 双语语料; 制定抽取规则; 精准抽取; 性能测试
中图分类号: TN912.34?34; TP391 文献标识码: A 文章编号: 1004?373X(2020)10?0156?04
Design of semantic precise extraction system based on Chinese?English bilingual corpus
ZHOU Xiaohang1, ZHOU Xiaoyu2
(1. Beijing University of Information Technology, Beijing 100192, China; 2. Institute of Automation, Heilongjiang Academy of Sciences, Harbin 150090, China)
Abstract: In allusion to the poor accuracy of the extraction results in the original semantic precise extraction system, a semantic precise extraction system based on Chinese?English bilingual corpus is designed. In the hardware part, the hardware part of original system is used, and the semantic information input equipment and information storage equipment are designed merely. In the software design part, the automatic semantic knowledge base is constructed and the Chinese?English bilingual corpus information is added; the extraction rules are set according to tf?idf algorithm; the extraction process is controlled by means of the computer programming language to achieve accurate extraction. Thus, the design of semantic precise extraction system based on Chinese?English bilingual corpus is completed. The testing environment is constructed to complete the performance test. In comparison with the original system, it can be seen that the extraction accuracy and information recall rate of this system are much higher than that of the original system. Therefore, this system has higher extraction accuracy and is more effective.
Keywords: semantic extraction; system design; bilingual corpus; set extraction rule; precise extraction; performance test
随着信息技术的发展与应用,程序设计的要求也随之增加,越来越多的程序信息被创造出来。网络信息呈爆炸式增长,如何从海量信息中提取所需的语义信息成了有待解决的问题,因此在过往对于语义的研究过程中,大量专家学者构建语义精准抽取系统[1?2]。但这些语义抽取系统对双语语料的抽取效果较差,常常出现抽取精度差的问题[3]。针对这些问题,设计基于汉英双语语料的语义精准抽取系统。
1 基于汉英双语语料的语义精准抽取系统硬件设计
此次设计仅针对语义抽取精度,相关的硬件设计仅针对此部分,其他硬件沿用原有程序部分,在硬件设计时注重此次设计硬件与原有硬件之间的连接与组合。为保证此次设计的有序性,对硬件设计部分的框架进行约束,具体情况如图1所示。
此次硬件设计包括语义信息的录入设备以及信息存储整理设备。通过这两种设备在信息输入与存储过程中保证信息的精度[4?5]。在设计的过程中,注重设备的利用率与适用性。
1.1 语义信息录入设备设计
根据上述硬件框架设定,完成语义信息录入设备的设计。在此次设计中,采用便携式设计理念,将整体录入设备采用微缩化处理[6],具体参数如表1所示。
采用上述参数设计出的设备,可适用于多种环境,錄入方式简单、快捷。中英结合操作界面,在设备设计中,增加断电保护功能,保证录入信息的完整性和抽取时的精确度。
1.2 语义信息存储整理设备设计
采用设计后的语义录入设备将录入语义信息存储在处理设备。此次设备设计中,采用Cortex?A57四核心1.7 GHz处理器及64位构架,引擎部分为加密引擎。设备外观设计如图2所示。
存储处理设备采用16 GB 内存,设定一个DDR4 Long?DIMM插槽,支持SATA 6 Gb/s硬盘槽。机架型机身电源设定为ATX250W,AC 100~240 V。设备内配置2个7 cm风扇,可使用SSD快取支援。整体设备尺寸[7?8]为90 mm×490 mm×540 mm。此次设计中的信息录入设备与信息存储设备,保证了语义信息源头的录入精度,成为系统实现的基础。
2 基于汉英双语语料的语义精准抽取系统软件设计
以上述硬件设计结果为基础,针对原有系统抽取精度差的问题,设计基于汉英双语语料的语义精准抽取系统软件。
2.1 构建自动语义知识库
针对原有问题,构建对应语义知识库,需要一系列基于语料的信息抽取技术,发掘大量非结构化数据名词概念以及其中对应的语义关系。利用原有得到的概念以及语义关系知识库完成此次自动语义知识库构建。
此次构建需要概念抽取与语义抽取作为构建基础。在知识库的构建中,汉英双语语料是其中的重要组成部分[9?10]。自动语义知识库的构建过程与构造语义字典相同,在设计中设定自动知识库中预存300万个类别的概念,每一种类别的概念均有若干属性,通过计算得出属性之间的特定关系概率值。
知识库构建完成后,采用统一的对齐模式保存。此次采用GIZA++词对齐工具[11],并在自动知识库中构建语料语义预处理模块。将原始语料处理成词对齐与句对齐的语料,为后续工作进行铺垫。
2.2 制定抽取规则
根据上述自动知识库的建立,设定相应的语义抽取规则,在汉英双语语料的基础上,采用TF?IDF算法约束抽取过程,制定相应抽取规则[12]。设定2个信息之间的紧密程度通过互信息模型体现,公式为:
[Q=log2m(m+n+p+q)(m+n)(m+p)] (1)
假设对应汉英语义的两个词语[P],[Q],[m,n,p,q]分别表示两个词语同时出现、第一个出现第二个不出现、第一个不出现第二个出现以及均不出现的次数。设定[R]为语义对应检测值,公式为:
[R=m-(m+n)(m+p)a(m+n+p+q)] (2)
当通过上述公式得出的数值与0接近时,这个信息则不为抽取信息,将此信息剔除[13]。使用TF?IDF算法结合上述公式,得出抽取规则如下:
[U=2m·logmN(m+n)(m+p)+n·lognN(m+n)(n+q)+]
[p·logpN(p+q)(m+p)+m·logqN(p+q)(n+q)] (3)
式中,[N]为知识库中语义信息的个数,通过计算,对信息语义进行抽取,并约束抽取过程。
2.3 实现语义精准抽取
根据知识库的信息存储与抽取规则的制定,采用计算机编程的形式,实现语义精准抽取。针对精度较差的问题,将抽取过程分割为信息数据的预处理、关键字抽取以及语义抽取过程。设定部分编程语句如下:
…
Event eld "序号"anchor="触发词"langType="语音"
Erelemeveld="所属语义"tld"信息序号"
aliReled1="信息1"eld="信息2"TRID="序号"
ARType=“关系类型” //抽取
…
为保证抽取过程的有效性,对流程进行设定。首先,输入所需要的语义信息;其次,对问题进行分类,载入系统之中处理为目标语句[14?15],对其进行实体识别,并对所需语义进行抽取;最后,保存抽取结果,展示给用户,实现语义的精准抽取工作。
3 系统性能测试
针对本文设计的基于汉英语义双语语料的语义精准抽取系统的信息提取功能,构建测试环境。将其与传统语义提取系统进行对比,测试两者信息提取精度。通过对比测试结果得出本文设计系统的性能效果。
3.1 构建测试环境
为保证本文所设计系统的有效性与科学性,设计性能测试实验对其性能进行研究,构建相应的测试环境。对此次系统设计中使用的设备参数进行设定,具体参数如表2所示。
根据上述环境参数,构建此次实验的环境,以保证实验过程的有效性与科学性。
3.2 确定性能指标
对语义精准抽取系统进行功能测试时,主要考察信息预处理过程、关键语义抽取功能以及语义相似度抽取功能能否正常运行,因而设定相应的性能指标。
[Precision=ef×100%] (4)
[Recall=eh×100%] (5)
[W=2·Recall·PrecisionPrecision+Recall] (6)
式中:[Precision]表示抽取的准确率;[Recall]表示语义信息召回率;[W]为此次测试的精度权重;[h]表示有效发出信息;[e]表示抽取到的语义信息;[f]表示库中的总信息数。
在此次功能测试中,共进行10次抽取,发出信息100条,抽取相应语义信息,通过表格统计的形式描述测试结果。
3.3 测试结果分析
采用测试环境与测试指标,完成此次系统性能测试,具体测试结果对比如表3所示。
通过上述实验结果可知,采用本文设计系统完成语义信息抽取工作,其准确率明显高于原有抽取系统,而且其信息召回率也高于原有系统。通过精度权重对比可以看出,本文设计系统权重远高于原有系统。因此,本文设计系统在语义抽取的过程中,精度更高,效果更好。使用并普及本文设计系统可有效缓解原有系统造成的精准度低的问题,实现高精准度的语义抽取工作。
4 结 语
针对原有系统抽取精度较差的问题,设计新型的语义精准抽取系统,即基于汉英双语语料的语义精准抽取系统。在此次系统的设计中,采用自动语义知识库的形式,为语义抽取提供相应的抽取信息支持。设定新的抽取规则,保证在精准抽取的前提下,实现汉英双语语料的应用。根据抽取规则,实现对语义的精准抽取。目前精准语义抽取系统的研发还在起步阶段,因此该方向的研究还有广阔的空间。在日后的研究中,将以本次研究成果作为基础,构建更加精准的语义抽取系统。
参考文献
[1] 樊峰峰,李戰怀,陈群,等.一种基于离群点检测的自动实体匹配方法[J].计算机学报,2017(10):3?17.
[2] 柳路芳,李波,陈鹏,等.基于词向量与可比语料库的双语词典提取研究[J].计算机工程与科学,2018,40(2):368?373.
[3] 徐健,张栋,李寿山,等.基于双语信息的问题分类方法研究[J].中文信息学报,2017(5):176?182.
[4] 陈雪梅,柴明颎.非平衡双语者口译语义加工路径探究[J].上海大学学报(社会科学版),2018,35(5):127?136.
[5] 刘梦婕.英汉翻译中语义重心的分析与处理[J].兰州文理学院学报(社会科学版),2018(4):107?113.
[6] 朱顺乐.融合深度学习特征的汉维短语表过滤研究[J].计算机技术与发展,2018(7):155?160.
[7] 夏国清,谭石坚,陈华珍.集散控制的智能精准投料控制系统设计[J].现代信息科技,2019,3(2):167?169.
[8] 肖小林,张莉,罗海波.基于GIS的精准扶贫作战图管理系统设计:以铜仁市为例[J].铜仁学院学报,2018(3):94?97.
[9] 王辉,郁波,洪宇,等.基于知识图谱的Web信息抽取系统[J].计算机工程,2017,43(6):118?124.
[10] 黄政豪,崔荣一.基于术语自动抽取的科技文献翻译辅助系统的设计[J].延边大学学报(自然科学版),2017,43(3):74?78.
[11] 冯慧敏,高娜娜,孟志军,等.基于自动导航的小麦精准对行深施追肥机设计与试验[J].农业机械学报,2018,49(4):60?67.
[12] 潘杰,王福平,焦方桐,等.基于LabVIEW开发环境下的农田智能精准灌溉系统设计[J].节水灌溉,2017(11):97?100.
[13] 俞琰,赵乃瑄.基于通用词与术语部件的专利术语抽取[J].情报学报,2018(7):742?752.
[14] 江腾蛟,万常选,刘德喜,等.基于语义分析的评价对象?情感词对抽取[J].计算机学报,2017(3):12?15.
[15] 张志远,赵越.基于语义和句法依存特征的评论对象抽取研究[J].中文信息学报,2018,32(6):85?92.