刘慧媛 林珠 李帅
摘 要:科技文献查重在现阶段常采用文本相似度计算自动识别科技文献重复性,然而,面向科技文献的独特性,如何提升文本相似度计算的准确率和效率,仍是个值得探讨的问题。
关键词:领域本体;词序特征;科技文献查重;相似度计算
1.国内外研究现状
在国外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隐性语义索引)[1]现阶段已被广泛应用并达到较好的文本相似度计算效果,隐性语义索引得到的结果比基于词频统计得到的结果更符合人类的阅读思维方式,很大程度上提高了检索结果的准确性,目前很多数据服务提供商和搜索引擎的算法都引入了该算法。Google就是典型的代表。LSI也是一种向量空间模型,在原来向量空间基础之上做了一定的扩展,它不用对自然语言去理解,而是用统计的方法反映词语之间内在的相关性,有很高效率。
国内专家学者研究文本相似度的计算过程中高度重视中文语义的识别,通过文本主题识别、语义相似度计算等方法提升相似度计算准确率,也有一些专家学者以词语为研究对象,研究同一文本中不同词语间的关联信息。李善青提出一种整合科技项目相关产出信息的数据模型,采用文本相似度计算判断项目重复率,也有一些学者引入领域本体提升相似度计算准确率,或者直接采用词序特征辅助文本语义的识别,但尚未有两者结合并应用于科技文献查重领域,同时在查重算法的准确率和效率上仍留存一定的欠缺。
2.关键技术
2.1领域本体的构建
本体论(ontology) 是以一个数据模型(data model)去描述知识域 (knowledge domain)的概念、特性及概念之间的关联,并建模于语义网络(semantic network)中。它提供一个有系统性、可重用及便携式的知识表述(knowledge representation)给予计算机软件系统去推理(reasoning)、挖掘(mining)、联系(co-relating)、解译(interpreting)本体内容的语义意思。
针对科技文献大数据构建的本体主要包括本体形式化描述语言、本体开发工具的选择两方面。本体形式化描述语言直接影响本体模型的表达能力和扩展能力,选用OWL(Web Ontology Language)進行本体描述。OWL的优点是以Web资源为描述对象,并且是基于描述逻辑的。
2.2词序因子与领域文本的结合
通过领域本体进行语义相似度计算可以扩充关键词范围,并挖掘出与关键词相关的隐性信息。而词序特征能够代表关键词的逻辑性和时序性,因此,将代表着词序特征的词序因子直接引入领域文本概念相似度计算公式,从而实现两者的结合。对于领域本体,当两个概念具有某些共同特征时,则定义它们是相似的,用sin(A,B)表示概念A,B之间的相似度,A与B间的相似满足以下几点:1、sin(A,B)大小满足sim(A,B)∈[0,1] ;2、如果两个概念完全相同,则sim(A,B)=1 ,当且仅当A=B;3、如何两个概念没有任何共同特征,则相似度为0,即sim(A,B)=0
本体中的概念相似性与语义距离相关,语义距离是指本体树中连接两个节点的最短路径所跨的边数。本文采用语义距离来表示语义相似度,记作Distant(A,B) ,语义距离和语义相似度满足以下几点:1、两个概念距离为0,则其相似度为1;2如果两个概念距离为无穷大,则其相似度为0;3、两个概念词语义距离越大,则其相似度越小,反之亦然。由此本文采用以下公式定义两个概念相似度:
其中α是可调节参数,此处引入词序因子,通过两个词语的词序因子的差值计算作为调节参数。
3.基于领域本体和词序特征的科技文献查重方法
本文提出了一种基于领域本体和词序特征的科技文献查重方法,通过对文献文本的相似度计算判断文献是否重复,该方法中应用的领域本体是通过历年的科技文献资源构建的领域本体。该方法通过提取文本的特征词汇后得出每个特征词的词序因子,这些词序因子代表了各特征词在文中的位置,能体现在文本的逻辑性。当文本引入领域本体进行词语消歧和同义替换后,在进行概念相似度计算的环节中,引入特征词的词序因子,计算出词语间的相似度值,根据词序因子和各特征词的相似度值进行统计后将得出文本相似值,从而达到科技文献查重的目的。
4.算法实现
以科技项目查重为例来举例说明本文的科技文献查重方法,实验数据来源于历史科技项目申报数据、当前申报项目信息等构成的科技文献数据,这些数据主要包括项目名称、申请年度、学科领域、依托单位名称、依托单位类型、以及申报的主体文本等,同时,历史数据还具有是否立项的标签信息。算法主要步骤如下:
第一步:构建领域本体:从历史科技项目申报数据中获取。
第二步:对历年的科技项目立项信息数据进行中文分词后再进行去停用操作,提取出历年的科技项目立项信息数据的特征词,对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
第三步:对待查重的新申请项目进行中文分词后再进行去停用操作,提取出该项目立项信息数据的特征词,对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
第四步:将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。
其中,第二步实现算法描述如下:
S21:将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…},读取其中任一文本Ci,对文本Ci进行中文分词,将得到的分词去停用词,得到向量特征词A=(A1,A2,……,An);
S22:用领域本体对向量A进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量A=(A1,A2,……,Am) ,其中m S23:通过隐马尔可夫模型,计算特征词向量A的词序因子序列αi=(αi1, αi2,……, αjm); S24:重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。 第三步实现算法描述如下: S31:将待查重的新申请项目数据进行中文分词,将得到的分词去停用词,得到特征词向量B=(B1,B2,……,Bin); S32:用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量B=(B1,B2,……,Bim) ,其中m S33:通过隐马尔可夫模型,计算特征词向量B的词序因子序列βi=(βi1, βi2,……, βjm)。 第四步实现算法如下: 将词序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度Kl计算,其中l表示年份: 其中,Xα 为任一年份的科技项目立项信息数据降维后的特征词向量,Xβ 为待查重的新申请项目数据降维后的特征词向量,Xα为Xα的词序因子序列,bβ 为Xβ 词序因子序列,aα、bβ是可调节参数,通过两个词序因子的差值计算作为调节参数,dist(Xα,Xβ)为语义相似度,语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。 5.结论与展望 本文提出一种基于领域本体和词序特征的科技文献查重方法,结合领域本体和词序因子两种方法的优势,在领域本体进行相似度计算阶段引入词序因子,从而达到更好的相似度计算效果。由于科技文献数据类型多样、数据量庞大,接下来需进一步研究将改算法改进成分布式架构和考虑信息融合技术,以适应科技大数据多源异构的特点,使该方法具有更好的适用性。 参考文献: [1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.