黄廷磊 张伟莉,3 梁 霄 付 琨
(1中科院空间信息处理与应用系统技术重点实验室, 北京 100190)(2中国科学院电子学研究所, 北京 100190)(3中国科学院大学, 北京 100049)
数据驱动的细粒度中文属性对齐方法
黄廷磊1,2张伟莉1,2,3梁 霄1,2付 琨1,2
(1中科院空间信息处理与应用系统技术重点实验室, 北京 100190)(2中国科学院电子学研究所, 北京 100190)(3中国科学院大学, 北京 100049)
为提高中文开源数据集间属性关系识别的准确率,提出一种数据驱动的细粒度对齐方法,综合利用属性的扩展、定义域等对属性间的同义、包含、相关等关系进行统一识别.方法首先利用统计理论确定属性的数据类型,并给出类型感知的属性相似度计算方法.在此基础上,将属性关系识别建模为多分类问题,抽取有效特征对不同关系进行描述并用于随机森林模型的构建.实验结果表明,该方法中属性数据类型判别的准确率达94.6%,最终对同义、包含、相关关系识别的F1值分别为71.3%,57.3%及59.9%.相比只关注同义属性的传统方法,细粒度属性对齐方法不仅提高了同义属性识别的准确性,而且可识别出相互包含和相关的属性,证明了其在中文开源数据集上的有效性.
中文属性对齐;属性数据类型判别;属性相似度;异构数据集成;知识图谱构建
开放链接数据项目(linking open data,LOD)的出现促进了大规模语义数据的发布与互联,LOD云图中来自不同数据集、不同领域的大量结构化信息,对基于知识的应用产生了很大影响[1].鉴于链接数据的重要价值,国内学者构建了zhishi.me[2]、XLore[3]、zhishi.schema[4]、CN-DBpedia等多种中文知识图谱[5],并成立了OpenKG.CN知识图谱社区,以推动中文数据的开放与互联[6].
在构建中文知识图谱以及链接不同知识库的过程中,需要对异构数据集间的概念、实体、属性等进行对齐与融合[5-7],以提高图谱的数据质量,增强知识库之间的互联互通.其中,属性对齐旨在识别来自单一或多数据集的属性之间存在的对应关系[8],其结果将直接影响图谱中事实三元组的质量,以及实体对齐[9]、语义检索[1]等的效果.与概念和实体相比,属性的名称富于变化[10-11],同义与多义情况更普遍,且属性名的字面含义与实际使用中的意义可能不一致[12];此外,在很多数据集中,属性的结构信息较缺乏[12],这些都导致属性对齐具有更大的挑战性.
属性对齐是模式匹配[13]或本体对齐[8,14]的一部分,传统方法大多依赖属性描述文本[11]、本体结构[15]、语义原语[14]等,但这些信息在中文原始数据(如百科)以及部分知识库中不存在或不完整[16].数据驱动的方法[17-18]建立在属性的实例数据上,可在一定程度上解决上述问题[12].例如,Gunaratna等[1]和Zhang等[12]利用三元组间的重叠识别LOD中的同义属性,后者给出了属性对齐的无监督框架.Liu等[19]则将属性对齐转化为属性函数的相似性计算问题.此外,Adar等[20]进行了跨语言的维基百科信息框属性对齐,Wang等[21]对检索返回的知识卡片中的属性进行融合.然而,很多方法只关注同义属性的识别,较少考虑属性间的其他关系;少部分进行子属性识别的方法[9]也主要适用于成熟的LOD数据集.
本文提出一种数据驱动的细粒度属性对齐方法,通过使用统计理论确定属性的数据类型并给出类型感知的属性相似性测度,以提高算法对不规范数据的适应性;将属性对齐建模为多分类问题,使用监督学习的方法识别属性间的同义、包含、相关等细粒度关系,提高属性语义关系判别的准确率和全面性.
根据OWL(web ontology language)的规范,Web中的资源可用一系列形如〈主语,谓语,宾语〉的三元组描述,其三要素依次对应实体、属性和属性值.其中实体可被划分到不同的类别(概念),如人、动物等;属性可分为数值型和对象型属性,前者的属性值为文本,而后者的属性值是实体.一个属性可出现在多个三元组中,其中的实体-属性值对构成的集合为该属性的扩展,扩展中所有实体的概念构成属性的定义域.
记〈e,p,l〉为数据集D中的三元组,Ep为属性p的扩展中实体的集合,Mp为p的定义域;Le,p表示给定实体e和属性p时的属性值集合,若Le,p只包含一个元素,则p为函数型属性,如“生日”,否则为非函数型属性,如“父母”.
1.1 属性数据类型
定义1(属性数据类型) 一个属性所有属性值的数据类型构成的集合,称为该属性的数据类型.即给定属性p,其数据类型为
Tp={tle∈Ep,l∈Le,p}
(1)
式中,tl代表属性值l的数据类型,为进行区分,下文称其为基本类型.
考虑6种基本类型,即数值型、数值范围型、时间型、时间范围型、字符串型以及对象型,将这6种类型构成的全集记为U.由定义1知,属性的数据类型是U的子集,因为对某些多义属性而言,其不同义项可能对应不同类型.例如“出生”可代表“出生日期”或“出生地点”,第1个义项的属性值是时间型,第2个则是字符串型.
1.2 细粒度关系
参考zhishi.schema[4],考虑属性间的如下几种细粒度关系:
1) 同义关系.若2个属性的扩展相同,则它们同义,如“生日”与“出生日期”.
2) 包含关系.若一个属性的扩展是另一个的真子集,则前者是子属性,后者是父属性.如“父亲”是“父母”的子属性.
3) 相关关系.若2个属性既不同义也不包含,但具有较高的语义相关性,则称其相关,如“导演”与“编剧”.
4) 无关.不存在上述3种关系的其他情况.
其中,同义和包含关系的定义引自OWL,用来描述理想情况,可用于指导真实数据集的对齐;相关关系则根据实际情况抽象得到,是一种相对较弱的关系[4].
1.3 细粒度属性对齐
图1举例说明了细粒度属性对齐的目标及基本流程.
图1 细粒度属性对齐示例
2.1 算法描述
细粒度属性对齐方法主要包括属性数据类型判别、属性相似性计算、特征生成与关系分类等部分,具体过程如算法1所示.
算法1 细粒度属性对齐算法
输入:φ=(Γ1,Γ2,Emap,Cmap),标注集Slabel;
//属性数据类型判别
forDin [D1,D2] do
forp∈Ddo
τ←∅;
foreinEpdo
forlinLe,pdo
τ.append(tl);
Tp1←filter(τ);
Flabel←∅,Funlabel←∅;
forp1∈D1do
forp2∈D2do
//属性相似性计算
σ←∅;
fore∈Ep1∩Ep2do
σ.append(sL(Le,p1,Le,p2));
sp(p1,p2)←aggregate(σ);
//特征生成
if (p1,p2) inSlabelthen
Flabel.append(features(p1,p2));
else
Funlabel.append(features(p1,p2));
//属性关系分类
hφ←classifier.fit(Flabel,Slabel);
O←hφ.predict(Funlabel);
end
2.2 属性数据类型判别
2.2.1 确定属性值的基本类型
定义2(原子文本) 若某个文本仅包含一种基本类型的值,则称其为原子文本.
例如,“2016年8月”是时间型的原子文本,而“1402年(老大学)”同时包含时间值和字符串值,因而不是原子文本.
任意属性值l可看作由n(n≥1)个原子文本ai(1≤i≤n)拼接而成,其基本类型通常与其中几个关键原子文本的类型保持一致.考虑到关键原子文本占整个属性值的长度比例通常较大,故使用下式判断l的基本类型:
(2)
式中,I为指示函数,tai=t时为1,否则为0;glen为求文本长度的函数.
2.2.2 确定属性的数据类型
给定属性p,其数据类型可由式(1)确定.但由于原始数据在表达上的多样性和不规范性,基本类型的判别结果可能存在错误,故将式(1)修改为
(3)
即统计各类型的比例,比例低于阈值θ的判断为噪声,对其进行舍弃以提高最终结果的准确性.
2.3 相似度计算
若2个属性常被用于描述相同的实体,且描述相同实体时其属性值有较高的语义相似度,则2个属性可能相似.据此,给出属性p1和p2相似性测度的计算公式:
(4)
为计算属性值的相似性,首先对集合Le,p1进行预处理.对∀l∈Le,p1,选取其中基本类型与p1的数据类型一致的原子文本,构成关键原子文本集合代替l,以去除非关键部分可能带来的干扰.例如“创建年份”是时间型属性,则其属性值“1402年(老大学),1582年(新大学)”的关键原子文本集合为{“1402年”, “1582年”}.
合并Le,p1中所有属性值的关键原子文本集合,得到集合A1.对Le,p2进行同样处理得到A2,并基于最佳匹配集[19]计算A1和A2的相似性.图2举例说明了确定最佳匹配集的基本流程.
图2 最佳匹配集的确定示例
记A1和A2的最佳匹配集为BA1,A2,则属性值的相似性为
(5)
式中,sa为2个原子文本的相似性测度,其计算方法随文本的基本类型而变化:① 若2个值均为数值或均为时间值,计算基于相对误差的相似性[21];② 若均为字符串,计算TF-IDF余弦相似性[11];③ 若均为数值范围,计算对应边界数值相似性的均值,若为数值和数值范围,则计算前者与后者边界数值相似性的最大值,时间范围同理;④ 若均为对象型,则2个值完全相同时相似度为1,否则为0;⑤ 其余情况简化为字符串处理.
2.4 特征生成
由于特征的选取对分类效果有重要影响,因此本节主要给出关系识别所用特征.
2.4.1 针对所有关系
属性的相似性是关系识别的基础,故有特征
f1=sp(p1,p2)
2.4.2 针对相关关系
此外,相关属性的属性值通常会有一部分是完全不同的,因此有
f4较大说明p1与p2的关系较弱,可能只存在相关关系,甚至无关.
2.4.3 针对包含关系
Suchanek等[9]提出PARIS方法,并指出父属性的使用场景通常比子属性广泛,计算2个扩展交集的大小与各扩展大小之比,比例越小越可能是父属性.该测度定义在实体与属性值层面,当2个数据集的属性分布不平衡时效果不稳定[12].而概念定义于更抽象的层面,属性不平衡分布对其影响较小,故将PARIS中的测度迁移到概念层,给出基于定义域的特征
式中,Mp1为p1的定义域;ce为实体e所属的概念;f6为f5的加权表示,各概念的权重正比于该概念下包含当前属性的实体数目.
此外,多义属性可能是父属性,例如“出生”是“出生时间”和“出生地点”的父属性.从数据类型的角度考虑,即子属性的数据类型可能是父属性数据类型的子集,则有
f7=I(Tp1⊂Tp2),f8=I(Tp1⊃Tp2)
最后,属性值集合的包含关系也可表征属性间的包含关系,由此可给出如下特征:
该值较大表明p1可能是p2的子属性.
3.1 数据集
选取中文维基百科(Dw)和百度百科(Db)作为数据集.下载2016年3月的中文维基dumps文件,同时期抓取约123万个百度百科的实体页面.利用页面的信息框生成三元组,并预处理属性值,将其中由分隔符连接的并列值分割为多个属性值,相应地更新三元组,规范非函数型属性.最终从Dw和Db中解析得到约112万和655万个三元组.相同概念的映射通过人工标注得到.维基的分类体系较庞大,因此只选其中较上层(如深度不超过3)的概念与百度百科中的概念进行人工对齐.之后使用文献[22]中的组合规则,综合考虑实体的标题、内容、类别等信息获取相同实体的映射.
从2个百科中分别随机选取300个属性,人工标注各属性的数据类型,所得数据集的样本分布情况如表1所示,其中复杂数据类型包含多种基本类型.
表1 属性数据类型判别数据集的样本分布情况
使用2.3节的方法计算任意属性对(p1,p2)(p1∈Dw,p2∈Db)的相似性,选取相似性大于零的属性对进行属性关系的标注.包含关系又分为“父-子”和“子-父”2种,若(p1,p2)被标注为“父-子”,则将(p2,p1)标记为“子-父”,反之亦然,以扩展标注数据.为避免数据不平衡,仅从初始标注结果中随机选取部分无关属性对.最终得到属性对齐的标注数据集,相应的分布情况如表2所示.
表2 属性对齐数据集的样本分布情况
3.2 属性数据类型判别
将属性数据类型判别的数据集随机划分为训练集(80%)和测试集,改变阈值θ时在训练集上的宏平均准确率(P)、召回率(R)和综合指标(F1)如图3所示.
图3 训练集上的宏平均测度随阈值θ的变化情况
取使F1最大的值为最优阈值,即θ=0.24.此时本文方法在测试集上的宏平均准确率、召回率和F1值分别为94.6%,92.8%和93.3%.分析发现,即使有部分属性值表达不规范,本文方法的识别准确率仍较高,因其基于统计理论,可过滤小概率噪声.以下情况可能带来误判:① 属性值稀疏,缺乏统计基础;② 属性较复杂,数据类型超出定义范围,如维基百科属性“生日出生地点”.但整体来看,本文方法仍有较高准确率,在不规范开源中文数据集上的鲁棒性较好.
3.3 细粒度属性对齐
将属性对齐的数据集随机划分为训练集(80%)和测试集.为确定细粒度属性对齐方法(fine-grained property alignment,FIGPA)的分类模型,选择逻辑回归(LR)、支持向量机(SVM)、决策树(DT)和随机森林(RF)4种分类模型.各模型在测试集上的效果如表3所示.可以看出,随机森林模型效果相对最好,因此选其为FIGPA的分类模型.
表3 FIGPA使用不同分类模型的F1值对比 %
将FIGPA与其他3种方法进行对比.方法1(SUPV-EA)来源于文献[12]中的同义属性对识别方法(简写为EA).EA关注不完善本体中的属性对齐,并且使用数据驱动方法,在适用场景、方法选择上与FIGPA类似.但EA在选择相似性阈值时使用无监督算法,为保证公平性,可在测试集上多次实验选取阈值,则修改后的SUPV-EA方法是有监督的.方法2(SIMP-PARIS)使用PARIS中判断子属性的概率测度识别属性间的同义和包含关系.与FIGPA只利用初始的相同实体映射完成属性对齐类似,SIMP-PARIS也只进行一次迭代,并利用在测试集上实验选取的阈值对结果进行划分.方法3(BI-IA)来源于文献[20],利用二分类模型识别跨语言的同义信息框属性,与FIGPA同为监督学习的方法.BI-IA使用了文献[20]中除翻译特征(6维)之外的其他特征(19维),同样选择随机森林模型作为分类模型.
为适应各方法的分类能力,对属性对齐的数据集做相应调整:对SUPV-EA和BI-IA,将数据集中相关与包含属性的标签调整为无关,对SIMP-PARIS则将相关属性标记为无关.利用训练集训练BI-IA的模型,并确定SUPV-EA和SIMP-PARIS的阈值.各方法在测试集上的性能如表4所示,其中FIGPA和BI-IA的结果为10次实验的平均值.
表4 不同属性对齐方法的性能比较 %
根据表4,本文方法对同义和相关关系识别的F1值分别为71.3%和57.3%,对“父-子”和“子-父”包含关系识别的平均F1值为59.9%.与SUPV-EA和BI-IA相比,FIGPA可区分出相关及包含的属性,一定程度上避免了这2种关系被错分为同义关系,从而提高了同义属性识别的准确率;与SIMP-PARIS相比,FIGPA为包含关系生成更细致的特征表示,降低了属性不平衡分布的影响.综上,本文方法在开源中文数据集的细粒度属性对齐上有良好表现.
为验证各特征的作用,将所有特征分为3组,每次去掉一组后重新训练模型,预测结果与使用所有特征时的差值如表5所示,其中负值代表F1值降低,正值则代表提高.可看到,移除任一组特征,模型总体性能均会降低,以f1的影响最为明显,因为相似度对于不同关系有较强的区分作用.去除f2~f4对相关关系影响较大,f5~f9对包含关系识别较重要,证明了特征的有效性.
表5 移除不同特征后F1值的变化
1) 利用统计理论确定属性的数据类型,在不规范数据集上准确率可达94.6%.
2) 基于数据类型信息,给出类型感知的属性相似性测度.
3) 将细粒度属性关系识别建模为多分类问题,提取包括相似度、数据类型、定义域等在内的特征表示各语义关系的特点,在中文百科数据集上,本文方法对同义、包含、相关关系识别的F1值分别为71.3%,57.3%及59.9%.
4) 数据驱动的细粒度属性对齐方法与传统方法相比,不仅提高了同义属性识别的准确性,而且可有效发现包含、相关等属性,因而更适用于数据表达灵活、属性关系复杂的开源中文数据集.
下一步研究将针对相关和包含关系添加更多有效特征,提高这2种属性关系的识别效果.
References)
[1]Gunaratna K, Thirunarayan K, Jain P, et al. A statistical and schema independent approach to identify equivalent properties on linked data[C]//I-Semantics2013, 9thInternationalConferenceonSemanticSystems. Graz, Austria, 2013: 33-40. DOI: 10.1145/2506182.2506187.
[2]Niu X, Sun X, Wang H, et al. Zhishi.me-weaving Chinese linking open data[C]//10thInternationalSemanticWebConference. Bonn, Germany, 2011: 205-220. DOI: 10.1007/978-3-642-25093-4_14.
[3]Wang Z C, Wang Z G, Li J Z, et al. Knowledge extraction from Chinese wiki encyclopedias[J].JournalofZhejiangUniversityScienceC, 2012, 13(4): 268-280. DOI: 10.1631/jzus.C1101008.
[4]Wang H, Wu T, Qi G, et al. On publishing Chinese linked open schema[C]//13thInternationalSemanticWebConference. Riva del Garda, Italy, 2014: 293-308. DOI:10.1007/978-3-319-11964-9_19.
[5]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. DOI: 10.3969/j.issn.1001-0548.2016.04.012. Xu Zenglin, Sheng Yongpan, He Lirong, et al. Review on knowledge graph techniques[J].JournalofUniversityofElectronicScienceandTechnologyofChina, 2016, 45(4): 589-606. DOI: 10.3969/j.issn.1001-0548.2016.04.012. (in Chinese)
[6]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25. Qi Guilin, Gao Huan, Wu Tianxing. The research advances of knowledge graph[J].TechnologyIntelligenceEngineering, 2017, 3(1): 4-25. (in Chinese)
[7]Qiu L, Yu J, Pu Q, et al. Knowledge entity learning and representation for ontology matching based on deep neural networks[J].ClusterComputing, 2017, 20(2): 969-977. DOI: 10.1007/s10586-017-0844-1.
[8]Shvaiko P, Euzenat J. Ontology matching: State of the art and future challenges[J].IEEETransactionsonKnowledge&DataEngineering, 2013, 25(1): 158-176. DOI: 10.1109/TKDE.2011.253.
[9]Suchanek F M, Abiteboul S, Senellart P. PARIS: Probabilistic alignment of relations, instances, and schema[J].ProceedingsoftheVLDBEndowment, 2011, 5(3): 157-168. DOI: 10.14778/2078331.2078332.
[10]Cheatham M, Hitzler P. The properties of property alignment[C]//9thInternationalConferenceonOntologyMatching. Riva del Garda, Italy, 2014: 13-24.
[11]Cheatham M, Hitzler P. String similarity metrics for ontology alignment[C]//12thInternationalSemanticWebConference. Sydney, Australia, 2013: 294-309. DOI:10.1007/978-3-642-41338-4_19.
[12]Zhang Z, Gentile A L, Blomqvist E, et al. An unsupervised data-driven method to discover equivalent relations in large linked datasets[J].SemanticWeb, 2017, 8(2): 197-223.
[13]王峰,李小平,王茜.基于形式概念分析的模式匹配算法[J].东南大学学报(自然科学版),2009,39(1):34-39. Wang Feng, Li Xiaoping, Wang Qian. Formal concept analysis based schema matching[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2009, 39(1): 34-39. (in Chinese)
[14]Jean-Mary Y R, Shironoshita E P, Kabuka M R. Ontology matching with semantic verification[J].WebSemanticsScienceServicesandAgentsontheWorldWideWeb, 2009, 7(3): 235-251. DOI: 10.1016/j.websem.2009.04.001.
[15]Seddiqui M H, Aono M. An efficient and scalable algorithm for segmented alignment of ontologies of arbitrary size[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb, 2009, 7(4): 344-356. DOI: 10.1016/j.websem.2009.09.001.
[16]Ruan T, Dong X, Wang H, et al. Evaluating and comparing web-scale extracted knowledge bases in Chinese and English[C]//5thJointInternationalConference,JIST2015. Yichang, China, 2015: 167-184. DOI: 10.1007/978-3-319-31676-5_12.
[17]Li J, Tang J, Li Y, et al. RiMOM: A dynamic multistrategy ontology alignment framework[J].IEEETransactionsonKnowledge&DataEngineering, 2009, 21(8): 1218-1232. DOI: 10.1109/TKDE.2008.202.
[18]Fu L, Wang H, Jin W, et al. Towards better understanding and utilizing relations in DBpedia[J].WebIntelligence&AgentSystems, 2012, 10(3): 291-303. DOI: 10.3233/WIA-2012-0247.
[19]Liu Y, Chen S H, Chen J G G. Property alignment of linked data based on similarity between functions[J].InternationalJournalofDatabaseTheory&Application, 2015, 8(4): 191-206. DOI: 10.14257/ijdta.2015.8.4.20.
[20]Adar E, Skinner M, Weld D S. Information arbitrage across multi-lingual Wikipedia[C]//ProceedingsoftheSecondACMInternationalConferenceonWebSearchandDataMining. Barcelona, Spain, 2009: 94-103. DOI: 10.1145/1498759.1498813.
[21]Wang H, Fang Z, Zhang L, et al. Effective online knowledge graph fusion[C]//14thInternationalSemanticWebConference. Bethlehem, PA, USA, 2015: 286-302. DOI:10.1007/978-3-319-25007-6_17.
[22]胡芳槐.基于多种数据集的中文知识图谱构建方法研究[D].上海:华东理工大学信息科学与工程学院,2015.
Data-driven method for fine-grained property alignment between Chinese open datasets
Huang Tinglei1,2Zhang Weili1,2,3Liang Xiao1,2Fu Kun1,2
(1CAS Key Laboratory of Technology in Geo-spatial Information Processing and Application System, Beijing 100190, China) (2Institute of Electronics, Chinese Academy of Sciences, Beijing 100190, China) (3University of Chinese Academy of Sciences, Beijing 100049, China)
In order to improve the performance of property alignment between heterogeneous Chinese open datasets, a data-driven method for fine-grained alignment is proposed, which exploits the extension and domain information of properties to find equivalence, subsumption and relevance relations between properties in a unified way. First, the data types of properties are determined utilizing statistical theory, and a type-aware metric is given to calculate the similarity of properties. Based on that, the property relation recognition is modeled as a multi-classification problem, and effective features are generated to represent different property relationships and construct the random forest classifier. The experimental results show that, the proposed method can reach a precision of 94.6% in determining data types of properties, and the finalF1measures in recognizing equivalent, subsumptive and relevant properties are 71.3%, 57.3% and 59.9%, respectively. Compared with the traditional approaches that only focus on equivalent properties, the fine-grained property alignment method can improve the precision in recognizing equivalent properties, and recognize subsumptive and relevant properties, proving its effectiveness on Chinese open datasets.
Chinese property alignment; property data type determination; similarity of properties; heterogeneous data integration; construction of knowledge graphs
10.3969/j.issn.1001-0505.2017.04.006
2016-11-15. 作者简介: 黄廷磊(1971—),男,博士,教授,博士生导师,tlhuang@mail.ie.ac.cn.
国家高技术研究发展计划(863计划)资助项目(2012AA011005).
黄廷磊,张伟莉,梁霄,等.数据驱动的细粒度中文属性对齐方法[J].东南大学学报(自然科学版),2017,47(4):660-666.
10.3969/j.issn.1001-0505.2017.04.006.
TP182
A
1001-0505(2017)04-0660-07