基于开放本体的数据关联分析研究

2020-11-16 06:56朱勇丁刚
数字技术与应用 2020年9期

朱勇 丁刚

摘要:随着互联网上数据量的快速增长,数据关联分析显得越来越重要。为适应复杂异构数据的分析,本文基于开放本体识别互联网上文档中的各类实体,并加以标注使之具有语义,得到与主题相关的命名实体识别。随后挖掘命名實体的关联关系,丰富其中的语义。通过研究,命名实体减少了数据挖掘输入数据量的数目,结合Apriori经典算法,可以挖掘出更加感兴趣、有意义的关联规则,使人们在海量数据中挖的阅读更加高效快速、更容易把握主题,并强化了搜索功能。

关键词:开放本体;数据关联分析;Apriori经典算法;命名实体

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2020)09-0034-03

1 介绍

在信息科学领域内,本体是指共享结构,明确和具体描述的形式概念[1]。本体含结构化属性,是一种异常类型的术语集,事实上是一种形式化的表达,基于特殊范畴之间的某种说明及其互相间关系。本体一般可以用来推断字段属性,也可被用来定义字段。目前,可供使用的开放本体主要有DBpedia、YAGO等[2]。

本文首先描绘了命名实体识别的体系框架,阐述命名实体识别的过程。随后采用Apriori经典算法将已经标注好的实体进行数据挖掘,挖掘其频繁项集,并根据最小支持度和最小置信度挖掘其关联规则。

2 命名实体识别

随着互联网上数据量的快速增长,人们期望计算机可以自动处理网络中的信息。命名实体识别(Named Entity Recognition)是底层信息处理技术的一个重要的手段[3]。命名实体指在文本里具有重要语义的一类词语,是自然语言中语句的重要组成部分。片面角度看,能够把命名实体划成地方、人物、组织机构等。全局角度看,命名实体能够涵盖数学定义式、时间定义式等。

一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)。通常包括两部分:(1)发现命名实体,即判断一个文本串是否代表一个实体;(2)标注命名实体,即将发现的命名实体标注为某一种具体的类型(人名、地名、机构名或其他)。其中重点是确定实体的类别以及三元组的关系抽取[4]。

命名实体是网页文本中基础的信息单元,也是文本中的缩写、固有名词及其它唯一标识。往往划为三类,即实体名称、时间表达式、数字表达式。无论是时间表达式还是数字表达式,它们的表达形式较为一致,持有恒定的规范,所以较为容易识别并标注出实体。而名称类实体具有多样性和歧义性,识别较为困难,难以消除歧义,为标注实体带来很大的阻力。

命名实体识别的体系框架包括五部分:(1)实体指称提取;(2)实体指称扩充;(3)候选实体生成;(4)候选实体排序;(5)无指代实体聚类。其中(1)、(2)、(3)部分是发现命名实体,(4)、(5)部分是命名实体消歧。

在(1)中,对背景文本实行语法分析,得到所有待消歧实体的指称,并将其存放在指称列表中。把语句作为节点,本文利用Stanford Parser工具包对语句的句法进行解析。依照句法分析的成果,把文本中句子的主语与宾语抽取出来,作为待加入到指称列表中的词语。

在(2)中,根据Stanford Parser语法分析器自动分析句子的主语与宾语成分时,可能遗漏部分实体指称,这时要对指称列表中的待消歧命名实体的指称实行扩充。扩充后,用全称替换列表中的缩写指称,缩小消歧的范围。根据首字母缩略词和简称词的结构不同,扩充方法包括首字母缩略词扩充和简称词扩充等方法。

在(3)中,利用AC字符串匹配算法产生候选实体,生成指称列表中待消歧命名实体指称的候选实体。若没有产生候选实体,其待消歧命名实体指称会被标注成无指代实体。

在(4)中,对所有候选实体集合进行排序。首先将每一个待消歧命名实体指称看做一个节点,提取候选实体特征,并定义成向量形式。在待消歧命名实体指称M产生的候选实体集合SET(EM)中,采用Ranking-SVM排序算法生成最优实体Etop构成〈M,Etop〉。这里提取的特征包括表面特征、出处特征、句法特征、语义特征、文本特征、位置特征、主题特征和受欢迎度特征等8大类。产生的最优实体进行二分类辨别以判断这个最优实体是否是正确的。正确则自动反馈此最优实体在知识基中相应的ID号;若不正确,则将其标注成无指代实体。

在(5)中,将无指代实体所构成的集合实行聚类。本文采用余弦相似性算法计算文本之间的相似程度,通过向量夹角余弦值的计算来度量两个向量相似性。根据余弦曲线图像特征,两向量间夹角余弦值最大为1,最小为-1。计算公式如式(1)所示。

3 数据关联分析

要对互联网上的信息进行数据关联分析,首先爬取网页上的文本,将爬取的文本当作实体标注的输入进行命名实体识别,再将标注好的实体作为关联规则挖掘的输入,先挖掘出所有的频繁项集,结合Apriori经典算法,依照最小支持度min_sup和最小置信度min_conf挖掘出关联规则。

3.1 数据挖掘

为得到互联网海量数据中的有意义的知识和信息,需要使用数据挖掘(Data Mining)技术提取出暗藏在其中有价值的知识和信息。通常包括清理数据、集成数据、选择数据、变换数据、挖掘数据、评估模式和表示知识等过程[5]。本文基于开放主体,采取2步进行关联规则的挖掘:

(1)发现事务集中全部的频繁项集:此类项集统计后的频率要大于等于事先定义好的最小支持度计数。

(2)依照频繁项集得到强关联规则:此类关联规则一定要同时符合最小支持度计数和最小置信度计数。

3.2 Apriori算法

Apriori算法是一种极具置信力的挖掘关联规则频繁项集的算法。算法利用频繁项集属性的先验信息,采用逐步搜索的迭代策略。为增加逐步生成的频繁项集的效率,基于频繁项集的全部非空子集也务必都是频繁的Apriori重要属性,采用压缩搜索空间方式,通过连接和剪枝2个步骤完成。Apriori算法及与之关联过程的伪代码如下:

3.3 由频繁项集产生关联规则

前文研究得到频繁项集,可以依照最小支持度和最小置信度生成強关联规则。置信度计算如式(2)所示,频繁项集的支持度计数代表条件概率。

(2)

其中,是同时涵括项集的事务数,是涵括项集A的事务数。可以产生关联规则:(1)针对每一个频繁项集l,生成l的所有非空真子集;(2)针对l的每个非空一项子集s,假设 ,输出关联规则。其中,是最小置信度阈值。因为是通过频繁项集生成的关联规则,所以每个关联规则都默认满足最小支持度。

4 结语

为在海量的互联网信息中更快捷的找到想要的内容,本文基于开放本体开展数据关联研究。首先介绍了命名实体识别标注的五个步骤,得到具有语义的实体标注。随后结合Apriori经典算法进行数据挖掘研究,得到用户感兴趣、有意义的关联规则,调通了实体标注和关联规则挖掘两个阶段。使人们在海量数据中挖的阅读更加高效快速、更容易把握主题,并强化了搜索功能。

参考文献

[1] Emeric Ostermeyer,Christophe Danjou,Alexandre Durupt,et al.An ontology-based framework for the management of machining information in a data mining perspective[J].IFAC PapersOnLine,2018(11):73-74.

[2] Philipp Kestel,Patricia Kügler,Christoph Zirngibl,et al. Ontology-based approach for the provision of simulation knowledge acquired by Data and Text Mining processes[J].Advanced Engineering Informatics,2019(39):42-43.

[3] Mohammed Alkahtani,Alok Choudhary,Arijit De,et al.A decision support system based on ontology and data mining to improve design using warranty data[J].Computers & Industrial Engineering,2019(128):98-100.

[4] 文政颖,李运娣.一种基于模糊层次聚类分析的大数据挖掘算法[J].河南工程学院学报(自然科学版),2018(3):70-74+80.

[5] 段妍羽,巩青歌,彭圳生.基于数据挖掘的本体构建与重构技术研究[J].计算机测量与控制,2017(8):244-247.