基于网络数据的企业知识图谱可视化

2016-03-15 22:34:23董露露
合肥师范学院学报 2016年3期
关键词:信息可视化

董露露

(安徽广播电视大学 成教在线服务中心,安徽 合肥 230022)



基于网络数据的企业知识图谱可视化

董露露

(安徽广播电视大学 成教在线服务中心,安徽 合肥 230022)

[摘要]对互联网数据进行可视化分析具有非常大的商业价值和现实意义。首先采用经典的力引导算法构建知识网络,然后在网络可视化的基础上进行集合可视化,针对集合路径交叉过多的问题,引入集合因子,最后以中国平安集团数据为案例进行可视化分析。分析表明,所提方法能有效提高企业知识可视化效果。

[关键词]信息可视化;网络数据;企业知识图谱

1引言

如今,互联网已经成为信息的主要来源之一。企业自身、竞争企业及合作企业等可以对庞大的网络数据进行挖掘,分析潜在的商业价值,甚至能通过基于网络的各种平台直接影响客户,客户同样可以从网络数据中获取信息来了解公司的方方面面,以达到指导和决定投资的目的[1]。为了对知识做有效地积累沉淀、分析推演及利用[2],人们提出很多知识分析的方法。Prusak等[3]首先提出利用知识图谱表示企业数据及知识关系,从而为企业提供知识服务。知识图谱是实体和实体间关系的集合,其本质是一种揭示实体知识之间的语义网络图[4]。由于企业内部信息是保密的,而基于网络的新闻事件等信息相对全面,因此企业可以利用网络,结合知识图谱,建立更加精确、更深层次的企业知识图谱,从而为客户或企业提供查询、分析、分享和过滤等服务[5]。

企业知识图谱给出了企业相关人物、事件及它们之间的关系,它不是现有知识系统、数据仓库和其他数据存储管理的替代品,而是它们连接和交互的桥梁。它最明显的好处,在于能够帮助企业自身进行规划和管理,同时帮助企业供应商、客户及投资人等了解公司状况。然而,构建企业知识图谱也面临着诸多挑战,如知识冲突不一致或缺乏与外部数据语义联接等。

本文构建了简单企业知识图谱,并对网络数据进行可视化研究,将集合因子引入到力引导布局以加强属于同一集合元素间的布局关系,减少集合可视化中的集合路径交叉。

2企业知识图谱构建

2.1基于力引导算法的网络可视化

由于知识图谱搜索是基于实体关系的,因此可将知识图谱构建成网络图,其中图的节点为知识图谱中的实体,节点之间的连接表示实体之间的关系[6]。已经有很多构建网络图的算法,如引导布局、地图布局等。其中力引导布局能充分揭示网络整体结构,力引导算法是网络图可视化中主流的布局算法,因此本文选择力引导算法进行企业知识图谱可视化分析。

基于力引导的算法作为弹簧理论算法的一类典型,被广泛应用于描述企业网络等关系型信息图。该算法将整个网络看作一个物理系统[7],系统中的每个节点都可以看成是一个带有一定能量的放电粒子,粒子与粒子之间存在某种库仑斥力,使它们两两相互排斥。同时,粒子间被“边”所牵连,这些边产生类似弹簧的胡克引力,又紧紧牵制着“边”两端的粒子。在粒子间斥力和引力的不断作用下,粒子们从随机无序的初态不断发生位移,逐渐趋于平衡有序的终态。整个物理系统的能量不断消耗,经过数次迭代,粒子之间几乎不再发生相对位移,系统达到稳定平衡状态,最终理想的网络图也基本绘制完成。算法步骤如下:

步骤1. 随机分布初始节点位置;

步骤2. 计算每次迭代局部区域内两两节点间的斥力所产生的单位位移(一般为正值);

步骤3. 计算每次迭代每条边的引力对两端节点所产生的单位位移(一般为负值);

步骤4. 调整步骤 2、3 中的斥力和引力系数;

步骤5. 累加经过步骤 2、3 计算得到的所有节点的单位位移;

步骤6. 迭代 n 次,直至达到理想效果。

由Stanley Wasserman和Katherine Faust基于社会数据的网络分析可知,识别网络中与节点关系紧密的子集是网络分析主要关注的问题之一。对知识图谱网络的紧密子集进行分析能够帮助企业分析其生态结构,帮助公众了解相应集合的结构及其与其它集合的关系等,因此可在网络图基础上应用相关技术进行集合可视分析。

2.2力引导初始布局中引入集合因子

平行坐标系是最基础、最常用的可视化分析方法之一。为了减少集合可视化中的集合路径交叉及图节点的交叉,我们试图将网络图节点按照属性分类并进行平行坐标系布局,并把数据项相同的属性布局到一个坐标轴上。

根据数据集识别核心集合个数,将核心集合中的节点分布到各集合对应的平行坐标轴上。节点在平行坐标系上的布局依然按照作用力方法,属于同一个集合的节点之间存在着引力和斥力,若节点相似度较高则布局应邻近,比如同一集合的两个节点都与特定集合中的关键节点相连接,则将它们邻近布局;不同集合的节点之间只存在引力作用。在考虑节点权重情况下,权重越大对不同集合(不同坐标系)中节点的引力就越大,从而使得与之相连的节点更倾向于权重大的节点。如图1,白色节点由于收到力的平衡作用处于灰色节点平分线偏下的位置。

2.3构建企业知识图谱

企业知识图谱是利用网络上各种媒体、组织及个人发布、共享的数据建立的,由6个模块组成,分别为搜索、企业综合信息、相关企业、企业知识网络、详细信息和企业事件时间线,其框架如图2所示。搜索模块可根据现有知识库及网络信息搜索为其他模块提供信息;企业综合信息模块提供企业基本信息,例如成立时间、核心业务类型等;相关企业模块主要显示相关企业;企业知识网络模块是企业知识图谱系统的核心模块,它是由企业相关知识节点组成的关系网络,可以从中发现企业、产品、顾客、供应商等之间的关系;企业事件时间线模块提供企业重大事件热度随时间变化的情况,并可与企业知识网络进行交互来展示与事件相关的知识节点分布;详细信息模块则是进行网络或时间线交互时对应的详细信息。

3案例研究及结果分析

本研究以“中国平安集团”为关键词爬取从2014年1月到2015年4月的数据,按照搜索热度筛选出关注度较高的事件,并进一步提取出事件新闻中的实体及实体关系,建立企业知识图谱。

图3为平安集团企业知识图谱系统。左侧为企业相关信息,其中,上部为企业知识汇总,中部为与平安相关联的企业。中间核心部分为企业知识图谱可视化结果。右侧为知识图谱中知识节点的详细信息。企业知识图谱中较关注的知识节点为相关企业、顾客、相关任务及品牌等,因此本文主要对以上知识进行可视分析。其中的核心节点为中国平安昆山支行和上海平安保洁服务公司,第一核心集合为平安及其相关公司,其次是地域和组织等,根据与同一节点相连接的同类节点邻近布局原则,将建筑工程意外险等险种作为产品与中国平安昆山支行关联,据此可得出平安的客户主要有房产开发与建筑公司、物流公司和生产型企业,兰州同信汽车服务有限公司通过车辆保险与中国平安相关联。底部使用不等距折线图来表达企业相关的新闻、舆论事件随时间变化的热度变化。图4中间核心部分是在企业知识图网络布局上进行的集合可视化分析结果。对比图3和图4可以看出,在关系网络布局基础上进行的集合可视化有助于理解信息分类及分布。

图5为知识图谱交互示意图,如选中“曹斌(经理)”节点后,其相关节点也会被放大,同时系统右侧面板将提供该节点相关信息。图6展示了事件交互操作,点击时间点时,系统会弹框显示事件相关信息等。如事件“平安银行前员工涉嫌民间集资,金额或上亿”影响最高,相关知识节点为平安银行松江新城支行、客户经理、上海市银行同业公会、上海银监会、民间集资和平安银行宁波分行,其中上海市银行同业公会和上海银监会为相应的监管部门,平安银行宁波支行也曾发生过类似的案例,因此都与之相关联。

由上述分析可知,建立企业知识图谱并进行集合可视化具有如下优势:首先可以快速了解公司基本信息,如业务类型、公司性质等,其次能够根据企业知识图谱中的节点关系了解平安集团相关公司、相关人物、相关地域、相关产品及其客户等信息,最后可以追踪查看企业相关事件及其在知识图谱中涉及到的知识节点。

4结束语

企业知识图谱在数据分析与挖掘方面具有重要作用。为了更清晰地表达属于同一集合的信息及集合间的相互关系,本文在网络图布局基础上进行集合可视化,使用集合路径连接集合中的各节点,针对集合路径之间的交叉问题,进一步引入集合因素,提供相应的交互,实现简单的企业知识图谱,并进行可视化及结果分析,挖掘出企业、地域、人物及产品等之间的关系及企业的事件发展与时间的关系。未来,我们将完善企业知识图谱构建方法及可视化方法,进行更深入的知识分析,以挖掘更丰富更有价值的信息。

[参考文献]

[1]金贵阳, 吕福在, 项占琴. 基于知识图谱和语义网络技术的企业信息集成方法[J]. 东南大学学报(自然科学版), 2014, 44(2): 250-255.

[2]张志强, 冷伏海, 刘清, 等. 知识分析及其应用发展趋势研究[J]. 情报科学, 2010, 28(7):1100-1107.

[3]Davenport T H, Prusak L. Working knowledge: How organizations manage what they know[M]. Boston: Harvard Business Press, 1998: 196-223.

[4]杜亚军, 吴越. 微博知识图谱构建方法研究[J]. 西华大学学报(自然科学版) , 2015, 34(1): 27-35.

[5]邱均平, 吕红. 基于知识图谱的国内知识管理发展研究[J]. 情报学报, 2013, 32(5): 548-560.

[6]Pechsiri C, Piriyakul R. Explanation knowledge graph construction through causality extraction from texts[J]. Journal of Computer Science and Technology, 2010, 25(5): 1055-1070.

[7]田一鸣, 陆阳, 葛方振, 等. 虚拟力引导蚁群算法的WSN全局控制链路实现策略[J]. 计算机研究与发展, 2010, 47(Suppl.): 26-30.

[收稿日期]2016-01-19

[基金项目]安徽省教育厅自然科学基金重点项目“基于翻译模型和网络挖掘相结合的命名实体翻译方法研究”(项目编号:KJ2014A081);安徽省高等教育振兴计划重大教学改革研究项目“成人高等教育远程化教学模式改革网上教学支持服务体系的构建与实践”(项目编号:2014zdjy192)

[作者简介]董露露(1991-),女,安徽阜阳人,助教,硕士。研究方向:数据挖掘、信息检索。

[中图分类号]TP391

[文献标识码]A

[文章编号]1674-2273(2016)03-0028-03

猜你喜欢
信息可视化
基于大数据的图书馆信息模式与个性化服务研究
计算机网络安全可视化研究平台设计与实现
论信息可视化设计在个人简历中的应用
标签的可视化进程初探
科技传播(2016年19期)2016-12-27 15:12:42
基于毕业生求职简历的信息可视化研究
基于CiteSpace的智库建设研究可视化分析
基于CiteSpace的智库建设研究可视化分析
新媒体时代背景下的图形动画设计与制作研究
戏剧之家(2016年8期)2016-05-23 12:29:03
浅谈信息可视化在新闻传播中的应用
出版广角(2016年5期)2016-05-16 22:08:24
信息可视化技术在数字图书馆馆藏资源检索中的应用研究
图书馆界(2015年4期)2016-02-27 23:40:12