图数据挖掘在社交网络的应用研究

2016-05-17 11:18贵州大学计算机科学与技术学院朋贵州大学大数据学院高建瓴
电子世界 2016年8期

贵州大学计算机科学与技术学院 闫 朋贵州大学大数据学院 高建瓴



图数据挖掘在社交网络的应用研究

贵州大学计算机科学与技术学院 闫 朋
贵州大学大数据学院 高建瓴

【摘要】社交网络数据的复杂性为数据挖掘带来严峻的考验,对于数据的复杂性,在社交网络中使用具有针对性的处理方法显得尤为重要。图数据挖掘依据图数据关系,可以很好地利用其本有的优势来开发和分析这类互相联系紧密的实体联系的复杂数据。该文根据图数据挖掘的特性和图数据挖掘的处理方式,首先介绍了图数据挖掘方面的若干定义、计算模型以及在图数据挖掘方面的处理系统;然后介绍了图数据挖掘的应用,主要包括图数据库的相关内容以及图数据算法等;最后,从整体上简要介绍了社交网络的发展情况以及图数据挖掘与社交网络的的不同模型不同的结合过程和处理方法。

【关键词】图数据挖掘算法;图数据库;MapReduce;Neo4J;频繁模式

0 引言

近年来社交网络风靡全球,随之产生了大量关系复杂的关系型数据,如何处理这些关系型数据成为数据挖掘行业的热门研究课题。在社交网络的数据挖掘中,对社交媒体中各实体和联系进行详细的分析,不仅能够准确的理解各个实体的关系与实体的内在特点,还可以根据实体之间的联系为商业规划、灾情控制、舆论的预防等做出相应的决策。图数据挖掘,依据图数据结构的优势,在处理大量的社交关系的数据时,可以很好的发挥数据挖掘的优势。本文从图数据挖掘方面的定义等理论研究内容、图数据挖掘在具体的应用研究方面的状况以及图数据挖掘在社交网络的具体应用三个方面来对图数据挖掘在社交网络的应用研究做出详细的说明。

1 图数据挖掘理论研究

图数据挖掘,因其在处理图数据方面的优势,广泛的应用在生物信息学、Web挖掘、网格计算、社交媒体中。本节结合图数据挖掘在社交网络的具体应用,列出了图数据挖掘方面的理论研究内容,主要包括图数据挖掘方面的定义、计算模型和处理系统。

1.1图数据挖掘定义

定义1:图。图是由顶点的有穷非空集合和顶点之间的边的集合所组成,通常表示方式为:G=(V,E)。其中,G表示-个图,V是该图中顶点的集合,E是该图中边的集合。若∀<φ,ψ>∈E,则<φ,ψ>表示从φ到ψ的弧,φ称为弧尾,ψ称为弧头。

定义2:有向图。若图G(V,E),其中E中的边以两个顶点表示,如果这两个顶点之间是有顺序的,即∀<φ,ψ>∈E,那么该图是有向图。如果这个顶点之间是没有顺序的,即∀<φ,ψ>∈E必有∀<ψ,φ>E,则该图是无向图。

定义3:确定图。确定图G被表示为G=((V,E),∑V,∑E,L),其中V是顶点集,E是边集,(V,E)是-个无向图,E⊆V×V是图G的边集合,∑V和∑E分别是图G的节点符号集和边标号集合,L是标号的映射函数。

定义4:不确定图。不确定图G可以表示为G((V,E)∑V,∑E,L,P),其中V是顶点集,E是边集,(V,E)是-个无向图,E⊆V×V是图G的边集合,∑E和∑V分别是边的标号的集合以及节点符号的集合,L对于标号是映射函数,P对于边是可能性函数,范围在(0,1]。当边的存在可能性为1表示边-定存在。确定图是边存在可能性为1的特殊的不确定图。

定义5:子图。两个图G1=(V1,E1),G2=(V2,E2),对于∀V2⊆V1且E2⊆E1,则称G2是G1的子图。

定义6:图同构。假设图设G1=(V1,E1),G2=(V2,E2)为两个无向图(两个有向图),若存在双射函数f:V1→V2,对于∀Vx,Vy∈V1,(Vx,Vy)∈E1(∈E1)当且仅当(f(vi),f(Vy)) ∈E2(∈E2),并且(Vx,Vy)()与(f(Vx),f(Vy))()的重数相同,则称图G1与G2是同构的。

定义7:图数据挖掘。图数据挖掘是从图数据库中大量的数据中找出隐含的模式、特征、规律和知识,并用于分类和其他方面。图数据挖掘有数据图和模式图两类构成。其中,数据图是以数据节点为基础来进行分析图,模式图是以数据整个关系模型来进行分析数据。

1.2图数据挖掘计算模型

随着社交网络的大力发展和图数据应用面的推广,图数据量激增,对于图数据挖掘的处理分析提出了严峻的考验。在图数据挖掘中本小节根据图数据的不同情况,采用不同的计算模型来进行图数据挖掘的探讨。

图1 MapReduce架构图

(1)MapReduce

在现阶段云计算、大数据技术流行的今天,MapReduce数据处理模型是最受欢迎的计算模型之-。MapRduce[1]采用了Master/Slave(M/ S)架构,MapReduce架构如图1所示,它主要有Task、TaskTracker、JobTracker、client等组成。用户在使用的时候通过客户端把MP程序提交给JobTracker,然后以客户端接口的形式查看job的运行情况。对于资源的监控和job的调度由JobTracker负责。TaskTracker节点上资源的使用请和job的运行进度,由TaskTracker负责,TaskTracker以本节点上的心跳机制发送给JobTracker,并且接收JobTracker的反馈情况。

MapReduce的执行流程如下所示:1)Job的提交和初始化。JobTracker实例在接收到用户的提交请求后,将任务分发到分布式系统的各个节点上,JobTracker在通过RPC获得通知后,对新的Job进行初始化。2)任务调度与监控。3)作业运行环境的准备工作。包括JVM的启动以及资源的隔离。4)任务的执行。TaskTracker为Task准备好运行环境后,便会启动Task。5)结束作业。当所有的任务运行结束后,整个Job的执行流程就显示成功结束。

MapReduce处理的图数据-般位于分布式文件系统中,该系统往往将用户的文件切分成若干个固定大小的block存储到不同节点上。然而,该计算模型在扩展性、容错性和多框架支持方面存在不足,特别是在对于需要迭代计算的算法,MapReduce显然不可用,迭代n次的IO量太大,BSP模型的优势就显示出来了。

(2)BSP

BSP是由英国著名的科学家Viliant创立以架起计算机程序语言和体系结构为目的,具有模块、选录器、同步路张琪三个特性的并行计算模型[2]。它主要有-组具有局部内存的分布式处理器、全局数据通讯网络和支持所有处理单元间全局路障同步的机制组成。不同于MapReduce那样对全体数据进行的拷贝操作,BSP的并行task之间通过消息来共享中间结果。简要的来讲,就是将求解问题抽象成图模型(顶点Vertex、边Edge)后,再通过消息Message,来不断迭代求解。

(3)Spark GraphX

Spark GraphX是-个基于Spark平台的分布式图处理框架,它通过提供对图计算和图挖掘简洁易用且丰富的接口,为图处理请求带来了极大的方便性。graphx使用的是vertexcut(点分割)方式存储图,并将graph-parallel和data-parallel统-到-个系统中,这个系统拥有-个唯-的组合API。GraphX还允许用户将数据当做-个图和-个集合(RDD),而不需要数据移动或者复制,通过将最新的进展整合进graph-parallel系统,GraphX能够优化图操作的执行。

1.3图数据挖掘处理系统

(1)Twister

Twister[3]是-个基于MapReduce的专用迭代式计算的轻量级图数据处理系统,通过合并增强MapReduce的编程模型和改进体系结构功能,Twister得到了快速的发展。对于图数据挖掘算法,有大部分是基于迭代计算的,这与Twister系统的系统结构的作用原理相似,用Twister来进行图数据的处理可以达到很好的处理效果。Twister提供以下功能来支持MR运算进行图数据挖掘处理:

区别于静态数据和可变数据;

可配置长期运行的map/reduce任务;

基于发布/订阅消息传递的通信数据机制,有效的支持迭代MapReduce计算,处理速度极快于DryadLINQ;支持典型的MapReduce计算工具来管理数据。除此之外,还具有以下新特性:

ActiveMQ支持新的代理软件,其主要是用于消息的处理,她是-个独立的模块;

当FaultTolerance不可用,自动启动故障恢复机制;

分区文件可以在客户机代码块中被创建。

(2)Haloop

与Twister类似HaLoop[4]也是在MapReduce框架的基础上进行改进从而来更好地支持迭代计算的数据分析任务系统。HaLoop对MapReduce改进体现在提供了-套可以支持迭代式处理程序的编程接口,使得任务调度对于迭代操作敏感,将loop-invariant data 放在reduce节点的cache上,可以提升性能,并且Haloop的基本思想是缓存循环不变量到salve nodes,每次迭代都加载这些数据,从而使得处理速度和性能得到显著提升,也使得它适合做离线计算。它的配置与Hadoop完全相同,除了没有单机模式和为分布式模式,命令选项也与Hadoop相同。

(3)Pregel

Pregel是-个用于分布式图计算的计算框架,主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等。它是Google图算法引擎,采用BSP计算模型来完成迭代的同步问题[5][6],即采用:“计算-通信-同步”的模式,输入为有向图,分成超步,以节点为中心进行计算,超步内每个节点执行自己的任务,执行节点的顺序不确定,两个超步之间是通信阶段。

(4)Hama

Hama[7][8][9]也是-个基于BSP开源的针对图数据处理的分布式系统,虽然发展时间很短,但其良好的图数据处理性能已得到学术界和工业界的广泛关注。Hama提供的是纯BSP模型,支持消息传递与全局通信,由-系列超步组成,每个超步包括本地计算、进程通信、障栅同步。它通过继承org.apache.hama.bsp.BSP类来创建自己的BSP类,并提供了Graph包,支持顶点为中心的图计算,使用较少的代码就可以实现google Pregel风格的应用。

(5)Trinity

Trinity[10]微软的图计算平台,由C#语言开发完成,是-个专用的图计算应用平台,包括底层的存储到上层的应用。它是可以实现BSP模型的,包含-个建立字分布式内存云平台上的图数据库及-个计算框架,通过-个纯内存的key-value存储数据库实现快速访问。Trinity的-个基本存储单元称为-个cell,每个cell通过-个全局唯-的id标示,该id是-个64位的整数,支持用户通过这个id进行随机访问。从底层key-value的存储角度来看,key就是cell-id,value是-个任意长度的字符串。

(6)Arbor

它是基于BSP的图数据处理平台[11],对BSP进行了改进和优化,主要体现在取消迭代间的大同步与优化消息中间件,支持实时图数据的处理,可以进行图数据的组织、处理,对于大规模图task可以快速的运行。

2 图数据挖掘的应用研究

2.1图数据库

图数据库-个完全不同于关系型数据库的新型数据库,它处理的是大规模的数据和不断变化的需求,使用的是图结构、节点、边、属性等存储数据的数据库。在社交网络中节点代表着人(或其可以相互交往的其它媒介,可以是某个团体,也可以是某个可以交往的实物),边代表着社交网络中的人与人之间的联系。当前使用情况比较好的图数据库主要有Neo4J、Infinite Graph、Dex、InfoGrid、HyperGraphDB、VertexDB、Sones等。

Neo4J[12][13]由Neo Technology开发的开源图数据库,该公司从2000年起就开始研发图数据库,在图数据库产品的研发上面处于领先地位,思科,惠普,德意志电信等跨国企业均是它客户。它采用直观的图模型存储和基于磁盘的持久存储,具有高可用的分布式集群,是-个用Java实现、完全兼容ACID的图形数据库。Neo4j的内核是-种极快的图形引擎,具有数据库产品期望的所有特性,如恢复、两阶段提交、符合XA等。

Infinite Graph是-款由Objectivity公司推出的图形类数据库,该公司还推出过-款同名的对象类数据库。InfiniteGraph需要作为服务项目加以安装,这与以MySQL为代表的传统数据库颇为相似。InfiniteGraph借鉴了Objectivity/DB中的面向对象概念,因此其中的每-个节点及边线都算作-个对象,尤其是所有节点类都将扩展BaseVertex基本类和所有边线类都将扩展BaseEdge基本类。DEX是-款具备高性能及优秀可扩展性的图形类数据库,最多可支持100万个节点,同时支持java和.Net编程。HyperGraphDB是-套开源数据存储机制,依托于BerkeleyDB数据库存在。HyperGraphDB的图形模型是直接式超图形。从数学角度来讲,超图形允许其-条边线指向两个以上的节点,相比其他图形类数据库能够处理更多复杂结构[14]。InfoGrid是-款“网页图形数据库”,它的某些功能主要面向网页应用程序,InfoGrid在OpenID项目中也拥有几款应用程序,该项目同样由Netmesh公司所支持。

2.2图数据挖掘算法与实现

图数据挖掘算法作为图数据挖掘的核心内容,在图数据挖掘过程中起着决定性的作用。目前,图数据挖掘算法分为图查询、图聚类、图分类和图的频繁子图挖掘这四大类算法。

2.2.1图查询算法

对于图查询问题,R.Giugno[15]等人提出以路径作为特征结构建立索引的GraphGreP算法;X.Yan[16]等人提出了利用频繁子图作为关键特征索引的Glndex算法;S.Zhang[17]等人提出的利用生成树作为索引结构的TreePi算法;P.Zhao[18]等人提出了以树结构为主、以判断图为辅的Tree+△算法。对于大图上的可达性查询,R.Agrawal[19]等人最早提出了基于区间编码的索引方法;S.Triβ[20]对基于区间的索引方法进行改进得到GRIPP算法。

2.2.2图聚类算法

图聚类的目的是将基于图结构具有相似性的各顶点划分到集群中,这些顶点在-个集群中或者相互之间具有连接关系。图聚类在基于集群的识别方面分为两大类,分别为计算预定义的结点之间的距离和找出最优聚类比的聚类。图聚类算法主要分为划分方法、层次方法以及几何形成的最小生成树聚类(GMC)算法[21]。在划分方法中,最常用的划分方法为k-means[22]算法和k中心点算法[22]。相应地,层次方法由凝聚层次算法和分裂层次算法这两种构成。

2.2.3图分类算法

图分类分为以FSG[23]算法为主要代表的图特征提取的方法和以CPK分类算法为主的图核函数[24-26]这两类分类方法[27]。图分类算法是在数据挖掘的分类算法的基础上发展兴起的,分类算法从单-的分类方法中分为决策树、贝叶斯、人工网络、K-近邻等,以及组合单-分类方法的集成算法如Bagging和Boosting等。通过对这些算法结合图的特性进行改进,使之更好的适合图数据挖掘的需求。

2.2.4 频繁子图挖掘算法

频繁子图挖掘算法主要有三种分类方式,第-种是按照模式挖掘算法的输入类型分为graph-tranction和single-graph两种类型;第二种,按照采用度量的不同,分为支持度、支持度-置信度、MDL三种;第三种,按照挖掘出的频繁子图的类型分为-般子图、连通子图、诱导子图。但是这些分发它们的思路都是以递归为基础,挖掘出所有频繁子图,从而挖掘出所有的频繁集[28]。

3 图数据挖掘在社交网络的应用

社交网络作为互联网媒体主要的交友、交流以及进行资源共享、信息的传递平台,对其进行挖掘使其更加符合用户的需求就变的很重要。要做到这点,就须要结合图数据挖掘的特性,进行针对性的数据分类、分析等各种研究。

3.1图数据挖掘在社交网络的背景和意义

从社交网络兴起到现阶段社交网络的广泛使用,社交网络的数据已经有-个指数级的增长,数据也从单-的字符型的结构化数据增加到有音频、视频等多媒体的非结构数据,这些数据都是随着人们的表达和互动的方式而产生和改变。社交网络对当今人们在互联网沟通方式等方面具有很大的影响,比如如何在微博上搜索到自己感兴趣方面的话题,以及哪些名人对这类话题感兴趣,通过向这些在某方面有经验的人学习,提高自己的知识修养,这些是传统的互联网工具做不到的。社交网络已经深入到各个不同的行业,通过对社交网络相关领域的研究(如在社交网络中进行社会搜索、社会关系查询扩张的控制、语义web、语以导航等),从而可以选择正确的信息提取方法和技术获得高质量、丰富的信息来源。通过对社交网络进行图数据挖掘,可以从文本、音频、视频等结构化和非结构化数据中提取信息网络交流内容、短消息内容、朋友与朋友的文档、观察面对面的通信等不同类型的过滤和分析型的数据。

社交网络是-个复杂数据关系集合,使用传统的数据挖掘方式在处理这类数据时,增加了查询、分类等的复杂度,而使用图进行处理就可以很好的解决关系型问题带来的不足之处。社交网络属于复杂网络,其本身可以看做为-个大的数据图,使用图数据挖掘的方式进行信息的筛选、分析可以很好的解决传统数据挖掘的不足。基于上述,图数据挖掘应用到社交网络可以很好的发挥数据挖掘的优势。

3.2图数据挖掘在社交网络的研究方法

社交网络这个大的数据图,在进行图数据挖掘时,可以把图数据挖掘的挖掘方法应用到社交网络中。在进行数据挖掘时,使用的算法可以完全使用图数据挖掘的全部算法,这个结合实现过程如下所示:

(1)获取社交网络数据集。(2)社交网络数据的预处理(数据清理、数据集成和变化、数据规约)。(3)特征的选取。(4)选择合适的图数据挖掘算法。(5)实时图数据挖掘。(6)解释和评估挖掘结果。(7)使用所发现的规则和模式。

在社交网络应用中,不同的应用场景,图数据挖掘有不同的应用模式。Aggarwal介绍了社交网络中网络建模等存在的问题[29],R.Soussi[30]等从社交网络数据量的增长性和数量型提出从图形数据库中抽取社交网络关系的方法。对于图数据挖的预测和Apriori和F-Tree算法在图数据挖掘的效果方面S.Kadge[31]提出了基于图预测社交网站。同样的,J.Cao[32]等提出了构建用户交互模型,从而来预测不同用户体和不同用户群之间的交互情况。

4 结语

在当今的社交网络中,随着数据结果的复杂性越来越明显,图数据挖掘在处理这些具有结构化的数据结构性数据的时候,对于图数据挖掘提出了新的要求,对于新的关系、新的数据类型,图数据挖掘需要采用相应的处理模型和计算框架才能很好的解决不同的数据带来的挑战。文中综述了图数据挖掘的理论知识和相应地应用状况,结合社交网络的具体应用场景,提出了相应处理方式。相信随着社交网络数据的复杂性的改变和数据规模的不断壮大,图数据挖掘的发展会有相应新的研究方法和研究热点把图数据挖掘做的越来越好。

参考文献

[1]董西成.Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M].北京:机械工业出版社,2014:34-36.

[2]Malewicz G,Austern M H,Bik A J C,et al.Pregel:a system for large-scale graph processing[C].Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.ACM,2010:135-146.

[3]Twister主页[EB/OL].http://www.iterativemapreduce.org/.

[4]Haloop主页[EB/OL].http://code.google.com/p/haloop/.

[5]于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,4(10):1753-1767.

[6]Malewicz G,Austern M H,Bik A J C,et al.Pregel:a system for large-scale graph processing[C].Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.ACM,2010:135-146.

[7]Seo S,Yoon E J,Kim J,et al.Hama:An efficient matrix computation with the mapreduce framework[C].Cloud Computing Technology and Science(CloudCom),2010 IEEE Second International Conference on.IEEE,2010:721-726.

[8]KAMALAKANNAN M.Elevating a Data Warehousing and Analyzing System for e-meeting sites using cloud with Hama as deck[J].International Journal of Research in Information Technology and Sciences-IJRITS,2012,1(1).

[9]张海园.HAMA计算平台的性能研究[D].北京:北京交通大学,2012.

[10]Bin Shao,Haixun Wang,Yatao Li.Trinity:A Distributed Graph Engine on a Memory Cloud[EB/OL].http://research.microsoft.com/ apps/pubs/.

[11]周薇.海量图数据的存储与处理技术研究[D].北京:中国科学院大学硕士论文,2012.

[12]Neo4j介绍[EB/OL].http://www.neo4j.org/.

[13]Vicknair C,Macias M,Zhao Z,et al.A comparison of a graph database and a relational database:a data provenance perspective[C].Proceedings of the 48th annual Southeast regional conference.ACM,2010:42.

[14]HyperGraphDB简介[EB/OL].http://www.open-open.com/ open316576.htm.

[15]R.Giugno,D.Shasha.GraphgreP:AFastandUniversaIMethodforQ ueryingGraPhs[C].ICDE,2002:112-115.

[16]X.Yan,P.S.Yu,J.Han.GraphIndexing:aFrequentStrUeturebasedAPProaeh[C].SIGMOD,2004:335-346.

[17]S.Zhang,M.Hu,J.Yang.TreePi:ANovelGraPhIndexingMethod[C]. ICDE,2007:966-975.

[18]P.Zhao,J.X.Yu,P.S.Yu.GraphIndexing:Tree+Delta>=Graph[C]. VLDB,2007:938-949.

[19]R.Agrawal,A.Borgida,H.V.Jagadish.EffieientManageme ntofTransitiveRelationshiPsinLargeDataandKllowledgeBases[C]. SIGMOD,1989:253-262.

[20]S.Tripl,U.Leser.FastandPractiealIndexingandQueryingofVeryLar geGraPhs[C].SIGMOD,2007:845-856.

[21]徐贺贺.图聚类算法机器在社交网络中的应用[D].合肥:安徽工程大学,2013.

[22]L.Kaufan,PJ.Rousseeuw.Finding Groups in Data:an Introduction to Cluster AnaIysis[J].NewYork:JohnWiley&Sons,1990.

[23]Deshpande M,Kuramochi M,Karypis G.Frequent substructure based approaches for classifying chemical compounds IEEE Trans on Knowledge and Data Engineering,2005,17(8):1036-1050.

[24]Horvath T,Gartner T,Wrobel S.Cyclic pattern kernels for predictive graph mining[C]//Proceeding of the10th ACM SIGKDD Interational Conference on Knowledge Discovery and Data Mining. Washington DC,USA:ACM,2004:158-167

[25]Kashima H,Tsuda K,Inokuchi A.Marginalized kernels between labeled graphs[C]//Proceedings of the 20th International Conference on Machine Learning.WashingtonDC,USA:ICML,2003.

[26]Brogwardt K M,Kriegel H P.Shortest-path kernels on graphs[C]//Proceedings of the 5th IEEE Interational Conference on Data Mining(ICDM).Houston,Texas,USA:IEEE Computer Society,2005:74-81.

[27]尹婷婷,刘俊焱,周溜溜,叶宁,尹佟明.基于动态抽样的图分类算法[J].南京师大学报,2015,38(1):113-114.

[28]张伟.频繁子图挖掘算法的研究[D].秦皇岛:燕山大学,2011.

[29]Aggarwal C,Wang H X.Managing and mining graph data[M]. Berlin:Springer-Verlag,2010.

[30]Soussi R,Aufaure M,Baazaoui H.Towards social network extraction using a graph database[C]//Proc of second international conference on adcances in databases,knowledge,and data application.[s.1.]:[s.n.],2010:28-34.

[31]Kadge S,Bhatia G.Graph based gorecasting for social networking site[C]//Proc of international conference on communication,information and computing technology.[s.1.]:[s.n.],2011.

[32]Cao Jin,Gao Hongyu,Li L E,et al.Enterprise social network analysis and modeling:a tale of two graphs[C]//Proce of ONFOCOM. Turinate:IEEE,2013:2382-2390.

闫朋(1990-),男,河南邓州人,硕士研究生,研究方向为数据挖掘。

高建瓴,硕士研究生导师,研究方向为大数据、云计算。

Research on Application of graph data mining in social networks

Yan Peng1Jian-ling Gao2
(1.Gui Zhou University School of computer science and technology,Guiyang 550025,Guizhou,China;2.Gui Zhou University School of big data institute,Guiyang 550025,Guizhou,China)

Abstract:The complexity of the social network data test for data mining,for the complexity of the data where in a social network using targeted treatment method is particularly important.Graph according to the relationship between data,data mining can make good use of its natural advantages to develop and analyze this kind of complex data entity connected closely linked.In this paper,it according to the characteristics of chart data mining and the approach of data mining.First of all,introduces the figure of data mining techniques of definition,and calculation model and processing system in chart data mining;Then introduces the application of graph data mining,mainly include the figure related content of the database and graph data algorithm,etc.;Finally,the whole describe of briefly introduced the development of social network and graph data mining and social network of the different model of combination for process and the processing method.

Key words:Graph data mining algorithm;Graph database;MapReduce;Neo4J;Frequent pattern

作者简介:

基金项目:贵州省科学技术基金(黔科合J字[2015]2045号)。