苏 楠
(四川大学公共管理学院,四川 成都 610065)
基于知识图谱的国内外大数据比较研究
苏楠
(四川大学公共管理学院,四川成都610065)
以WOS和CSSCI的研究文献为对象,采用文献计量及可视化方法,构建系列知识图谱,开展国内外大数据比较研究。结果显示,国内外大数据在技术方面以mapreduce、hadoop、cloudcomputing等为主要支撑,在应用方面以金融、社会媒体、电子商务、信息服务等为主要领域。整体上看,中国大数据研究仍处于相对落后的局面,尤其是对基础理论、价值特征的挖掘相对薄弱,将会成为未来大数据技术研发与应用推广的重大障碍。
大数据;国内外;应用;热点主题;比较研究
近年来,中国大数据研究已经如火如荼地开展起来。大数据概念起源于欧美发达国家,其在相关方面的研究也处于领先地位。虽然当前对国外大数据研究的介绍性成果已经很多,但是国内外大数据的比较研究还很少见。因此,亟需通过比较国内外大数据研究进展情况,挖掘热点,发现异同,寻找差距,探测趋势,为推动国家大数据战略提供参考借鉴。
以CSSCI为数据源,以大数据、数据挖掘、bigdata为检索词,时间为2006—2015年,经过精确检索和数据清洗后最终获得文献数据958条。以WebofScience中SCI-EXPANDED、SSCI为数据源,检索主题为bigdata、massivedata、hugedata,时间跨度为2006—2015年,获得文献数据2940条。
研究方法选用共词分析法、频次分析法等,以文献计量软件CitespaceⅢ为技术工具。研究将CSSCI和SCI-EXPANDED、SSCI中的文献数据导入标准化处理,开展词频分析、共词分析,绘制能够反映国内外大数据研究现状的聚类图谱,开展主题挖掘和比较研究。
2.1词频分析
通过对关键词的提取,发现CSSCI文献中共提取关键词815个,WOS文献中共提取关键词2134个。表1、表2分别是国内外大数据研究的高频关键词列表,看到国外文献的关键词频次要远远高于国内文献的关键词频次。
表1 大数据研究的高频关键词列表(前30位)
表1显示,中国大数据研究的领域标签为数据挖掘、大数据、大数据时代,云计算、关联规则、学习分析、聚类分析、竞争情报、数字图书馆、知识发现、数据分析、信息服务、决策树、电子商务、mapreduce等是当前大数据研究的重点。大数据研究初步形成两个细分方向:一是大数据技术研究,如关联规则、聚类分析、数据仓库、可视化、web数据挖掘、数据挖掘技术、粗糙集、mapreduce、hadoop等,二是大数据实际应用,图书馆、学习分析、竞争情报、信息服务、决策树、个性化服务、知识服务、电子商务、金融、商业智能、在线教育等等。
表2显示,国外大数据研究在技术方面主要有,mapreduce、systems、classification、algorithm、datamining、Design、hadoop、ontology、neural-networks、sensordata、integration等;在应用方面则表现在,cloudcomputing、information、management、performance、socialmedia、internet、bioinformatics、cancer、machinelearning等。比较发现,国外大数据的研究内容更为广泛、研究方向更为多元、技术创新相对先进、研究层次更为深入。
表2 国外大数据研究的高频关键词列表(前30位)
续表2
2.2共词图谱
共词分析是对两个关键词在文献中共同出现的次数进行分析,挖掘学科研究的演化情况[1]。运用CiteSpace将同质性节点抓取出来,以可视化图谱的形式呈现研究热点,节点频次、网络密度、连线疏密等是识别研究结构的重要依据[2]。
图1是中国大数据研究知识图谱,全面展示了中国大数据研究的热点分布。该图谱存在若干关键节点,如关联规则、竞争情报、数据分析、信息服务、数字图书馆、知识发现、可视化、web数据挖掘、云计算、语义网、聚类分析等,每个节点都与周边外围节点构成一个主题类团,这些类团指示不同的研究方向和研究重点。例如,云计算-mapreduce-hadoop指向大数据技术研究,竞争情报-知识管理-决策支持-企业指向大数据的企业应用,数字图书馆-个性化服务-图书馆服务-高校图书馆-知识服务则是指向图书馆服务中的大数据应用研究。
图1 中国大数据研究的知识图谱
图2是国外大数据研究知识图谱。相较于图1,该图谱的关键节点结构更复杂,节点之间的关联更加密切。关键节点主要是algorithms、design、classificationmodel、optimization、prediction、cloudcomputing、hadoop、mapreduce、neural-networks、datamining、machinelearning。而由这些节点支撑的主题聚类数量众多,如bigdata-analytics-twitter-socialmedia,challenges-risk-privacy,machinelearning-cloudcomputing-cloud,prediction-neuralnetworks—classification-performance-model等。国外大数据研究的不同聚类之间存在更密切的关联,呈现出较高程度的交叉性。
图2 国外大数据研究的知识图谱
从图1、图2可以发现,大数据、数据挖掘、bigdata等并不处于图谱的绝对中心,并且其与外围节点连线数量不是最多的,反而是前文提到的那些关键节点起到了支撑大数据研究的作用,如国内是关联规则、竞争情报、数据分析、信息服务、数字图书馆、可视化、云计算等,而国外是algorithms、prediction、performance、classification、model、cloudcomputing、neural-networks、machinelearning、risk等。国内外研究在主流方向上是相对一致的。在大数据技术研究上,国内外都关注分布式系统、并行计算、web数据挖掘技术、社会网络分析、可视化技术、云计算技术、关联规则算法、分类算法等,除此之外,国外还突出对算法优化技术、本体技术、统计元技术、神经网络技术等的研究,而国内则在语义网、协同过滤、信息抽取等投入较多。在大数据应用研究上,国内外较为一致的关注点是信息服务、竞争情报、可视化、社会媒介、互联网、新闻、电子商务等,除此之外,国内将大数据应用于数字图书馆、金融、数字出版、在线教育等领域,而国外则更加关注bioinformation、cancer、surveillance、disease、health、policy等领域的大数据应用。
除了应用研究与技术研究之外,国外学者还对大数据的performanc、risk、prediction、architecture、privacy、security、behavior、optimization、patterns等内涵、特征保持浓厚兴趣,而这方面国内研究相对较弱。然而这些内涵、特征是大数据的基础研究,对这些基础问题的论证能够帮助创新大数据技术,研判大数据应用的领域与价值。
3.1大数据基础研究
大数据基础研究主要涉及的是大数据的概念界定、起源发展、性质特征、架构逻辑、价值意义等。在这一方面,中国相关研究数量不多且研究层次不深,国外研究者则非常重视大数据基础研究。framework、performance、optimization、science、risk、privacy、prediction、architecture、security、design、behavior、challenges、patterns等关键词显示出国外对大数据基础研究重要性的认识。Laney较早地提出大数据“3V”特性,即Volume、Velocity和Variety,在他之后Demchenko.Y等人认为大数据还具有Veracity、Value特性,进而提炼出大数据的5V特性[3]。国外学者认为大数据有助于重塑现代科学结构,从信息集成、数据挖掘等方面推动科学研究范式的整体性、革命性改变[4]。也有学者对此提出质疑,认为大数据存在扩展性不稳定、存储量过载、数据冗余与分化、测量精确性低、数据安全等问题[5]。DanahBoyd呼吁冷静看待大数据“热潮”,警惕大数据“陷阱”。大数据真实性、安全性就是最受质疑的特性之一。国内外研究者进行了讨论。ViktorMayer等认为应在数据处理及使用中确定限制性要素和控制手段[6]。在其启发下,国内研究也将“告知—同意”作为大数据安全综合治理模式的重要依据[7]。
国外学者关注大数据背后的逻辑,他们认为大数据基于互联网而生,其内在价值是对离散数据、碎片信息的集成挖掘与数字重构,形成不对称信息优势,而这种不对称信息优势即是大数据要极力攻破的,同时又是大数据自身孕育的。掌握这种不对称信息优势就是掌握了各种社会资源的调配。因此,一些研究者认为大数据既代表着黑幕又代表着透明,而大数据研究就是要让其更多的转向透明。另外,国外学者对大数据的模型、流程、方法以及在工程、社会、自然等方面的关联也比较感兴趣。
3.2大数据技术研究
为大数据提供技术支撑的就是云计算、mapreduce、hadoop等技术。Mapreduce是基于C++的分布式算法系统,其功能是开展大批量非结构化数据的集中处理,实现效率与成本的平衡;hadoop则是基于JAVA语言的分布式框架,为mapreduce提供运行载体,与hadoop类似的还有pnuts、gfs等;云计算技术则是基于联机分析的多维数据分析方法,对数据进行分布式存储及并行计算。Mapreduce与hadoop是大数据技术的基础,mapreduce将海量数据分类化到不同的服务器上运行,而hadoop则为这种分类提供规则约束的平台框架。
云计算是大数据技术的延伸,涵盖了gridcomputing、SOA技术、utilityconputing及分布式算法等。大数据技术在海量数据采集的广度和速度上有一定的优势,但是不擅长精确分析、信息保全,而云计算则兼顾多维计算与高容量存储于一体,能够通过独特的streamcompute方法提升半结构化数据处理的可扩展性、隐私性、容错能力等,还支持可视化、智能分析、数据集成、人机交互等。
中国经过一段时间对西方国家的技术学习后,已经在一些方面取得了本土化的创新性成果,如,百度公司构建了“开放云”、“数据工厂”、“百度大脑”等技术平台,阿里巴巴开发了基于OS的大规模分布式计算系统Apsara,中国科学院推出了适用于开源数据基准测试的BigDataBench程序集[8]。但是,西方国家仍然掌握着大数据技术研究的前沿成果,如谷歌公司以Googlemapreduce处理算法、BigTable和GoogleFileSystem奠定了其在大数据技术研发上的先进地位,IBM在对hadoop重构基础上开发了用于数据块自动分类的Co-hadoop算法[9],微软则通过整合hadoop与WindowsAzure、BI构建了兼具数据挖掘与智能商务处理能力的云计算平台,斯坦福大学设计了一个内存容量共享、处理器多核分布的大数据工具Phoenix,Facebook则开发了计算能力在250PB以上的新一代大数据查询引擎Presto。总体上,国外在大数据技术研究领域能够提供更加多元、可靠、高效的技术方案,并且已经被广泛推广到各个大数据应用领域。
相比而言,中国的大数据技术研究还偏重于事务型数据库建构阶段,欧美国家已处于分析型数据平台(AnalyticDB)研发阶段。擅长探究事物时空发展规律的分析型数据平台更符合未来社会发展需求,可以更好地提供情报分析、方案设计、决策优化、管理分类、信息保密。
大数据可视化技术的软件或工具都是国外大学或公司研发的,如Jigsaw、ITF等,国外已经开始将“数据可视化”与“可视化分析”一体化,从而提供系统贯通、可知性强、时时交互的数据服务。遗憾的是,国内原创性的数据可视化分析工具几乎是空白。国内在数据可视化方面明显存在资金投入较少、人才培养不足、政策支持较弱等问题,导致国内外技术差距有进一步扩大的风险。
3.3大数据应用研究
当前,大数据应用呈现出飞速拓展、层次推进、内容深化的态势。2009年前后,大数据在互联网领域崭露头角,2012年大数据已经被应用到生物信息、金融分析、新闻传播、决策分析、电子商务等领域,当前大数据更深入到物流供应链、智慧交通、在线教育、一对一医疗、数字出版等人们生活的方方面面。
国外比较注重大数据在生物信息、医疗开发、卫生健康、舆情预测、社会网络、经济分析、物联网、化学信息、药品研发、政策决策、商业创新、环境保护等方面的运用。例如,在下一代生物基因测序方面美国科学家就应用mapreduce框架构建了基于大数据分析能力的生物知识库[10];美国科研机构用大数据信息捕捉技术对若干地区的生态环境实时监控以发现生态保护漏洞[11];国外学者从twitter获取社交大数据,借助复杂社会网络评估区域稳定安全问题;还有研究机构分析居民健康状况,预测未来若干疾病爆发的可能性[12]。
中国大数据应用层次还比较低,主要还处于对西方早期经验的学习和模仿阶段。大数据应用相对广泛的领域是生物信息、物流快递、金融分析、电子商务、慕课教育等领域。虽然国内也出现了将大数据应用于国家治理能力提升、服务型政府建设、网络舆情引导等领域的尝试。但是,这种尝试大多属于粗浅层次或学理层面的研究探索,而非强调可操作、可评估的实际应用。总体上看,中国创新性的、代表性、本土化的大数据应用案例还比较少见。对大数据本质规律研究不足,围绕大数据因果分析、相关分析、特征分析的专门研究缺乏,难以与国内现实急需相对接,导致大数据应用的顶层设计与战略规划迟迟难以突破。
比较研究发现,中国大数据研究在理论内涵、技术开发、应用实践均与欧美国家存在一定差距。尤其是在大数据价值特性、大数据分类学、大数据本体库、大数据学科建设等研究上急需补课。总体上看,中国大数据研究还处于模仿和学习国外相关研究的阶段。2012年奥巴马签署了“大数据研究和发展计划”,比中国推行大数据战略提前了三年,并且美国在大数据研究方面有细致的发展规划,而中国大数据发展顶层设计还比较模糊。因此,亟需理清大数据发展思路,制定定向精准地技术研发与应用方案,促进大数据在中国全面小康社会建设过程中发挥支撑作用。
[1]刘则渊,陈悦,等.科学知识图谱方法与应用[M].北京:人民出版社,2008:36.
[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006(2):88.
[3]DEMCHENKOY,GROSSOP,etal.Addressingbigdataissuesinscientificdatainfrastructure[C].CollaborationTechnologiesandSystems,2013InternationalConferenceonIEEE,2013:49.
[4]HOWED,COSTANZOM,FEYP,etal.Bigdata:thefutureofbiocuration[J].Nature,2008(7209):47-50.
[5]SRIVASTAVADK.Bigchallengesinbigdataresearch[J].Dataminingandknowledgeengineering,2014(7):283.
[6]VIKTORMS,KENNETHCukier.Bigdata:arevolutionthatwilltransformhowweLive,workandthink[M].NewYork:JohnMurray,2013:6.
[7]张茂月.大数据时代个人信息数据安全的新威胁及其保护[J].中国科技论坛,2015(7):117.
[8]詹剑锋,高婉铃,王磊,等.Bigdatabench:开源的大数据系统评测基准[J].计算机学报,2016(1):196-199.
[9]ELTABAKHMY,TIANYuan,ZCANF,etal.Cohadoop:flexibledataplacementanditsexploitationinHadoop[J].ProceedingoftheVLDBendowment,2011(9):575.
[10]TAYLORRC.AnoverviewoftheHadoopMapreduceHBaseframeworkanditscurrentapplicationsinbioinformatics[J].BMCbioinformatics,2010(11):s1.
[11]HAMPTONSE,STRASSERCA,TEWKSBURYJJ,etal.Bigdataandthefutureofecology[J].Frontiersinecologyandtheenvironment,2013(3):158-160.
[12]BATESDW,SARIAS,etal.Bigdatainhealthcare:usinganalyticstoidentifyandmanagehigh-riskandhigh-costpatients[J].Healthaffairs,2014(7):1123.
(责任编辑刘传忠)
Knowledge Mapping of the Comparative Study of Big Data at Home and Abroad
Su Nan
(CollegeofPublicAdministration,SichuanUniversity,Chengdu610065,China)
TakingtheWOSandCSSCI,itusesvisualmethodstocarryoutcomparativestudyofbigdataathomeandabroad.Theresultsshowthatmapreduce,hadoopandcloudcomputingarethemaintechniques;finance,socialmediaandinformationservicesarethemainapplication.However,ourbigdataresearchisbackward,especiallyinbasictheoryandvalues.
Bigdata;Athomeandabroad;Application;Hotspot;Comparativestudy
2015-12-02
苏楠(1987-),男,河南安阳人,四川大学公共管理学院博士;研究方向:公共管理。
D63
A