基于知识图谱的国内外大数据研究对比分析

2015-03-07 12:02邓仲华宋秀芬
信息资源管理学报 2015年4期
关键词:共词数据挖掘文献

邓仲华 宋秀芬

(武汉大学信息管理学院,武汉,430072)

基于知识图谱的国内外大数据研究对比分析

邓仲华宋秀芬

(武汉大学信息管理学院,武汉,430072)

[摘要]本文以CNKI和WOS为数据源,从文献计量角度,对2008~2013年国内外大数据领域的文献进行统计分析。利用可视化分析工具生成国内外大数据研究成果的年限分布表、关键词共现矩阵、关键词共现图谱和关键词共现聚类图谱,对比分析了国内外大数据领域研究的异同。

[关键词]大数据知识图谱共现网络Ucinet 从出现频次不能看出各个关键词之间的关系,为此需要对关键词进行共词分析[16]。共词分析对文献中词对的共现频率进行量化分析,两两统计他们在同一篇文献中出现的次数,如果两个主题词在众多的文献中出现的频率高,说明他们之间的关系密切[17]。

1引言

社会媒体、云计算、物联网、移动互联网、智慧城市等新兴技术的发展推动了人类社会数据量呈指数级增长,人们正被数据洪流所包围,大数据时代已经到来。大数据已渗透到各个行业和业务职能领域,成为与物质资产和人力资本相提并论的重要生产要素,美国称大数据为“21世纪的新石油”。大数据已在政府公共服务、医疗服务、零售业、制造业、以及个人位置服务等领域得到了广泛应用,并产生巨大的社会价值和产业空间。麦肯锡公司认为大数据将成为未来提高竞争力、生产力、创新能力以及创造消费者盈余的下一个前沿领域[1]。有效管理和利用大数据已成为学术界、工业界和政府机构的关注热点。

大数据的潜在价值迫切需要深入地研究大数据的关键技术、安全、稳私等问题,国外大数据研究时间比国内早,对比分析国内外大数据研究的异同,为国内学者研究大数据提供参考与借鉴。因此,本文在现有国内外大数据研究文献的基础上,利用关键词共现与多维尺度分析法对比了国内外大数据研究热点、研究前沿和行业应用研究等的异同。

2文献综述

大数据不是一个新词,大数据还被称为“海量数据”、“巨量数据”,早在1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》中将大数据赞颂为“第三次浪潮的华彩乐章”。具有4V(Volume、Variety、Value、Velocity)特征的大数据最早出现在2008年《Nature》杂志的Big Data专刊,该专刊的多篇文章分别从互联网经济、超级计算、生物医药等多角度介绍“大数据”带来的技术挑战、技术现状以及未来的发展趋势[2]。2008年10月,卡耐基·梅隆大学Randal E.Bryant、加利福尼亚大学伯克利分校Randy H.Katz和华盛顿大学Edward D.Lazowska联合发表了一份有影响力的白皮书《Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society(大数据计算:在商务、科学和社会领域创建革命性突破)》,该白皮书阐述了数据影响科学、商业、社会、国家安全的背景下,解决大数据问题所需的技术(识别、收集、存储、分析)以及面临的技术与应用挑战[3]。2011年5月,麦肯锡公司发布了关于大数据的调研报告《Big data: The next frontier for innovation, competition, and productivity(大数据:下一个创新、竞争和生产力的前沿)》,详细列举了大数据的核心技术,深入分析了大数据行业应用,明确提出了大数据的发展策略,指出了大数据研究地位以及未来社会价值,说明企业家已开始关注大数据的社会价值[4]。2012年1月,达沃斯世界经济论坛发表了一份报告《Big data, big impact: New possibilities for international development(大数据大作用:国际发展新的可能性)》,该报告宣称移动设备生成的数据成为经济发展的工具,数据已成为一种像货币或黄金一样的新经济资产类别,号召政府、高校、研究院和企业的专家共同迎接挑战[5]。2012年2月,Steve Lohr在《The New York Times》发表文章《The age of big data》,该文章指出大数据正在对各个领域产生影响,数据驱动型决策的预见能力已经在公共卫生、经济发展和经济预测、社交网络等领域中发挥作用[6]。美国20余位知名专家于2012年3月联合发布白皮书《Challenges and opportunities with big data(大数据的挑战和机遇)》,阐述了大数据处理流水线的各个阶段,针对其中的诸多技术挑战提供了重要的解决思路。2012年3月,美国奥巴马政府发布了《Big data research and development initiative(大数据研究和发展倡议)》,并宣布投资2亿美元启动“大数据研究和发展计划”[7]。2012年7月,Scott Adams利用漫画通俗易懂地解释了大数据含义“它无所不在,无所不知”。2012年,维克托·迈尔-舍恩伯格和肯尼思·库克耶的著作《Big data: A revolution that will transform how we live, work, and think(大数据时代:生活、工作与思维的大变革)》举例说明大数据正在对各个领域发展发挥举足轻重的作用[8]。自2008年以来,学术界、产业界、新闻媒体界等密切关注大数据问题[9]。

从国内现有文献资料来看,从文献计量角度研究大数据的文献有三篇,杨绎于2012年在《基于文献计量的“大数据”研究》文中以CNKI为数据源,基于社会网络分析方法建立高频关键词共现网络,得出国内大数据研究热点[10]。王新才、丁家友2013年发表《大数据知识图谱:概念、特征、应用与影响》,文章以国内文献为研究基础,利用可视化工具Gephi生成知识图谱来阐明大数据的发展脉络、应用范围、特征、应用与影响[11]。钱心缘在《国内外大数据研究进展——从文献计量学角度分析》文中以柱状图和表格形式展现了大数据文献年代分布、引文量年代分布、学科分布等[12]。以上文献研究了国内大数据的研究热点、文献分布情况、发展脉络、应用与影响等,缺乏对国内外大数据研究现状的对比分析。因此,本文在以上研究基础上,利用知识图谱直观地展示了国内外大数据的研究结构与趋势。

3数据来源与研究方法

3.1 数据来源

本研究国外数据来源选取Web of Science,主题=“big data”,时间跨度=2008-2013,文献类型=ARTICLE,索引=SCI-EXPANDED,检索时间为2014年1月12日,共检索到2784条,将检索的全部文献题录信息以Txt格式保存。国内数据源则选取CNKI《中国学术文献网络出版总库》,检索条件为:主题=“大数据”,时间跨度=2008-2013,期刊来源=核心期刊,精确匹配,检索时间同上,共检索到2229篇文献,用自编程序删除重复文献后得到2190篇,获得全部文献的题录信息包括篇名、作者、机构、关键词、摘要、基金、刊名、年、期、分类号等以Endnote格式保存。本文后续研究围绕以上两种数据来展开。

3.2 研究方法及工具

本文的研究方法采用关键词共现与多维尺度分析法,主要研究工具包括:文献题录信息统计分析工具SATI、Ucinet软件、SPSS软件[13]。

本文将CNKI中Endnote格式和WOS中Txt格式的文献题录信息分别导入到文献题录信息统计分析工具SATI,该软件对文献题录信息依次进行抽取字段、统计频次与生成共现矩阵,将共现矩阵直接导入Ucinet和SPSS软件中进行处理分析,采用关键词共现与多维尺度分析方法对表征文献外部特征的时间、作者、机构、研究主题等数据进行统计分析,利用知识图谱直观地反映国内外大数据的研究现状[14]。

4数据分析

4.1 大数据研究成果年限分布

从表1数据可以看出,国内与国外发文量都呈现逐年增长趋势,特别是2013年的文献量增长速度较快,反映了大数据研究正处于快速发展阶段。从文献数量年度分布来看,2012年以前,国内的文献数量远小于国外,2013年国内文献数量增长速度约为128%,发文量超过国外。2013年被称为中国的“大数据元年”,政府与企业对大数据领域投资力度与关注度进一步加强,科技部于2013年2月1日公布了国家重点基础研究发展计划(973计划),2014年度重点支持方向之一即为大数据计算的基础研究,因此,大数据引起了不同领域的高度关注,不同领域的学者竞相涌入大数据领域,可见,未来国内外大数据领域的发文量将呈持续增长趋势[15]。

表1 国内外文献年度分布统计表

4.2 大数据研究成果关键词分布

本文对文献中的关键词进行提取,汇总各篇文献的关键词,加以统计分析。在国内2190篇文献中提取7046个关键词,表2是国内大数据研究文献中排名前20的高频关键词,其中大数据、海量数据、数据挖掘、云计算出现的频次较高;国外2784篇文献中提取7925个关键词,表3是国外大数据研究文献中排名前20的高频关键词,文献中出现频次较高关键词有:Data mining(数据挖掘)、Classification(分类)、Big data(大数据)、Clustering(聚类)。从国内外高频关键字来看,国内外对大数据研究的重点内容基本相似。

表2 国内大数据研究排名前20关键词列表

表3 国外大数据研究排名前20关键词列表

4.3 大数据的共词分析

在共词分析中,为了便于对共现频率的运算,利用SATI软件生成共词矩阵,由于受到网络结点的限制,本文只对排名前100的关键词进行共词分析,形成一个100×100的共词矩阵。如表4、5所示,该矩阵是对称矩阵,表中对角线上的数值为该关键词在文献中出现总的频次,表中非主对角线单元格上的数值为两个关键词共现的次数[18]。仅从表中的高频词不能体现论文研究的主题,通过同时出现在一篇文献中的两个关键词就比较容易判断文章的主题脉络,同时根据两两关键词出现频次的高低可以发现论文的研究热点。在表4中,大数据出现了196次,通过组配与其它高频词在同一篇文献中出现的次数,发现大数据与云计算共现的频次是28,与数据挖掘共现的频次是17,表明共有28篇文献的关键词同时标引了大数据和云计算,17篇文献的关键词同时标引了大数据和数据挖掘。研究大数据与云计算的文献较多,这是因为大数据与云计算的关系相当于硬币的正反面,相辅相成,形影不离,未来还需深入探索云计算与大数据的关系。

表4 国内大数据研究关键词100×100共词矩阵(部分)

表5 国外大数据研究关键词100×100共词矩阵(部分)

除去对角线上的高频词是自身出现的频次以外,像大数据与云计算、大数据与数据挖掘、数据挖掘与云计算、海量数据与数据挖掘、MapReduce与云计算等同时出现的频次较高,说明这些组合研究是大数据研究主题中的热点。

从表5国外大数据研究的关键词100×100共词矩阵来看,关键词共现的频次较低,Data mining(数据挖掘)与Classification(分类)、Clustering(聚类)、Big data(大数据)分别共现的频次是5、5、4,可见国外学者对大数据研究比较成熟,不再局限于概念、技术等介绍,而是将大数据的技术、方法、工具应用到医疗卫生服务、零售业、公共管理服务、制造业及个人位置服务等领域来进行研究,国外对大数据的研究具有可行性与可操作性。

从国内外大数据文献的关键词共现分析来看,虽然国内外大数据研究均处于初级阶段,但国外对大数据研究时间较国内长,研究角度具体而实用,而国内学者在借鉴国外文献的基础上,对大数据概念、特征、技术(数据挖掘、分类法、聚类法、神经网络、可视化等)、影响、挑战(集成、分析、安全、隐私等问题)、行业应用(新闻媒体、图书馆、银行、电子商务、保险业等)等方面开展较广范围的研究,在未来的研究中,国内研究者需深入地挖掘大数据关键技术、支撑技术、处理工具等方面。

4.4 大数据的共现网络分析

共现网络分析是文献集中的词汇对或名词短语共同出现形成一个共词网络,显示这些词对的关系及规律,实现对学科结构、研究热点、学科发展动态的分析[19]。

采用SATI建立关键词共现矩阵,导入Ucinet中形成共现网络图谱。具体步骤如下:第一步,将CNKI下载Endnote格式和WOS下载Txt格式的题录信息导入SATI中并转化为xml格式数据;第二步,对xml格式数据进行关键词提取、频次统计;第三步,选择Matrix中Co-Occurrence Matrix(Valued)分析功能建立100×100关键词共现多值矩阵;第四步,将关键词矩阵导入Ucinet中,建立高频关键词共现网络图谱;第四步,利用Ucinet进行中心性分析,分析关键词之间的横向关系,确定大数据领域研究的热点。图中每个节点代表一个关键词,点的大小表示关键词在社会网络中的中心度大小,节点之间的距离反映两者之间的亲疏关系,通过K-cores的分析,图中间聚集的节点代表K值最大的关键词处于研究中核心位置,也是大数据领域的研究热点与核心[20]。处于共现网络边缘的节点代表主题关注度较低,从一定程度上体现了大数据研究的一些前沿问题。

从图1、2可以看出,国内外对大数据领域研究热点具有相同点:①国内外共词网络都是以大数据、数据挖掘为中心向四周辐射,研究文献围绕大数据、数据挖掘来展开;②国内外在大数据领域共同研究热点主要有:大数据(数据、数据化、海量数据、非结构化数据)、数据挖掘、数据处理、数据分析、MapReduce、聚类、云计算、支持向量机、可视化、社会网络、机器学习等。

通过对比国内外共词网络发现,国内外在大数据领域的研究热点略有差别,主要体现在以下方面:①国外侧重关注大数据分析关键技术:Algorithms(算法)、Optimization(优化)、Text mining(文本挖掘)、Classification(分类)等;国内侧重关注大数据处理的关键技术:分布式系统、分布式计算、并行计算、数据压缩、Hadoop、数据仓库、元数据、商业智能、非结构化数据、数据库等[23]。②国外关注大数据行业应用角度主要有:生物信息学(Bioinformatics)、图像(Mage segmentation、Imaging、Design)、癌症(Cancer)等;国内关注大数据应用的角度主要有:媒体(新闻报道、新媒体、传统媒体)、图书馆(数字图书馆)、商业应用(企业、数据中心、电力系统、商业银行、互联网、移动互联网、信息服务、物联网)等,这说明根据不同国家背景及发展状况,国内外学者关注大数据的行业应用角度有所差异[24-26]。③国外关注大数据前沿问题有:Taxonomy(分类学)、Remote sensing(遥感)、High-performance Computing(高性能计算法)、Bayesian(贝叶斯统计法)、Statistical analysis(统计分析法)、LIDAR(激光雷达)、Meta analysis(综合分析法)、Monitoring(监测)、Proteomics(蛋白质组学)、Identification(识别)、Principal component analysis(主成份分析法)、Global existence(整体存在性)、Stability(稳定性)[27];国内关注大数据前沿问题有:空间数据库、DSP、无损压缩、数据流、数据新闻、无线传感器网络、服务质量、任务调度、高光谱图像等。可见,国外关注大数据研究前沿涉及到关键技术的基础理论探索,国内大数据研究前沿涉及到数据处理技术问题,国外大数据的研究前沿将是国内学者未来研究热点,也就是说,未来我国需重点研究大数据的基础理论[28]。

4.5 大数据的多维尺度分析

通过对高频关键词相异矩阵进行多维尺度分析,得到大数据研究群组的可视化结果[29]。具体步骤如下:第一步,将XML格式数据采用SATI软件中(Co-Occurrence Matrix(Dissimilarity)) 分析功能建立100×100关键词相异矩阵,第二步,将关键词相异矩阵导入SPSS分析软件,利用SPSS中的Scale菜单中的多维尺度分析功能(ALSCAL)进行分析,将距离数据的形状设为正对称,度量标准的区间设为Euclidean距离,度量水平选择序数。如图3、4所示,高频关键词之间的距离,反映其所代表的相关程度,距离越小,反映词频之间相似度越大,研究内容越集中;距离越大反映研究主题越独立,主题之间的关联性越小,多维尺度分析结果体现了关键词的分布既有交叉相互渗透,又具有群组分布的独立性。

由于国内外大数据研究处于初步阶段,研究主题范围较广,笔者根据研究主题的相关程度将国内外大数据研究团队大致分为三大研究群组:理论研究、技术研究、行业应用研究,群组之间有交叉,体现了学术界对大数据领域研究不断拓宽,且研究主题之间相互渗透。国内外研究群组的侧重点有所不同,国外学者侧重研究大数据关键技术与理论,而国内学者则侧重研究大数据的行业应用与处理技术,可见,国内学术界对大数据的研究还处于探索与借鉴阶段,未来需要深入研究大数据的关键技术,特别是大数据分析技术的研究。

图1 国内大数据领域关键词共现图谱

图2 国外大数据领域关键词共现图谱

国内三大研究群组为:①大数据的理论研究,涉及到大数据的概念、数据政策、数据共享、数据安全、发展趋势、关键技术介绍等方面,体现大数据理论的关键词有:数据、大数据、海量数据、大数据量、发展趋势、本体、服务质量、无损压缩、海量数据处理、信息化等[30];②大数据的技术研究,涉及到关键词:分类法,聚类法、数据分析、数据处理、并行计算、数据仓库、数据采集等,国内相关技术研究主要集中于数据挖掘技术;③大数据的行业应用研究,大数据应用行业有金融业、电信业、互联网行业、零售业、制造业、医疗保健、制药业、媒体业及科学领域等,而行业应用研究的重点是媒体、图书馆、互联网等领域,体现行业应用的关键词有:新媒体、媒体、新闻报道、传统媒体、数据应用、商业银行、互联网企业、移动互联网、数字图书馆、图书馆、信息服务、知识服务等[31]。可见,国内大数据研究团队重点关注大数据行业应用与技术研究,大数据理论研究的文献较少。而行业应用研究则是概述媒体、图书馆、互联网等领域的应用现状、发展趋势、经济效益等,目前较少文献研究行业的具体方面,如;基于大数据的图书馆推荐系统与基于大数据的用户购买行为的相关主题的文献较少,也就是说,国内大数据行业应用研究主题比较抽象,需朝着实用性方向努力;技术研究则重点关注处理技术(云计算、数据仓库、商业智能等),少量文献关注分析技术(预测模型、情绪分析、分类、聚类、神经分析等)。

图3 国内大数据研究的多维尺度分析

图4 国外大数据研究的多维尺度分析

国外三大研究群组为:①国外大数据理论研究,国际学者应用不同学科领域理论来研究大数据,关键词表现为:Multivariate(多变量)、Galaxies(星系)、Gaussian process(高斯过程)、Modelling(模拟)、Kernel methods(核方法)、Variable selection(变化选择)、Taxonomy(分类学)、Entropy(熵)、Reliability(可靠性)、Navier-Stokes equation (Navier-Stokes方程)、Bayesian(贝叶斯定理)、Ontology(实体论)、Proteomic(蛋白质组学)、Identification(识别)、Mass-spectrometry(质谱法)、Neural network(神经网络)、Water quality(水质)、Evolution(演变)、Correlation(关联)、Emote sensing(遥感)、GIS(地理信息系统)等[32];②大数据关键技术研究,大数据关键技术有分析技术和处理技术,其中大数据分析关键技术主要包括:A/B测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、监督式学习、无监督式学习、模拟、时间序列分析、时间序列预测模型、可视化技术等;大数据处理的关键技术主要包括:Big table、商业智能、云计算、数据仓库、数据集市、分布式系统、Dynamo、GFS、Hadoop、HBase、Mashup、元数据、非关系型数据库、关系型数据库、R语言、结构化数据、非结构化数据、半结构化数据、SQL、流处理、可视化技术等;③国外大数据行业应用研究,主要集中在图像处理、癌症治疗和社会网络等方面,体现行业应用的关键词有:GPU(图形处理器)、Surveys(调查)、Time series(时间序列)、Chemometrics(化学计量学)、Image segmentation(图象分割法)、Image processing(图象处理)、Dimensionality reduction(降维)、Social networks(社会网络)、Imaging(成像)、Pattern recognition regression(模式识别回归)、LIDAR(激光雷达)等。可见,国外大数据研究团队重点关注理论与技术,而行业应用的文献较少。技术研究范围包括采集、处理、存储、分析、结果呈现技术,大数据研究文献重点体现了处理与分析技术;理论研究深入地剖析了大数据所涉及到的基础知识(实体论、分类学、核方法、质谱法等),国外大数据理论研究的时间较早,研究成果较成熟,理论研究是大数据研究的基石,理论研究为技术与行业应用研究服务。

5结语

结合近几年来大数据的发展现状,利用知识图谱工具对比分析了国内外大数据研究成果的异同,得出以下结论:

(1)国内外大数据研究的相同点

第一,大数据研究热度不断攀升。自2008年大数据的概念被提出后,大数据引起了政府界、产业界和学术界的高度关注,2008—2013年大数据领域发文量变化趋势说明大数据研究热度逐年上升且2013年增长速度较快,未来国内外大数据研究成果将会大幅度提升。

第二,大数据的应用范围越来越广。大数据已在医疗业、公共服务业、零售业、制造业和通讯业等创造价值,大数据具有能源价值的特征推动着更广范围的应用,未来研究将在更多领域中挖掘大数据的潜在价值。

第三,大数据研究热点基本相同。从共词网络的分析来看,共词网络都是以大数据、数据挖掘为中心,向四周辐射,共同的研究热点有:大数据、数据挖掘、数据处理、聚类、云计算、数据分析等。

(2)国内外大数据研究的差异

第一,由理论研究转向实践应用的效果不同。国外大数据在实践应用中取得较好效果,而国内需向国外学习经验,挖掘大数据的行业应用价值。比如:国外在疾病的治疗与预测、图像处理和个人位置服务等领域已取得了显著成效,而国内刚刚着手研究图像识别与分割的相关技术。

第二,大数据研究的侧重点不同。国外学者侧重研究大数据关键技术和基础理论,而国内学者主要针对大数据现状、数据挖掘技术、行业应用来探讨,未来需深入研究大数据关键技术,比如:A/B测试、关联规则挖掘、分类、众包、集成学习、自然语言处理、神经分析、回归分析、模式识别、机器学习、空间分析、数据融合与集成、神经网络等。

第三,大数据应用的研究角度不同。国外学者则偏重研究图像处理、癌症治疗、商业价值等方面,国内学者则注重研究媒体(新闻报道、新媒体、传统媒体、媒体)、图书馆(数字图书馆、图书馆)和商业应用(企业、数据中心、电力系统、商业银行、互联网、信息服务、物联网)等方面。

第四,大数据研究的层次不同。国外大数据研究成果较国内成熟,国内学者在借鉴国外大数据研究的基础上,部分文献介绍了大数据概念、技术、工具等,而大数据核心内容(基础理论、分析技术)研究力度不够。

未来国内学者对大数据研究需进一步拓展广度与深度,注重研究大数据的关键技术,同时加大现有研究成果向实践应用转化的力度,大数据研究成果将对各个领域产生深远影响。

参考文献

[1]马建光,姜巍. 大数据的概念、特征及其应用[J]. 国防科技,2013(2): 10-17

[2]Nature.Big Data[EB/OL].[2014-01-20].http://www.nature.com/news/specials/bigdata/index.html,2012

[3]Bryant R E,Katz R H,Lazowska E D.Big-Data computing: Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2014-01-20].http://www.era.org/ccc/docs/init/Big_Data.pdf,2012

[4]Manyika J,Chui M,Brown B.Big data:The next frontier for innovation, competition, and productivity[EB/OL]. [2014-01-20].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next frontier for innovation,2012

[5]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL]. [2014-01-20].http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012

[6]Lohr S.The age of big data[EB/OL].[2014-01-20]. [2014-01-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted =all,2012

[7]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL].[2014-01-20]. http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012

[8]IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012

[9]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013(1): 146-169

[10] 杨绎.基于文献计量的“大数据”研究[J]. 图书馆杂志. 2012(09): 29-32

[11] 王新才,丁家友.大数据知识图谱:概念、特征、应用与影响[J]. 情报科学,2013(9): 10-14

[12] 钱心缘.国内外大数据研究进展——从文献计量学角度分析[J]. 中国科技信息,2013(19): 85-87

[13] 刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,2012(1): 50-58

[14] 刘璇,张朋柱,胡海波. 国内知识管理领域科研合作网络研究[J]. 科技进步与对策,2013(15): 138-145

[15] 陈兰兰.基于社会网络分析和共词分析的国内关联数据研究[J]. 图书与情报,2013(5): 129-132

[16] 邰峻,李博,梁丽华.国内元数据研究共词图谱分析[J]. 情报杂志,2013(10):106-110

[17] 叶平浩. 基于社会网络分析的知识组织研究图谱[J]. 科技管理研究,2013(8): 148-152

[18] 埃丝特·戴森.大数据利弊之辩[J]. 中国经济报告,2013(6):23-24

[19] Science. Special online collection: Dealing with data[EB/OL].[2014-01-20].http://www.sciencemag.org/site/special/data/,2012

[20] 王珊,王会举,覃雄派.架构大数据:挑战、现状与展望[J]. 计算机学报,2011(10): 1741-1752

[21] 李洪洋. 大数据环境下的数据安全研究[J]. 电子技术与软件工程,2013(20): 250

[22] Agrawal D,Bernstein P,Bertino E.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[EB/OL].[2014-01-20].http://cra.org/ccc/docs/init/bigdata whitepaper.pdf,2012

[23] 严霄凤,张德馨.大数据研究[J]. 计算机技术与发展,2013(4): 168-172

[24] UN Global Pulse.Big Data for Development:Challenges & Opportunities[EB/OL].[2014-01-20].http://www.unglobalpulse.org/project s/BigDataforDevelopment,2012

[25] Barwick H.The "four Vs" of Big Data. Implementing Information Infrastructure Symposium[EB/OL]. [2014-01-20].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_dat a/,2012

[26] 钟瑛,张恒山.大数据的缘起、冲击及其应对[J]. 现代传播(中国传媒大学学报),2013(7):104-109

[27] 韩翠峰.大数据时代图书馆的服务创新与发展[J]. 图书馆,2013(1): 121-122

[28] IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012

[29] 方方.“大数据”趋势下商业银行应对策略研究[J]. 新金融,2012(12): 25-28

[30] 黄哲学,曹付元,李俊杰. 面向大数据的海云数据系统关键技术研究[J]. 网络新媒体技术,2012(6): 20-26

[31] 王天泥.大数据视角下图书馆的发展对策[J]. 图书馆学刊,2013(3): 42-44

[32] 杨海燕.大数据时代的图书馆服务浅析[J]. 图书与情报,2012(4): 120-122

Comparative Analyses on Domestic and Overseas Big Data Based on Mapping Knowledge

Deng ZhonghuaSong Xiufen

(School of Information Management, Wuhan University, Wuhan 430072, China)

[Abstract]Using CNKI and WOS as the searching tools, this paper makes an analysis from bibliometrics perspective on papers of big data at home and abroad, published during the period 2008-2013. With visualization tools forming a distribution table of keywords co-occurrence matrix, keywords co-occurrence network and keywords co-occurrence clustering map, the paper compares and analyses similarity and difference on big data from international aspect.

[Key words]Big dataKnowledge MapCo-occurrence networksUcinet

(收稿日期:2014-06-29)

DOI:10.13365/j.jirm.2015.04.089

[中图分类号]G311

[文献标识码]A

[文章编号]2095-2171(2015)04-0089-09

[作者简介]邓仲华,男,教授,博士生导师,研究方向为知识组织与信息系统;宋秀芬,女,博士生,研究方向为知识组织与信息系统,Email:songxiufenlook@126.com。

[基金项目]本文系国家自然科学基金资助项目“大数据环境下面向科学研究第四范式的信息资源云研究”(71373191)的研究成果。

猜你喜欢
共词数据挖掘文献
Hostile takeovers in China and Japan
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
基于突变检测与共词分析的深阅读新兴趋势分析
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
基于Matlab的共词矩阵构造
The Role and Significant of Professional Ethics in Accounting and Auditing
一种基于Hadoop的大数据挖掘云服务及应用
中国文化在国际社交媒体传播的类型分析——基于共词聚类的研究