邵 颖 高子涵 乔 婧 郝 琦
大数据研究进展的文献计量分析
邵 颖 高子涵 乔 婧 郝 琦
从情报学的视角对大数据研究现状进行分析,运用文献计量学和社会网络分析等学科的理论与方法,利用Thomson公司的Thomson Data Analyzer专利分析工具、Ucinet社会网络分析软件、Microsoft office中Excel组件等辅助工具,选用国外的引文索引数据库Web of Science作为数据源,从文献年代、研究国家、研究机构、主要期刊等方面对国外大数据领域的研究进展进行了多角度的综合分析。根据我国大数据发展现状,最终还从国家、企业、各研究主体等多角度揭示了国外大数据研究与发展对我国大数据发展带来的启示。
伴随着计算机和互联网技术的不断创新与发展,现在全球已经进入了“信息爆炸”的时代,作为信息基础的数据与此同时也呈现出了新的特点。这种数据信息的新特点就孕育出了一个全新的代名词——“大数据”。 追溯大数据技术和应用的起点应该出现在2000年前后,它是在互联网的飞速发展中逐渐诞生的。当时互联网的网页数量呈现井喷式增长趋势,每天新增网页数约为700万个。据统计,到2000年底全球的网页数量高达40亿个,在这样的海量信息中,用户检索信息越来越不方便。面对这一问题,以美国谷歌公司为首的互联网企业率先建立了覆盖十亿网页的索引库,开始为用户提供较为精准的搜索服务,人们使用互联网的效率得到了大幅度提升,这可以被认为是大数据应用的开端。
近几年,一大批新兴技术,例如,云计算、物联网等的兴起促使人类社会数据规模正以几何形式爆发增长,大数据时代已经到来。数据已经从单一的处理对象演变成了一种基础性的资源,如何运用大数据、如何发展大数据、如何认识大数据、如何应对大数据带来的挑战已经成为学术界、工商界、经济界甚至各国政府广泛关注和高度重视的问题。单就学术界而言,在2011年2月,美国著名的《Science》杂志推出“大数据专刊”,该专刊主要是围绕着在科学研究中出现的大数据问题展开相关讨论,以此来说明大数据对于科学研究的重要性。2011年5月,美国顶尖信息咨询公司McKinsey(麦肯锡)发布了一份题为“Big data: The next frontier for innovation ,competition, and productivity”的大数据研究报告,在这份报告中,详尽的分析了大数据所带来的影响、大数据的关键技术、大数据的应用领域以及它的潜在价值等等。自此之后,大数据迅速成为炙手可热的话题和热门概念。不仅如此,大数据还成为了2012年达沃斯世界经济论坛的主要议题之一,该论坛还发布了标题为“Big Data, big impact: New possibilities for international development ”的大数据报告,这份报告主要研究和讨论了大数据作为一种新型的经济资产,如何更好地利用数据来产生经济与社会效益。2012年3月,美国奥巴马政府发布了“大数据发展计划”的倡议书,该倡议书提出投资2亿美元,在科研、生物医药、环境等领域利用大数据技术进行全面突破性研究。2013年11月,美国开展了以“由数据到知识、由知识到行动”(Data to Knowledge to Action)为主题的大数据研发激励座谈活动。承办方白宫科技政策办公室(OSTP)和网络与信息技术研发计划(NITRD,注:该计划覆盖了美国所有与信息技术发展相关的18个联邦部门)工作组邀请来自各级地方政府、高校、企业以及非营利机构等众多公私组织的代表聚集一堂,互相交流在加强大数据合作方面取得的成绩与经验。与会的各界代表在座谈活动中达成共识,认为大数据合作研究的关键在于共享资源与尖端分析工具,并通过其探索数据挖掘深度,使海量数据资源整合后能够产生具有实际应用价值的科学知识,最终惠及美国民众和经济增长。
社会各界对于大数据的研究一直方兴未艾。大数据的兴起与火热并不代表对大数据研究理解的深入,反而存在对大数据的盲目崇拜与过度迷信的危险。所以,本文认为大数据是一把双刃剑,如何利用好大数据这个工具是我们进行下一步研究的基础。
大数据的基本概念
虽然大数据已经成为了社会各界热议的话题,但到目前为止,对于“大数据”尚无统一公认的定义。关于“大数据”这个词的来源,有些学者认为起源于美国未来学家托夫勒的《第三次浪潮》中;有些学者认为最早出现在Michael Cox 和David Ellsworth在电子电器工程协会(IEEE)1997年举办的第八届可视化会议上发表的论文中首次提到大数据这个概念。
对于“大数据”做出突破性界定的当属Laney。2001年作为Garter分析师的Laney提出了“3V”学说,对大数据的认识进行了进一步的扩展。他认为大数据的增长不仅仅是数量(Volume)的增长,而且也是速度(Velocity)和种类(Variety)的增长。在电子商务环境中,关注信息管理需要更多的合作,可以使企业从信息资产中获得更大的回报。
有些学者进一步扩展了“3V”理论,在“3V”的基础上又加上了一个“V”变成了“4V”,但是对于第4个“V”的具体指向并无统一的说法。有学者认为第4个“V”应该表示为“Value”即价值密度低,也就是说价值密度较低是大数据带来了一个新特点。另外有学者认为,第4个“V”应该是“Vitality”即活性:分析和处理数据和模型时必须快速变化,因为需求总是在变。
目前,在学术界对于大数据没有明确统一的定义,但主要有以下几种说法。2014年5月工业和信息化部电信研究院发布的《大数据白皮书》中,认为对大数据应从“资源、技术、应用”三个层次加以认识:“大数据具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识、更强调在线闭环的业务流程优化。”
综上所述,国内外的学者在大数据定义这个问题上还尚未达成共识,并没有形成公认、统一、明确的概念。我们在进行大数据研究过程中,主要从来源、特点、价值、技术、应用等几个角度来理解和分析大数据即可,无需过度拘泥于大数据的定义或是概念。
国外大数据研究发展现状
早在1980年著名未来学家托夫勒就提出了“大数据”的概念, 1997年IEEE第八次会议上,美国NASA研究院Michael Cox和David Ellsworth二位学者提出:可视化为计算机系统的发展提出了挑战:数据集的数量大,加重了内存、磁盘甚至是远程磁盘的负担,他们开始将这种磁盘负担称之为“大数据的问题”,这是有记载以来首次明确提及“Big Data”这一专业术语。在这之后,美国著名信息咨询公司McKinsey(麦肯锡)发布相关报告,有力诠释了大数据发展的潜在价值与相关策略,并将大数据初步定义为:“规模与大小超出传统典型数据库软件所能承受的采集、储存、管理和分析等能力的相关数据集。”自此之后掀起了“大数据”研究热潮,甚至有学者断言,全球已经进入“大数据时代”。国外许多发达国家都非常重视大数据的研究与发展,各国政府纷纷推出了促进大数据研究与发展的战略或规划,最有代表性的当属美国、英国、日本等国家。
美国在推动大数据研发上最为迅速,引领全球大数据发展。纵观美国大数据发展历程,本文认为主要分为三个重要发展时段:(一)大数据起步与初期发展阶段(2005年—2008年)。在此阶段的第一个标志性事件是2005年Hadoop项目的诞生。Hadoop最初只是谷歌公司的一款名为Map Reduce的编程模型包。后因为其运算的高效性和可伸缩性被Apache公司引入并进行研发。
(二)大数据延伸与扩展阶段(2009年-2011年)。在此阶段,美国开始高度关注大数据的研究与发展。2009年,美国政府通过启动Data.gov网站的方式进一步开放了政府数据,向有需要的公众提供各种政府数据。该网站超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息。这就充分说明了由于美国政府开放了政府数据,使政府“大数据”应用于实际生活,为公众获得信息提供高效、便捷的服务。这也从侧面反映了美国政府已经关注、重视并且开始支持大数据的应用与发展。
(三)大数据快速发展阶段(2012至今)在此阶段,美国将大数据提升至国家战略高度。作为对2010年科学技术委员会关于大数据报告的回复,奥巴马政府在2012年3月率先推行“大数据发展计划倡议书(Big Data Initiative)”,重点利用大数据技术在科研、生物医药、环境等领域进行创新性研究,同时加大基础技术研究和公共部门应用研究方面的资金投入。
在此阶段,美国高校也开始注重加大下一代数据分析人才的培养力度。在格林格尔基金会“格林格尔工程突破倡议计划”(Grainger Engineering Breakthroughs Initiative)的资助下,伊利诺伊大学将投资一亿美元开设大数据开发课程,并将其列入工程学科体系。
英国紧随美国其后,从政府、研究机构到企业已经全面重视大数据的开发、研究及应用。首先是给予研发资金的支持。2013年初,英国有关政府部门宣布,将在电子信息技术、新材料技术等八大类高新技术产业投资6亿英镑以推动其创新发展,而在这投资计划中,将大数据技术的研发与应用放在了较为重要的位置,并明确列出了大数据的创新与研发将会获得1.89亿英镑的资金支持。其次,目前英国已经将大数据理念与实践应用到科技、商业、经济等多个传统领域。据一份在英国公开发表的行业报告中显示,英国政府运用高效实用的公共大数据技术手段,每年可为相关领域节约330亿英镑的花费,这相当于英国每人每年能节省出约500英镑的相关支出。之所以大数据在商业、经济、政府管理等领域中创造了如此可观的价值,是因为英国政府对于各领域、各行业的决策行为越来越依赖于数据分析而不是主观臆断,仅仅简单凭借决策者的相关经验与政治直觉的决策与预判已经逐渐成为了历史。现在蓬勃发展的大数据技术与新洞察分析能力可以为决策者提供一定的“洞见性参考”,为决策者客观洞察与主观预判提供基础数据支持与客观依据。
日本是亚洲率先关注、发展、应用大数据的国家之一,日本政府高度重视大数据的发展,并将其看成提升日本核心竞争力的关键。2012年7月,日本政府推出了名为“活力ICT日本”的新综合战略,在该战略中重点关注了大数据的发展和应用,并将其作为2013年六大重要任务之一。
Web of Science数据库
Web of Science是由Thomson Reuters(汤森路透)公司出版的大型综合性、多学科、核心期刊引文索引数据库,是基于Web of Knowledge平台的综合性文摘索引数据库,由七个子数据库组成,包括三大引文子数据库。
SCI是Science Citation Index的简称,翻译成中文的名称是“科学引文索引”。 SCI数据库是应用最为广泛的国际性科学索引数据库,它包括有:自然科学、生物、医学、农业、技术以及行为科学等,主要侧重基础科学。
检索策略
基于上述SCI数据库的典型特征和客观购买能力的限制,本文选取Web ofScience搜索引擎上的“SCI扩展版网络数据库(英文名称为:SCI-Expanded)”和科技会议文献引文索引网络数据库CPCI-S作为数据检索源。在检索过程中,先选择Web of Science核心合集,再勾选SCI-Expanded和CPCI-S两个子数据。所采用的检索策略为:主题TS=(“big data” or “massive data” or “massive information” or “huge data”or “Mapreduce” or “hadoop”);时间跨度为:所有年份;数据库为:SCI-EXPANDED,CPCI-S;检索日期为:2015年1月27日。以此检索式和数据库范围进行检索,最终得出5782篇大数据领域的文献数据。
文献年代分析
要进行文献年代分析,首先应明确文献的类型。本文通过对Web of Science搜索引擎上的SCIE和CPCIS数据库进行检索,得到关于大数据主题的文献(自1986年至2015年)共计5782篇,涉及12种文献类型。在全部5782篇文献中,主要文献类型为会议论文(Proceedings Paper),共计3270篇,占文献总数的56.55%;论文(Article)作为第二大文献类型,共计1823篇,占文献总数的31.53%;排名第三位的是杂志社论(Editorial Material),共计241篇,占文献总数的4.17%;其次篇数较多的文献类型为综述(Review),共计128篇,占文献总数的2.21%。除此之外,还有新闻(News Item)、会议摘要(Meeting Abstract)、通讯(Letter)等文献类型。
明确了文献类型,然后进行文献年代分析。利用Thomson Data Analyzer分析工具、Ucinet社会网络分析工具以及Excel组件对检索出来的5782篇文献进行统计分析,从而得到了大数据领域文献的基本数据与变化趋势。需要特别说明的是,基于检索日期为2015年1月27日,2015年文献数据不全,故将其剔除,结果如图1所示。虽然2015年文献数据不全,但是仅2015年1月这短短一个月,大数据领域的文献数量已达到37篇,这从一个侧面说明了大数据的研究还将持续,并且发展速度极为迅速。
图1 国外大数据相关文献年代分布
从图1可以直观分析出,有关“大数据”的文献最早出现在1996年,1996年至1999年每年的文献数量呈微弱波动,每年增减的篇数在10篇以内。2000年至2003年每年文献数量与之前相比有一个小幅度的增长,但在此三年内文献篇数的波动幅度在20篇左右,其中只有2002年文献篇数有一个小幅度的下降。自2004年开始,文献篇数达到100篇以上,其中只有2005年下降了10篇,即97篇。但是,自此之后,每年文献数量均有大幅度的增长,尤其是自2011年至2013年这三年间,分别达到了369篇、796篇、1587篇,这其中增幅最大的当属2013年至2014年,增长了791篇,增幅为99.37%,达到了峰值。但是,从2013年1587篇与2014年1412篇相比,下降了175篇,降幅达到11.03%,这说明大数据领域研究热度稍有减缓,但是仍然保持在一个文献高产的水平,大数据仍然是研究的热点,同时也受到广泛关注。
研究国家分析
各国文献数量统计分析
经过检索,大数据研究领域的5782篇文献中有225篇文献缺乏作者地址和国家信息。因此,对大数据研究领域国家分析的主体主要是基于包含完整作者国家、地址信息的5557篇文献。
利用TDA工具分析后得知,共有87个国家开展了大数据领域研究,现将发表文献总数量最多的前10位国家列出。在此基础上还分别统计了在每个国家所发表的文献中独立发文数量和合作发文数量,另外还计算出相应的排名情况。需要特别说明的是,本文将发文总数量相同的国家和地区归属于同一排名位次,如表1所示。
表1 国外文献数量位列前10位的国家数据表
由表1可以分析出,在排名前10位国家中,有4个国家来自亚洲,比较有代表性的国家为中国、日本、韩国、印度等;有4个来自欧洲,比较有代表性的国家为德国、英国、意大利、法国等;有2个国家来自北美,它们分别是美国和加拿大。据表1的结果显示,当前大数据领域研究中,美国排名第一位,文献总数量为1824篇,占总文献数量的32.82%。这充分说明美国在大数据领域的研究处于世界领先水平,是大数据研究核心国家之一,这与美国本身的科研实力与科研投入是密不可分的。中国排在发文数量的第二位,达到1457篇,占总文献数量的26.22%,与美国相比差距并不是很大。德国、日本、英国、韩国四国发文总数量均在200篇以上,这说明这四个国家在大数据领域研究水平相当,但从发文数量上看与排在第一、第二位的美国和中国还是有一定差距的。
国家间合作网络分析
为了进一步了解大数据领域国家间的合作关系,使用Ucinet工具绘制出关系网络图是比较清晰直观的表达手段之一。在统计范围内,本文对大数据研究领域87个国家之间的合作关系进行了分析,将合作频次阈值设定为1,绘制国家间合作关系网络图,如图2所示。(其中节点的大小代表国家文献总量的多寡,连线的粗细程度代表国家之间合作的紧密程度)。从图中可以看出,美国在参与大数据研究的87个国家合作关系中处于核心地位,中国处在次要核心地位。
从图2中可以看出,代表美国和中国的节点最大,说明文献数量最多,处于大数据研究领域的核心地位。从合作频次上看,中国和美国之间的连线最粗,说明这两个国家之间合作最为紧密。与美国合作比较紧密的国家除了中国外,还有英国、德国、加拿大、荷兰、意大利等国家,说明美国合作领域比较广泛,与多国均有交流与合作关系。中国作为仅次于美国的研究核心国家,除与美国合作最为紧密外,还与英国、德国、澳大利亚、新加坡、日本、法国等国家存在较为密切的合作关系。
国外机构间合作网络的分析
通过研究机构间合作网络分析,可以清晰看出各个研究机构在大数据领域研究合作的紧密程度,是大数据研究进展分析的重要方面。在统计范围内,本文选取发表文献总数量大于等于10篇共155家研究机构,利用Thomson公司的TDA数据分析工具得出机构间合作共现矩阵表。再利用Ucinet社会网络分析工具,将合作频次(阈值)设定为2,绘制出研究机构合作网络关系图,如图3所示。(其中节点的大小代表研究机构发表论文数量的多寡,连线的粗细程度代表研究机构之间合作的紧密程度)。
图2 大数据研究国家合作关系网络
图3 国外研究机构合作关系网络图
从图3可以看出,大数据研究领域的核心机构主要以中国科学院和美国斯坦福大学为主。从研究机构合作关系看,中国科学院主要与中国科技大学、北京理工大学、中国地质大学、清华大学、上海交通大学等高等院校合作关系较为紧密。美国斯坦福大学主要与哈佛大学、美国国家癌症研究所(National Cancer Institute,简称“NCI”)、挪威奥斯陆大学、美国北卡罗莱纳大学、伦敦大学学院等研究机构有着密切的合作关系。特别值得关注的是,中国大数据领域研究机构间的合作仅仅局限于高等学府,与企业或是其它应用型研究机构的合作还是比较少的,说明我国大数据研究还主要集中在研究型应用层面,还未形成普遍应用的局面,理念的应用还是快于数据的应用,呈现出初级发展阶段特征。而美国大数据领域研究机构间的合作虽然也是各高等学府占主要地位,但是单从美国斯坦福大学与美国国家癌症研究所的密切合作关系看,美国已经率先加快大数据在生物医药、医疗卫生上的实质性应用。今后我国大数据研究的发展要在不断加大研发支持力度的基础上,不断推动大数据在重点研究领域的实质性、创新性应用。
加强顶层设计,加快研究制定大数据发展国家战略
随着大数据时代的到来,数据资源将成为一种新型经济资产,如能源一样将成为一个国家不可或缺的战略资源。全球都在重新审视大数据所带来的巨大价值,大数据的迅猛发展引起了各国政府的高度关注,纷纷出台了专门针对大数据发展与应用的国家级战略或规划用以抢占大数据领域发展的先机。
在大数据领域,美国一直是大数据研究的策源地和创新引领者,英国、法国、德国、澳大利亚、日本等发达国家也纷纷跟进,制定并颁布了符合本国国情的大数据战略。
目前,我国还没有专门针对大数据在国家层面上的战略规划或是方针政策,故此迫切需要加强顶层设计,将大数据规划提升至国家级战略高度,进一步明确我国大数据发展的重点科研领域与研究方向。同时通过战略规划和制度的建设,整合政府、企业、行业等数据,建立国家级全国统一标准的网络数据挖掘分析中心,全方位、多角度的整合各方的数据资源,从而积极推动我国大数据产业的落地应用与健康发展。此外,在制定国家战略总体规划或方针后,还需注重构建相关的配套政策,例如,人才培养、资金保障、数据开放共享等,为我国大数据发展创造良好的发展环境。
注重多方合作,推动政学研用各方的互动与联合
在大数据领域,各国都非常重视各方合作,并把这种合作看作为共同发展的手段。发展大数据是一项庞大的工程,需要国家、政府、企业、社会组织甚至是公民个人等多方面的积极参与和通力合作。从国家层面看,美国、日本合作建立数据中心,欧盟各成员国更是加强了相互之间的合作。从企业层面看,苹果公司和IBM公司合作协议未来双方将依据各自的市场领先优势,创造一种新类别的商务应用,把IBM公司的大数据和分析能力带给iPhone和iPad平板电脑等相关产品。
目前,各国大数据研究还处在发展初期,我国应抓住发展契机,从数据信息资源的基础性建设与数据存储、挖掘、分析技术研发两个方面着手,促进政府、企业、科研院所、高等院校、社会组织等各方力量的数字资源共享和全方位的合作,共同构建大数据产业生态。
大力资助研发,促进大数据的普遍实际应用
在大数据研发方面,投入力度最大的国家当属美国。在《大数据研究与发展计划倡议》发布过程中,包括由美国国防部在内的六个政府部门承诺,将在大数据研发领域投入至少2亿美元的资金,同时公布了多项目前正在进行当中的政府计划:在推进大数据科学和工程的核心技术与研究方法方面,主要由美国国家科学基金和美国国家卫生研究院负责;在推进大数据辅助决策方面,主要由国防部高级研究局负责。美国国家能源部将提供2500万美元基金来建立可扩展的数据管理、分析和可视化研究项目。在大数据应用方面,美国也迅速启动了相关的大数据发展规划。比如,美国国家卫生研究院计划启动国际千人基因组项目,该项目会由亚马逊网站提供云服务支持。
目前,我国对大数据研发与应用的资助力度虽然明显加大,但是真正用于自主研发技术的经费明显不足,这在一定程度上减缓了大数据研究的进展。我国应在明确大数据关键技术的基础上,根据国家战略,确定大数据研究发展的重点支持领域,持续投入资金支持大数据技术研发和应用。同时,引导鼓励科研院所、有实力的大型企业开展大数据科研攻关、实现技术突破,最终使大数据应用到人们的日常生活中,为公民创造更多的实际收益。另外,还可将互联网、云计算等大数据应用领先发展的领域作为试点工程,充分发挥重点示范作用,从而推动大数据在社会其它相关领域的研发创新与科学应用。
10.3969/j.issn.1001-8972.2015.24.025