宋星卓
摘 要:在大数据浪潮的席卷下,中外学术研究者都在大数据研究上取得了巨大的成功,为大数据在实践中的应用做出了很好的表率作用。文章基于学科分布研究方法研究中外文文献在大数据研究上的相同与差异,进一步对中文文献在大数据研究上的发展做出建议。
关键词:中文文献 外文文献 Web of Science 中国知网 壹学者
中图分类号:F062.3 文献标识码:A
文章编号:1004-4914(2015)08-039-05
全球著名的咨询公司麦肯锡(Mckinsey)在2011年6月份发布的“Big data:the next frontier for innovation, competition,and productivity”的报告中说到:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
在大数据时代的浪潮下,2014年3月5日,李克强同志在十二届全国人大二次会议上作政府工作报告时提出,要设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展。
根据EnfoDesk易观智库发布的《中国大数据整体市场趋势预测报告2014-2017》数据显示,2014年进入大数据应用市场的快速增长期,增长速度将接近30%。预计2016年国内大数据市场规模总量将突破100亿人民币。
各项数据均表明中国政府及公民都将或多或少地参与到大数据中,认识大数据,了解大数据,利用大数据,但据工业和信息化部电信研究院(2014年5月)发布的《大数据白皮书》,可以看出国内与国外在大数据应用与普及上还存在明显差距。
一、国内外研究文献比较
本文外文文献研究所选取的数据源为Web of Science数据库,Web of Science数据库是国际上权威的大型综合性核心期刊引文索引数据库,具有很高的查全率和权威性。本文分析研究选择了Web of Science中的SCI-EXPANDED、CCR-EXPANDED及IC索引作为检索源。Web of Science检索式为:(主题=BigData)+ (文献类型=Article)+(时间跨度=2003-2014),检索时间节点为 2015年1月14日。
从表1中可以看出从2003年到2014年在大数据研究领域中,美国发文量为316篇,约占总数的49.3%,遥遥领先我国的78篇,中国在这一领域中论文发表量虽然居于第二位,但发文量仅仅约为美国的1/4,说明大数据的发展主要集中在资金与技术均密集的国家,例如美国、英格兰、德国等,大数据的发展需要资金与技术的支持,中国在改革开放以来经济实力明显上升,但是在技术层面上还是略落后于以美国为首的发达国家,使得中国的论文发表量落后于美国。
(一)大数据相关论文的年代分布
首先,通过对Web of Science中检索得到的641篇有关大数据研究的文献进行年代分布分析,总结出从2011年到2014年大数据研究成为热点,所研究的论文数成直线上升。
本文中文文献研究所选取的数据源为中国知网,中国知网凭借优质的内容资源、领先的技术和专业的服务,在业界享有极高的声誉。检索式:SCI收录刊=Y或者EI收录刊=Y或者 CSSCI期刊=Y并且年between(2003,2014and主题=大数据) (精确匹配),检索范围:期刊,检索时间节点为2015年1月19日。
其次,本文对中国知网所检索出来的1853篇论文同样进行年代分布分析,发现中文文献与外文文献的发展趋势大体相同,但中文文献从2012年开始成上升现象,而外文文献从2011年已经有明显的上升,然后从2012年开始更是呈直线上升,中文文献较外文文献起点晚,与外文文献相差了一年,使得中文文献在之后的发展中想要赶上外文文献需要花费更多的时间和精力。
(二)大数据相关论文的研究方向分析
通过利用Web of Science的检索工具可以分析得到,外文文献主要的研究方向主要集中在计算机科学、工程学和科学技术其他主题,尤其是计算机科学,所占比率高达34.22%。
本文利用壹学者数据挖掘工具(“壹学者”有着先天的资源优势,凭借着中国人民大学居于国内首位的人文社科学术力量,“壹学者”在数据挖掘和学术研究具有较高的權威性。)检索出来的结果显示中文文献的研究方向主要集中在文化信息传播类和经济学与经济管理学类,关联热词主要为数据鸿沟和Hadoop。
从以上图表可以发现,中文文献在大数据技术方面的关注度不及外文文献,但大数据的发展首先需要的是技术的铺垫,中文文献在这方面的认知还是很缺乏,无法为实践工作做出更多的推动作用。王元卓(2013)认为“网络大数据平台在舆情监控、模式和关键字搜索、数据工程、情报分析、市场营销、医药卫生等领域具有重要的应用”,从上面图表可以发现,外文文献在工程学,医疗科学服务等基础领域已逐步推行大数据,而中文文献在基础领域并没有多大的涉及,例如文学艺术类、法律类。
二、中文文献的研究关注点
本文通过对中国知网搜集的1853篇文章进行文献学科领域分类,发现信息科技占比高达59.96%,其次为经济与管理科学和社会科学,分别为16.89%和15.70%,在学科分类中农业科技和医药卫生科技占比最小,共占1853篇文章的0.49%。
(一)医药卫生科技学科领域研究匮乏
从表3中可以看出外文文献研究方向集中于计算机科学、工程学、通讯、保健科学服务、一般内科、神经科学神经病学、应用生物技术微生物学、化学和药理学药学,其中保健科学服务、一般内科、神经科学神经病学、应用生物技术微生物学、化学和药理学药学共占25.36%,而中文文献在医药科学领域的占比仅为0.22%。
Travis B.Murdoch(2013)等人认为根据随着技术的进步,通常需要较少的投入,产生相同或更多输出的生产函数定理,在卫生保健中的大数据应用是不可避免的。医学的第一次信息技术革命是医疗记录的数字化;第二次肯定是利用其中所载的信息,并结合其他来源。
在中文文献中喻国明和何睿(2013)在对健康信息大数据的来源和分类的基础上,从学术研究和实践应用两个方面,分别阐释了大数据在健康传播与调查研究以及对个人、组织、社会等层面的可能影响。而后刘颖(2014)初步探讨大数据分析在医疗行业的应用,徐绪堪、房道伟、魏建香(2014)进一步研究出在大数据环境下,借助各类情报技术,以药品安全性突发事件情报为主线,以药品安全性突发事件情报分析为中心,从组织机构、业务流程和信息流程三个层次系统角度全方位分析药品安全性突发事件处理全过程,构建药品安全性突发事件情报分析总体框架、业务流程框架和信息流程框架,为药品安全性突发事件应急决策的快速响应提供信息支撑。然而这也建立在理论之上,并未有深入实践应用之中。
在外文文献中Brinkmann,Benjamin H.;Bower,Mark R.; Stengel,Keith A.(2009)等已经利用大数据技术试验出电生理系统可以要求从大量的电极和在较宽的动态范围内的记录,描述人类生理平台,能够记录从320电极(可扩展到1024年通道),每通道采样率为32千赫。Mavandadi,Sam(2012)更是研究出在诊断一个二进制的决定的情况下(例如,阳性与阴性或感染与未感染),使用BioGames有可能更准确地诊断由人群采购的原始数据(例如,标本/细胞显微图像)。这个BioGames平台有望向远程病理学(远程病理学是指在一定距离间进行的病理实践)发展,并用来进行提高医务人员的培训,也可以用来管理下一代数字芯片实验室设备新兴的“大数据”问题。
中文文献在大数据对医药卫生科技学科领域的研究较少,并且局限于理论研究,外文文献对此领域的研究已经突破到应用领域,并对生产实践带来直接有利影响。但是从发展形势上来看,中文文献正在向着应用实践方向上发展,可以期待中文文献的研究在此领域上的突破。
(二)工程科技领域研究相对较少
通过表5可看出中文文献在工程科技上占比为7.45%,在表3中外文文献研究方向于工程类的占比12.13%,但中文文献在工程科技领域研究数量高于外文文献,这也可以说中文文献对工程科技上的研究重视度并不亚于外文文献,中文文献对此领域的研究相当重视。
本文对Web of Science搜索的641篇文章中78篇工程类文献再一次进行国家地区分布进行分析,可以看出中国在此领域上虽然在文章数量上依然落后于美国,但是相较于在整体大数据文献的差距有明显缩小。
中文文献中大数据在工程科技领域的研究与在医药卫生科技学科领域不同的是,在此领域上的研究已经步入应用实践阶段。
牛东晓、谷志红、邢棉、王会青(2006)提出了一种基于数据挖掘预处理的支持向量机预测系统。将该系统应用于短期负荷预测中,与单纯的SVM方法和BP神经网络法相比,得到了较高的预测精度。曲朝阳、陈帅、杨帆、朱莉(2014)提出一种基于云计算技术的电力大数据预处理属性约简方法。该方法剖析了粗糙集中相对正域理论的特性,利用MapReduce模型设计了可以并行计算正域中元素个数的属性约简算法MP-POSRS。屈志坚、郭亮、刘明光、陈秋琳、蒋俊俊(2013)针对智能配电网量测点多、运行变化快,容易造成海量大数据集信息,使调度产生处理延迟、响应慢的问题,提出了融合变断面压缩存取和分布式集群无损压缩的柔性压缩新算法。周国亮、宋亚奇、王桂兰、朱永利(2013)研究出了基于云计算平台并考虑状态监测数据的特点,将监测数据海量小文件组合成大的序列文件,并压缩存储,从而提高存储和处理效率的方法,实验结果表明该方法可以有效存储状态监测大数据并对其聚类划分,对提高设备的状态评估及故障诊断水平具有一定辅助作用。
中文文献在此领域上的研究已步入佳境,不仅研究已步入应用实践阶段,更是取得了各种研究突破,为社会生产的发展奠定基础。
(三)经济与管理科学领域研究发展良好
中国知网搜集的1853篇文章中经济与管理科学占比达到16.89%,可以看出中文文献在此领域上的研究相当重视,邬贺铨(2013)认为要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手,但要注意科学规划,切忌一哄而上。目前,大数据标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会。
应维云、覃正、赵宇、李兵、李秀(2007)针对客户流失问题,建立了支持向量机预测模型。通过实际银行信贷客户数据集测试,该算法与传统预测算法比较,更适合解决大数据集和不平衡数据,取得较好的客户流失预测效果。为企业制定目标战略提供直接有效的模型支持。而后黄晓斌、钟辉新(2013)认为基于大数据的企业竞争情报系统的功能是由核心层、支撑层和表现层组成,并由此提出基于大数据的企业竞争情报系统模型,此模型为企业竞争提供理论基础。倪宁、金韶(2014)以布尔迪厄的“场域理论”为理论基础,提出“新媒体场域”概念,在此基础上,研究新媒体场域中广告传播如何能够实现精准,分别是:目标受众精准定位、消费需求深度挖掘、投放过程精准可控、广告效果精准评估,这一概念的提出为企业营销的实践提高了精准度和效率。中文文献在此领域上的研究,不仅为企业发展提供了各种宝贵的建议,同时也为政府的管理效率进一步提高奠定基础。
王向东、王文汇、王再堂、黄莹(2014)首次提出“管数制”这一概念,构建“管数制”税收征管模式,建议税务部门应以大數据技术应用为契机,积极推进我国税收征管模式二次转型,逐步实现征管模式由“管事制”向“管数制”的转变。许小乐(2013)认为政府统计应当通过优化统计机构设置、扎实推进统计业务数据化、提高数据挖掘分析能力、完善统计数据发布等方面加快推进政府统计的改革。
在经济与管理科学领域,中文文献的研究对政府和企业都有很好的促进作用,政府的进步促进企业能力的增强,企业的进步又反向促使政府的能力进一步提升,中文文献在此领域的研究发展良好,在应用实践阶段寻求突破,为社会生产力的发展贡献力量。
(四)信息科技领域上的研究偏于理论
中文文献在这一学科上的占比最高——59.96%,但是,在信息科技领域上,中文文献集中于理论的研究,对大数据进行深层次的探讨。李建中、刘显敏(2013)在文中讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果。李清泉、李德仁(2014)针对大数据的几个“V”特性分析了传统GIS所受到的挑战,在前期相关研究的基础上,从GIS空间数据管理、空间数据分析以及可视化三方面进一步阐述了大数据GIS应具有的特征。秦晓珠、李晨晖、麥范金(2013)结合大数据知识服务模式下对各种类型大数据管理和处理需求,给出了大数据知识服务概念模型。宗威、吴锋(2013)梳理了大数据的基本特征,结合中国当下企业发展现状及大数据在国内的发展态势,从流程、技术和管理视角讨论了大数据时代下企业保证数据质量的挑战、重要性及应对措施。
虽然中文文献在此学科领域的研究大多偏重于理论研究,但是其对大数据的进一步研究和将大数据投入到生产力中提供了理论基础,并且其中的建议都具有很强的实践意义。
综上分析,中文文献与外文文献存在这巨大的不同,笔者认为中文文献并不需要盲目地追随外文文献的研究发展,而更应该在大数据的学术研究上寻求自身的发展,中外文献各有各的特点,但无法否认中文文献在大数据技术与发展上不及外文文献,这是中文文献需要加紧脚步跟上的关键点,而在大数据的应用研究上,中文文献完全可以走出自己的特色与风格出来。
三、建议
中文文献在大数据方面的研究还有很大的发展空间,从中文文献关注点这一章可以看出中文文献在大数据方面的研究有自己的风格特色,但在医药科技类等领域都与外文文献在大数据方面的研究相差一段距离,通过阅读大量文献,认为中文文献在大数据方面的研究可以加强以下两点来寻求自身的突破。
(一)隐私安全保护
数据本身具有价值,就会引起恶意的侵害,也可以说只要有数据,就必然存在安全与隐私的问题。随着数据的增多,大数据面临着重大的风险和威胁,大数据隐私安全就越需要引起人们的重视。
Schadt,Eric E.(2012)认为大数据革命的开始,预示着我们更加需要重视隐私安全的重视和保护。需要通过法律在国家政府层面保障个人隐私的安全。他们建议大数据隐私安全保护的法律应该尽快起草并实施。
冯登国等人(2014)认为大数据在引入安全问题的同时,也是解决信息安全问题的有效手段,它为信息安全领域的发展带来了新的契机。他们通过介绍数据发布匿名保护技术、社交网络匿名保护技术、数据水印技术、数据溯源技术、角色挖掘和风险自适应的访问控制等相关大数据安全关键技术来证明大数据隐私安全的可控性,进一步证明大数据带来了新的安全问题,但它自身也是解决问题的重要手段。
(二)信息公开化
丰富的高质量数据资源是大数据产业发展的前提。近几年在互联网产业及金融、电信信息化快速发展的带动下,我国数据资源总量有了快速增长,已达到全球的13%,但其他行业受信息化水平制约,数据储量仍不丰富。
张毅菁(2013)认为大数据开启了一次重大的时代转型,客观地改变了政府信息公开的广度、深度和速度。我国应尽快提升《政府信息公开条例》的立法层级,并对相关内容进行精细化的调整,全面提高政府信息公开的力度,提升政府信息的使用效率和效果,迎头赶上这场以大数据为代表的第三次信息化浪潮。
Marx,Vivien(2013)提出了数据高速公路这一概念,认为大数据如今的发展存在这极大的基于,同样,挑战也是相伴而至,在面对各种困难的情况下,大数据的发展需要大量的信息,数以万计的数据信息在大数据技术的加工下将变成各种适用的数据资源。
四、总结
本文通过对年代分布和地域分布分析,基于学科分类的角度对中文文献和外文文献在大数据方面的研究区别进一步比较归纳,发现中文文献在大数据方面的研究与外文文献在此上的研究相比虽存在差距,但却有很大的自我发展空间,中文文献在大数据方面的研究应该在加强隐私安全保护和信息公开化的基础上,寻求在实践应用上的进一步发展,进而成为具有中国特色的大数据文献研究特色。
参考文献:
[1] Big data. 2011. http://en.wikipedia.org/wiki/Big_data
[2] Beyer M A,Laney D. The Importance of‘Big Data’ : A Definition[EB/OL].https://www.gartner.com/doc/2057415/importance-big-data
-definition,2014.1.2
[3] Laney D. 3D data management: Controlling data volume, velocity and variety[EB/OL].http://blogs.gartner.com/doug-laney/files/2012/01/
ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-
andVariety.pdf,2014.1.2.
[4] Beyer M. Gartner says solving‘big data’ challenge involves more than just managing volumes of data[EB/OL].http://www.gartner.com/newsroom/id/1731916,2014.1.2
[5] Howe D, Costanzo M, Fey P, et al. Big data: The future of biocuration [J]. Nature, 2008
[6] Duncan L E, Keller M C. A critical review of the first 10 years of candidate gene-by-environment interaction research in psychiatry [J]. American Journal of Psychiatry, 2011 (10)
[7] Schadt E E,Linderman M D, Sorenson J,et al. Computational solutions to large-scale data management andAnalysis [J]. Nature Reviews Genetics,2010(9)
[8] Demchenko Y, Grosso P, de Laat C, et al. Addressing big data issues in Scientific Data Infrastructure[C]//Collaboration Technologies and Systems (CTS), 2013 International Conference on,UK:IEEE, 2013
[9] Boyd D, Crawford K. Critical questions for big data: Provocations for a cultural, technological,and scholarly phenomenon [J].Information, Communication & Society, 2012 (5)
[10] Zhang D. Granularities and inconsistencies in big data analysis [J].International Journal of Software Engineering and KnowledgeEngineering, 2013(6)
[11] Liu Ling. Computing infrastructure for big data processing [J]. Frontiers of Computer Science, 2013 (2)
[12] Ji C, Li Y, Qiu W, et al. Big data processing in cloud computing environments[C]//Pervasive Systems, Algorithms and Networks (ISPAN), 2012 12th International Symposium on.IEEE, 2012
[13] Zhang X, Liu C, Nepal S, et al. SaC- FRAPP: a scalable and cost- effective framework for privacy preservation over big data on cloud [J]. Concurrency and Computation: Practice and Experience, 2013 (18)
[14] 彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013(1)
[15] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1)
[16] 吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1)
[17] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1)
[18] 劉高勇,汪会玲,吴金红.大数据时代的竞争情报发展动向探析[J].图书情报知识,2013(2)
[19] 姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4)
[20] 王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013(3)
[21] 朱东华,张嶷,汪雪锋,李兵,黄颖,马晶,许幸荣,杨超,朱福进.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013(4)
[22] 宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013(4)
[23] 朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5)
[24] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(6)
[25] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6)
[26] 秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2)
[27] 郭自宽,张兴旺,麦范金.大数据生态系统在图书馆中的应用[J].情报资料工作,2013(2)
[28] 贾利军,许鑫.谈“大数据”的本质及其营销意蕴[J].南京社会科学,2013(7)
[29] 刘炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4)
[30] 容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7)
[31] 王斌.大数据与新闻理念创新——以全球首届“数据新闻奖”为例[J].编辑之友,2013(6)
[32] 李凤英,齐宇歆,薛庆水.大数据视域下的虚拟学习社区安全研究——基于门限代理签名的协同学习系统探讨[J].远程教育杂志,2013(4)
[33] 王武彬.大数据浪潮中的传媒业——兼谈大数据讨论的若干误区[J].新闻记者,2013(6)
[34] 喻国明,王斌,李彪,杨雅.传播学研究:大数据时代的新范式[J].新闻记者,2013(6)
[35] 宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013(5)
[36] 徐鹏,王以宁,刘艳华,张海.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013(6)
[37] 金陵.大数据与信息化教学变革[J].中国电化教育,2013(10)
[38] 崔慧红.基于大数据的CDRS知识整合研究框架构建[J].图书馆学研究,2013(17)
[39] 張燕南,赵中建.大数据时代思维方式对教育的启示[J].教育发展研究,2013(21)
[40] 顾涛.基于大数据的竞争情报协作分析研究[J].情报科学,2013(12)
[41] 刘红,胡新和.数据革命:从数到大数据的历史考察[J].自然辩证法通讯,2013(6)
[42] 祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10)
[43] 张彦华.大数据时代国内传媒产业的挑战与机遇[J].现代传播(中国传媒大学学报),2013(11)
[44] 鲍翠梅.面向大数据时代的图书馆知识服务[J].现代情报,2013(10)
[45] 蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5)
[46] 祝森生.大数据时代关于智慧图书馆的几个研究问题探讨[J].图书与情报,2013(5)
[47] 张军,姚飞.大数据时代的国家创新系统构建问题研究[J].中国科技论坛,2013(12)
[48] 史卫民.大数据时代个人信息保护的现实困境与路径选择[J].情报杂志,2013(12)
[49] 周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013(S2)
[50] 霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013(S2)
[51] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013(S2)
[52] 黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014(1)
[53] 梅德明.大数据时代语言生态研究[J].外语电化教学,2014(1)
[54] JohnCarloBertot,郑磊,徐慧娜,包琳达.大数据与开放数据的政策框架:问题、政策与建议[J].电子政务,2014(1)
[55] 白如江,冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践,2014(1)
[56] 郑淑蓉.零售业大数据:形成、应用及启示[J].理论探索,2014(2)
[57] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1)
[58] 耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1)
[59] 李金昌.大数据与统计新思维[J].统计研究,2014(1)
[60] 邱东.大数据时代对统计学的挑战[J].统计研究,2014(1)
[61] 朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(2)
[62] 周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014(2)
[63] 刘俊,张昕.大数据视域下的科技期刊数据库建设[J].编辑学报,2014(1)
(作者单位:江南大学商学院 江苏无锡 214000)(责编:贾伟)