大数据领域研究态势及热点分析

2022-01-21 11:02:34闫亚飞张立佳
河北省科学院学报 2021年5期
关键词:边缘计算认证区块链

闫亚飞,张立佳,贾 苹

(1.中国科学院文献情报中心,北京 100190;2,河北省科学院,河北 石家庄 050081)

引言

随着信息通信技术的广泛运用,以及新模式、新业态的不断涌现,人类的社会生产生活方式正在发生深刻的变革,数字经济作为一种全新的社会经济形态,正逐渐成为全球经济增长重要的驱动力。大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。

2008年,《自然》(Nature)杂志邀请科研领域和商业领域的专家,对未来十年将会改变世界的技术进行预测,并发表专刊Big data: The next Google,其中第一次正式提出“大数据”概念[1]。2011年,《科学》(Science)杂志发表专刊Dealing with Data: Training New Scientists中,分析了大数据在信任、安全、数据存储、复用、基础设施建设等方面带来的挑战[2]。2011年,麦肯锡发布研究报告,报告明确大数据定义:大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集[3]。研究机构Gartner给出大数据定义,即 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[4]。

1 大数据发展现状

根据国际数据公司IDC全球最新数据支出指南预测[5],全球大数据市场投资规模将在2025年超过3500亿美元,五年预测期内(2021-2025年)实现约12.8%的复合增长率。2021年,美国的大数据市场规模超过1100亿美元,其次是日本,大数据规模约为124亿美元;中国大数据市场规模达到119亿美元,预计在2025年超过250亿美元。

随着大数据市场规模的持续增加,大数据技术得到进一步的提升,大数据应用也进一步普及。目前大数据已经广泛应用于制造业、金融业、汽车行业、能源行业、城市管理和生命健康等多个领域。大数据与制造业相融合,可以推进制造业绿色转型发展[6],实现成本精细化管理[7]、促进企业管理方式改善[8]、提高智能制造水平[9]等。大数据与金融行业相融合,可以转变服务模式[10]、提高金融风险控制管理[11]、提升金融统计能力[12]、支撑金融信贷决策[13]等。大数据与汽车行业相融合,可以开展事故追踪分析[14]、充电用户行为分析[15]、提高运行风险管控[16]、加强出租车资源规划[17]、进行服务营销及其策略研究[18]等。大数据与能源行业相融合,可以提高新能源接入配电网比例状态[19]、促进能源管控[20],推动构建智能开放的能源体系[21]。大数据与城市管理相融合,可以提高城市政务服务能力[22]、推动城市安全治理[23-24]、构建智能交通运维系统[25],提升城市综合管理效率[26],推进城市规划研究[27]。大数据与生命健康相融合,能够提升医疗服务效率[28],提高区域疾病防控能力[29]、打破医疗信息孤岛[30]、推进精准医疗发展[31]等。

2 全球主要国家大数据领域政策

为了占据大数据发展制高点,世界主要大国已把大数据纳入到国家战略并开始重点部署实施。美国、英国、德国、中国等国家政府高度重视大数据产业发展[32],自2012年来,密集出台多项专门政策予以支持。

2012年美国白宫科技政策办公室发布《大数据研究和发展计划》,成立“大数据高级指导小组”,宣布投资2亿美元发展大数据研究,通过对海量、复杂数字信息收集、整理,增强数量采集和分析萃取功能,提升预测能力;2013年,美国信息技术与创新基金会发布《支持数据驱动型创新的技术与政策》报告,提出政府要大力培养所需技能劳动力,推动大数据技术研发,制定数据共享法律,提高公众的数据共享意识;2014年,美国发布《大数据:把握机遇,守护价值》白皮书,积极调解个人隐私保护与大数据发展之间的冲突;2016年美国发布《联邦大数据研发战略计划》,形成涵盖技术研发、数据可信度、基础设施、数据开放与共享、隐私安全与伦理、人才培养以及多主体协同等7个维度的顶层设计,打造面向未来的大数据创新生态;2019年,美国白宫行政管理和预算办公室(OMB)发布《联邦数据战略与2020年行动计划》,描述了美国联邦政府未来十年的数据愿景,并初步确定了各政府机构在2020年需要采取的关键行动。

2012年英国颁布《政府数字化战略》,由英国商业创新技能部牵头,成立数据战略委员会,通过大数据开放,为政府、私人部门、第三方组织和个体提供相关服务,吸纳更多技术力量和资金拓宽数据来源,实现大数据驱动的社会经济增长;2013年,英国政府发布《把握数据机遇:英国数据能力战略》,从强化数据分析技术、加强国家基础设施建设、推动研究与产研合作、确保数据安全存取与共享等方面做出部署;2017年,英国政府发布《数字英国战略》,其中要求通过多项举措释放数据潜力,创新、高效的使用数据,推进政府数据开放共享;2020年英国数字、文化、媒体和体育部(DCMS)发布《国家数据战略》,支持英国对数据的使用,帮助该国经济从疫情中复苏。

2014年德国推出《2014—2017年数字议程》,提出打造具有国际竞争力的“数字强国”,设立研发计划促进大数据等技术的市场化,开发推广安全的大数据应用;2018年,德国联席科学会议推出国家科研数据基础设施计划,决定未来十年内建设30家科学数据中心,每年提供8500万欧元的资助;2021年,德国政府发布《联邦政府数据战略》,确立了可持续的数据基础设施、促进数据创新并负责任地使用数据、提高数字能力并打造数字文化、加强国家数字治理四大行动领域。

2012年澳大利亚政府发布《澳大利亚公共服务信息与通信技术战略2012—2015》,提出增强政府机构的数据分析能力,并计划制定一份大数据战略;2014年,澳大利亚政府信息管理办公室(AGIMO)发布《公共服务大数据战略》,推进公共行业大数据服务改革,保护公民隐私。

2015年,中国国务院发布《促进大数据发展行动纲要》,对我国大数据发展进行了顶层设计和总体部署;2016年,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中,提出了实施国家大数据战略,把大数据作为基础性战略资源;2017年,工信部发布《大数据产业发展规划(2016—2020年)》,明确强化大数据技术产品研发,深化工业大数据创新应用;2017年,大数据被写入党的“十九大”报告,提出推动大数据与实体经济深度融合;2020年《关于构建更加完善的要素市场化配置体制机制的意见》中,大数据被证实列为新型生产要素;2021年工业和信息化部发布《“十四五”大数据产业发展规划》,提出完善大数据标准体系建设。

3 数据来源及检索策略

本文以大数据为关键词构建检索策略,利用Web of Science核心合集数据库,检索近十年的大数据领域研究论文。构建检索式 ((TI=(“big data” or “bigdata”) OR AK=(“big data” or “bigdata”) OR KP=(“big data” or “bigdata”))) AND PY=(2012—2021),在剔除掉噪声文献后,最终获得相关论文49143篇。利用Derwent Data Analyzer(DDA)软件、VOSviewer等软件对论文数据进行可视化分析。

4 大数据领域论文研究趋势

4.1 大数据领域年度发文趋势

2012—2019年期间,全球大数据领域研究论文整体呈现逐年上升趋势,并在2019年达到最高峰。随后的2020年和2021年发表论文总量相比2019年均有所下降。从发展趋势上来看,2012—2013年,全球主要国家在大数据宣传方面达到高潮,2013年被称为大数据元年,许多国家在该领域出台相应的支持政策;2014—2019年期间,大数据概念体系逐步形成,相关技术、产品和标准不断发展,产业应用更加广泛,大数据创新生态体系不断完善。

在大数据领域研究方面,美国多年来保持领先地位,2012—2017年期间,年度发文数量稳居全球第一;中国紧随其后,并于2018年超过美国。英国、印度和德国的年度发文量与全球发展趋势一致,逐年上升,但与美国和中国相比,差距较大,2013年起,三个国家的年度发文总和均低于中国的年度发文量。如图1所示。

图1 大数据领域年度发表论文趋势

4.2 大数据领域主要发文国家

全球已有多个国家在大数据领域进行相关研究,其中发文量较多的10个国家分别是美国、中国、英国、印度、德国、澳大利亚、意大利、西班牙、加拿大和韩国。其中美国在该领域发文数量最多,为12393篇,占全球研究论文的25.21%;其次是中国,在该领域发文12218篇,全球占比为24.86%;排在第三位的是英国,在该领域发文4604篇,全球占比为9.36%。其它7个国家的发文全球占比也均超过了3.6%。如表1所示。

大数据领域研究的国际合作较为密切,全球发表论文数量TOP10国家的国际合作论文占比平均值为44.16%。国际合作论文占比超过50%的国家分别是澳大利亚(66.42%)、加拿大(59.06%)、德国(51.19%)和西班牙(50.50%)。中国和印度两个国家的国际合作论文占比相对较低,在30%以下。从国家之间的科研合作来看,TOP10国家均与美国和英国有较为密切的合作关系,其次是中国,另外这些国家也与澳大利亚、瑞士、意大利和巴基斯坦等国家在该领域建立了合作关系。

从发文主导率来看,TOP10国家的第一作者发文占比均超过了40%。其中中国在大数据领域的第一作者发文占比超过了70%;其次是美国、印度和韩国,第一作者发文占比均超过60%;说明这些国家在该领域的自主研发能力较强,处于第一梯队。意大利、西班牙和德国的第一作者发文占比超过了50%,这些国家的自主研发能力居中,处于第二梯队。加拿大、澳大利亚和英国的第一作者发文占比在40%以上,处于第三梯队。

4.3 大数据领域主要研究机构

全球在大数据领域发文最多的50个机构中,美国有25个机构,占比达50%;其次是中国,有11个机构;澳大利亚的机构有4个,英国的机构有3个;其它机构则分别来自意大利、印度、法国、加拿大和沙特阿拉伯。排名前10机构见表2。

发文数量排在前3位的机构分别是中国科学院、加州大学和伦敦大学,发文数量均超过550篇。从论文篇均被引量来看,哈佛大学、斯坦福大学、麻省理工学院和上海交通大的论文质量较高,篇均被引均超过了25次。利用H指数对科研机构的发文水平进行对比,美国加州大学发文的H指数最高,达到63;其次是中国科学院和哈佛大学,H指数分别为56和55。

中国科学院在该领域发文数量最多,高被引论文主要研究热点聚焦在遥感大数据计算、大数据分析系统、大数据研究挑战、旅游大数据研究、大数据资源库、基于大数据的交通流预测、基于大数据的生物信息学深度学习、大数据应用的高效数据迁移和备份、物联网数据挖掘、基于大数据的游客人数预测、使用有效二阶解算器预测丢失的QoS数据、农业遥感大数据、遥感大数据管理和处理、科学大数据、基于大数据的生物信息云、社交媒体大数据应用等方面。

加州大学在该领域发文数量仅次于中国科学院,其高被引论文主要研究热点聚焦在大数据处理引擎、基于大数据的新型冠状病毒疾病应对分析、医疗大数据、大数据在计量经济学的应用、大数据技术挑战、社会感知数据研究、边缘计算范式、大数据分析机遇和威胁、大数据系分析处理、基于大数据的地理知识发现、基于大数据的无线通信、医疗健康大数据等方面。

表1 大数据领域主要发文国家

全球发文量TOP50机构中,除了中国科学院之外,中国在大数据领域的研究机构还有清华大学(7)、武汉大学(14)、华中科技大学(15)、香港理工大学(20)、上海交通大学(24)、北京航空航天大学(27)、电子科技大学(29)、浙江大学(32)、北京邮电大学(40)和北京大学(43)。

清华大学在大数据领域发表论文413篇,国内排名第二。高被引论文主要研究方向聚焦在遥感大数据计算、大数据信息安全、大数据可视化分析、多媒体大数据组织模型、基于社交媒体大数据的城市突发事件检测、大数据驱动的移动流量预测方法、视频监控大数据的语义表示与组织、高效节能的大数据流计算、大数据网络鲁棒因果关系挖掘、基于大数据的智能制造、城市大数据与城市智能化发展等方面。

表2 大数据领域主要研究机构(排名前10)

4.4 大数据领域主要机构合作关系

大数据领域研究机构之间的科研合作非常密集,TOP30发文机构之间呈现出区域性合作网络。如图2所示。

网络区域①美国机构的合作网络,各机构之间相互合作频繁,以加州大学、哈佛大学、斯坦福大学、密歇根大学、宾夕法尼亚大学等为主体构建了本土庞大的合作网络。其中加州大学在大数据领域合作机构范围最为广泛,除了与本土机构之间合作紧密外,还与中国、英国和澳大利亚的各主要机构有着密切的合作关系。

网络区域②主要是中国机构的合作网络,各机构之间合作非常密切,构建了以中国科学院、清华大学、中国科学技术大学、香港港理工大学等为主体的合作网络,其中中国科学院也与美国、英国和澳大利亚等地区的各个主要机构有着密切的合作关系。

网络区域③是英国机构的合作网络,主要由牛津大学、伦敦大学和不列颠哥伦比亚大学构成;牛津大学与美国的加州大学、哈佛大学、华盛顿大学等多个机构有合作关系,还与中国科学院、北航大学、武汉大学、北京大学等多个机构有合作关系;同时还与澳大利亚的西南威尔士大学、悉尼大学、墨尔本大学有合作关系。

网络区域④是澳大利亚机构为主的合作网络,主要由墨尔本大学、新南威尔士大学、悉尼大学和悉尼科技大学构成;其中墨尔本大学与美国的加州大学、华盛顿大学、密歇根大学等机构有密切的合作;与中国的上海交通大学、华中科技大学、香港理工大学等机构有密切的合作;同时与英国的3个机构也有合作。

图2 大数据领域主要机构合作关系

4.5 大数据领域发文主要资助基金机构

大数据领域的研究获得了全球多个机构的基金资助,资助产出论文最多的20个基金机构中,美国和中国最多,都有5个基金资助机构;其次是英国和日本,分别有2个基金资助机构;德国、澳大利亚、加拿大、巴西、欧盟和西班牙各有1个资金资助机构。排名前5机构如表3所示。

中国国家自然科学基金在大数据领域资助产出论文4074篇,主要资助的科研机构有中国科学院、清华大学和武汉大学。主要资助主题方向有工业物联网、数据挖掘、基于大数据的交通流预测方法、机器学习、大数据服务、大数据扩展系统、基于大数据的智能制造、智能社区大数据分析、大数据驱动的智能能源管理、基于医疗大数据的疾病预测、遥感大数据计算、大数据处理的机器学习等方面。

美国国家科学基金会在大数据领域资助产出论文1559篇,主要资助机构有加州大学、佛罗里达州立大学和德克萨斯大学。主要资助主题方向有商业大数据分析、数据挖掘、大数据带来的影响、大数据分析挑战、大数据生态、大数据技术、大数据与云计算、大数据机器学习、基于大数据与小数据的出行行为分析、大数据结构优化算法等方面。

欧盟委员会在大数据领域资助产出论文1361篇,主要资助机构有伦敦大学、牛津大学和法国国家科学研究中心。主要资助领域主题方向有大数据机器学习、开放大数据、大数据缓存、科学大数据、基于大数据的物种多样性分析、对地观测大数据分析、大数据与工业4.0、全球传染病监测大数据、健康大数据分析等方面。如图3所示。

表3 大数据领域发文主要资助基金机构(排名前5)

图3 大数据领域主要学科方向

4.6 大数据领域热点方向及主题

利用Web of Science数据库的学科体系进行分类,大数据领域论文的主要研究方向聚焦在计算机科学信息系统、计算机科学理论方法、计算机科学与人工智能、电信、计算机科学跨学科应用、计算机科学软件工程、计算机科学硬件架构等方面,另外也在电气电子工程、管理、商业、信息科学与图书馆学、环境科学、运筹与管理科学、自动化控制系统和多学科工程方面有相关研究。

对大数据领域的TOP200高频主题词进行聚类,构建基于共词矩阵的知识图谱,如图4所示。图中每个节点代表1个关键词,节点越大该词出现的频次越高;纵坐标位置由下到上表示该主题次出现的平均时间由远及近,靠近顶部为近3年的研究热点。大数据领域的热点研究主题词主要可以聚类为6个方向。

(1)大数据在生命健康领域应用研究,主要关键词有大数据、人工智能、社交媒体分析、行为分析、新冠肺炎、数据挖掘、风险模式、hadoop、生物信息、伦理学、精准医疗等,近两年的研究热点关键词有新冠肺炎、人工智能、诊断、验证等。

(2)大数据管理研究,主要关键词有大数据分析、管理、知识管理、数据科学、商业智能、协作、内容分析、用户接受度、数据质量、生命周期评估等,近两年的研究热点关键词有循环经济、内容分析、生命周期评估、商业模式、用户接受度等。

(3)大数据应用相关技术,主要关键词有物联网、智慧城市、云计算、区块链、隐私、安全、通信、优化、传感器网络、5G、边缘计算、能效、雾计算、云制造、智能电网、智能合约等,近两年的研究热点关键词有数据模型、认证、边缘计算、使能技术、区块链、电动汽车、智能合约等。

(4)大数据关键技术研究,主要关键词有机器学习、预测分析、数据分析、深度学习、神经网络、预测、计算智能、入侵检测、时间序列、异常检测等,近两年的研究热点关键词有异常检测、入侵检测、预测、神经网络和计算智能等。

(5)大数据在工业领域应用研究,主要关键词有工业4.0、网络物理系统、智能制造、先进技术、数字孪生、智能工程、增强现实、数字化转型、故障诊断、数字化、自动化等,近两年的研究热点关键词有数字化转型、数字孪生、工业4.0、智能制造、精准农业等。

(6)大数据在开放科学和共享方面研究,主要关键词有分析学、文献综述、研究议程、情绪分析、满意度、质量、在线评论、认知计算、共享经济、推荐系统等,近两年的研究热点关键词有推荐系统、客户满意度、韧性、情绪分析等。

5 小结

经过多年发展,大数据从一个新兴的技术方向,正在成为融入实体经济发展各领域的要素、资源和动力。全球主要国家如美国、中国、英国、德国、澳大利亚等纷纷出台相关政策,推动大数据产业发展。

2012—2019年期间,全球大数据研究领域年度发文整体呈现上升趋势。美国和中国在该领域发文数量最多,中国近几年的发文量逐步超过美国,位居全球第一。美国在大数据研究领域的发文机构数量最多,TOP50机构中,有50%的机构来自美国;中国科学院在该领域发表论文数量最多。

全球在该领域的科研合作非常密切,整体呈现4大区域性合作网络,分别为美国机构合作网络、中国机构合作网络、英国机构合作网络、澳大利亚机构合作网络,除了区域内部合作外,各个网络之间也有非常密切的科研合作。

大数据领域研究热点研究方向聚焦在6个方面,分别是:大数据在生命健康领域应用、大数据管理研究、大数据应用关键技术、大数据关键技术研究、大数据在工业领域应用研究、大数据在开放科学和共享方面研究。高频主题词有:大数据、人工智能、社交媒体分析、精准医疗、大数据分析、生命周期评估、数据科学、物联网、智慧城市、隐私、安全、智能合约、预测、神经网络、计算智能、数字化转型、数字孪生、智能制造、韧性、情绪分析等。

中国在大数据领域起步较早,研究机构和发文数量都位居前列,论文研究主导率和研究质量也较高,并且形成了稳定而广泛的合作网络。未来将与更多的国家开展研究合作,共同推进全球的技术进步。

随着大数据技术与各行各业的融合应用,数据价值逐渐凸显,同时也产生了信息孤岛、隐私安全、管理规范等问题。未来大数据领域应加强对数据分析技术的研究,提高数据价值挖掘效用;加强大数据与云计算、区块链等信息技术的协同发展,保护数据隐私安全;面向全球、国家和机构等不同用户维度,建立分层次的数据治理体系;提高观念意识,促进开发科学数据共享和发展。

猜你喜欢
边缘计算认证区块链
边缘计算下移动智能终端隐私数据的保护方法
工业物联网智能边缘计算应用软件的快捷开发与设计
边缘计算在农业物联网中的应用
物联网技术(2018年3期)2018-03-24 09:36:24
从“边缘计算”看未来企业办公场景
中职校园网络安全管理系统设计
考试周刊(2016年92期)2016-12-08 01:05:37
ASME钢印锅炉安全阀PE认证实践
区块链技术的应用价值分析
商情(2016年40期)2016-11-28 11:24:12
药品批发企业GSP认证跟踪检查结果的统计分析与对策研究
企业质量管理体系有效性研究
商情(2016年39期)2016-11-21 09:12:17
“区块链”的苟且、诗和远方