摘 要: 随着信息技术的发展,我们已进入了大数据时代,大数据已在各行各业中有广泛的应用,大数据毋庸置疑的将对各行各业产生重大的影响。实验室作为科学研究的第一阵地,必然會受到大数据的影响。在大数据背景下,本文研究大数据与高校实验室的关系,针对目前高校实验室研究存在的不足之处,提出了大数据背景下实验室研究应对的策略,以期为高校的实验室研究提供参考。
关键词: 大数据;实验室;策略
中图分类号: TU411 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.04.042
本文著录格式:王昊. 基于大数据背景下的高校实验室研究[J]. 软件,2019,40(4):196198
【Abstract】: With development of information technology, we have entered era of big data, which has been applied in all walks of life widely, and have significant impact on various industries undoubtedly. As the first position of scientific research, laboratories are bound to influence of big data. Under big data background, the paper studies relationship between big data and university laboratories, and puts forward some strategies for laboratory research under big data background In view of shortcomings of current university laboratory research, to provide reference for university laboratory research.
【Key words】: Big data; Laboratory; Strategy
0 引言
当今社会,科技高速发展,信息高速流通,人与人之间的交流越来越密切,生活也越来越方便,人们每天都生活在海量数据之中[1],海量数据已经使我们进入了“大数据”时代[2],大数据就是这个高科技时代的产物。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”如今,大数据产业发展正在迅猛增长,据统计,全球数据量每年以超过50%的速度增长[3],在金融、汽车、电信、餐饮、能源和娱乐等行业有着广泛的应用[4],特别是近年来,电子信息技术的应用研究与发展,在实验室中产生了结构和种类繁多的海量数据,这种海 量数据势必对实验室的研究产生重大影响,本文 就“大数据”究竟是什么、高校实验室研究的不足及大数据背景下如何开展实验室研究等方面进行 探析。
1 大数据定义、特点及与实验室的关系
1.1 大数据的定义
大数据(Big data)是一种信息资产,也是一种数据集合,并且在一定时间范围内无法用常规软件工具进行捕捉、储存、管理和处理,具有海量、高增长率和多样化的特点。广义的大数据是指世间的所有均可用数据来表示,都可以通过编码来进行数据量化,包括大数据相关的技术处理。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
1.2 大数据的特点
IBM提出大数据具有5“V”的特点:即Volume、Variety、Value、Velocity、Veracity。
Volume指数据量大,包括采集、存储和计算,计量起始单位至少是P、E或Z(10亿个T);Variety指数据的种类和来源多样化,包括结构化、半结构化和非结构化,多类型的数据对数据的处理能力提出了更高的要求;Value指数据价值密度相对较低,信息海量,但有价值的不多;Velocity指数据增长速度快,处理的速度也很快,实时分析;Veracity指数据的准确性和可信赖度,即数据的质量。
1.3 大数据与实验室之间的内在关系
现代科技的进步与社会的迅速发展,主要得益于对数据的使用,实验室的性质和特点就注定了与数据的不解之缘。在实验研究开展的过程中,势必会产生大量的数据,这种数据呈现出爆发式的增长,通过运用大数据技术对这些数据进行有效的分析和挖掘,提取出有用的信息和形成有价值的结论,进一步的促进了实验室的研究,这种内在的联系,也使大数据成为了实验室研究的一种思维、工具或方式、方法。
2 目前实验室研究存在的主要问题
2.1 重复性实验多,研究效率低下
在科研领域,验证别人已经发现的科学结论是非常必要的,这是进一步深入研究的基础,也就是一定要重复别人的实验,但是这种重复性工作的价值是建立在研究者必须准备在相应的领域开展深层次、系统性的研究基础之上,而国内目前的科研工作大多数停留在重复性阶段,究其原因归结于实验室或个人的研究方向和研究内容缺乏连续性和系统性,频繁的更换研究方向和研究课题,研究者仅仅在某领域浅尝辄止,刚刚重复性的进行别人的重要实验,没有系统深入地进行研究就终止了该项工作,那么前期的实验就失去了价值,变成一种低水平的重复性工作,导致实验研究效率低下。
2.2 产生数据量大,有价值信息少
IDC报告显示,预计到2020年全球数据总量将超过40 ZB,《大数据技术概论》(中国科学院大学工程学院)一書中提到,欧洲CERN对撞机每年产生的数据量超过15 PB,华大基因测序目前每年产生数据一年超过5 PB,美国EarthScope每年产生数据超过68 TB等,可见,实验室研究中产生的数据量之大,实验的描述、数据的记录与分析、学术数据库等[5]与研究相关的方方面面都成了产生数据的源头,然而,在这些海量的数据中,有价值的信息寥寥无几,一个生态学家想分析过去10年美国蒸散发量的变化,仅下载的图像数据就达3 TB,然而在处理后,仅生成了小于100 M的分析结果[6],这就充分地说明,实验研究产生的数据量巨大,但有价值的信息非常少。
2.3 数据分析技术不熟悉,数据处理复杂
在实验研究中,产生的海量数据,繁杂冗长,错综复杂,相互交错,很难用传统的、简单的方法去统计、分析和处理。面对混乱的数据,研究人员不得不花费大量的时间和精力来对数据进行处理,而且以现在的技术,也只能处理分析规模相对小的数据信息,实验研究人员对数据分析技术并不了解。
2.4 大数据背景下实验室研究面临的新问题
面对大数据的特点,如何对海量的数据进行采集、存储和计算,如何对种类和来源多样化的数据进行分析、处理和共享,如何在海量的、价值密度相对较低的数据中筛选出有价值的信息,如何在海量的数据中挖掘其背后隐藏的规律及特点,如何应对大数据给技术研究创新工作所带来的从思维体系到技术方法的大变革等等问题,这都是实验研究者在大数据时代要面对的,也是摆在科研人员面前急需解决的难题[7]。
3 大数据对实验室研究的重要影响
3.1 大数据能够反映出科学研究的最新动态及其内部的发展规律
高校实验室是开展实验教学,培养学生实践能力与综合素质的主要场所,更是科研的前沿阵地,实验室研究中对数据的运用是最充分,研究的详细数据能够充分的描述出实验的变化过程,挖掘出实验内部深层次的规律。
3.2 大数据能够打破实验研究者的固有思维局限,实现实验室研究的协同创新与发展
在实验室研究中,研究者本身的认知是简单的、静态的、局部的,然而在大数据时代,实验研究者利用大数据的性质特点,对科研问题的处理及思考可现实复杂化、动态化、整体化,能够将多种思维方式运用到研究中,也可利用大数据的多样性、复杂性来综合分析实验数据,达到不同领域不同学科之间的实验室研究同步创新、发展。
3.3 大数据可实现实验的可预性,并减少不必要的实验
在大数据时代,实验研究者通过对大量数据的分析与处理,其中包括实验研究过程中出现的信息数据,以及实验的外部有关信息数据,能够确定出下一步实验的方法、预期达到的实验结果,进而避免了前期为确定实验影响因素而进行的相关实验,同时也避免了因人为因素而失误造成的重复实验。
4 大数据时代下,实验室研究策略
4.1 创新研究方法,提高对数据的敏锐性
在大数据时代,实验研究者必须提高对大数据可用性、重要性的认识和敏锐性,在研究中,积极主动地通过国内外一些重要平台,如数据信息平台、商业数据库、学术数据库、共享文库、专业网站等,也可借助网络调查、计算机辅助调查(CAI)、电话输入数据搜集系统、新的纸张表格调查技术等数据搜集技术方法进行数据的搜集,了解、分析与实验研究相关、有价值的信息数据,协助本实验的研究。同时,在实验研究的过程中,针对实验所产生的数据,研究者应主动地保留储存,并运用适当的统计分析法进行分析,提高对数据的敏感性,及时捕获研究中所产生的重大价值信息。
另外,为提高实验室研究的效率,确保实验研究的实效性,研究者必须创新实验研究的方式和方法,转变观念,加强国内外的交流,在研究方法上与国际接轨,加大对大数据可用性评估和保证的关键技术的研究和开发,通过大数据技术把实验室外部的数据信息资源引进实验室研究中,注重对大数据的分析与挖掘,促使科研水平不断提高。
4.2 加强大数据人才的培养力度
据麦肯锡公司分析,在2018年大数据相关技术岗位人才需求将大幅增加,其中大数据决策分析师就有150万左右的需求,未来10年内,进美国就需求相关人才200~400万[8]。在国内,根据数联寻英发布的《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万,因此,人才培养已成为我国大数据产业发展的当务之急。首先针对实验室研究者,开设JAVA、python等编程语言基础,hadoop、spark开发等数据管理软件等课程,增强研究者对数据的敏锐性,提高其对数据的分析、处理能力,熟悉使用数据分析技术。其次,采取跨校联合培养等方式开展跨学科大数据综合型人才培养,促使高校开设大数据相关专业或设置大数据相关的课程,保证实验室研究中具备大数据技术的相关人才,以此推动实验室研究的发展。
4.3 加大实验室大数据的硬件、软件设施建设
大数据背景下,实验室的建设需要在学校实际科研需求及教学的需求下,通过大数据技术的支持,建立起具有可行性、扩展性和实用性的实验室[9]。在此背景下,实验室的建设需要包括数据存储系统、数据计算中心、数据终端以及可视化模块[10],数据存储和计算是实验室的核心部分,硬件设施大多选用HP、Dell及IBM等,常见的软件设施含有多种存储模型管理系统等,在建设的过程中,高校可积极借鉴国外先进实验室的经验,努力强化实验室软硬件建设,改善实验室研究环境。
4.4 建立大数据实验室
大数据实验室的建设不仅是为了满足学校教学和学科建设的需求,也更是对学校科研研究提供相应的支撑,不仅能给实验研究者带来大数据技术的魅力和广阔前景,使其掌握主流的大数据存储、管理、分析技术,更能够培养适应数据时代的创新人才,满足大数据技术人才的需求。
5 结论
大数据对实验室研究产生了重大影响,大数据能反映出实验室研究动态及各类数据信息内部深层次的规律,改变人的传统观念,也能更新研究者的思维局限,实现研究的同步創新及社会化,更能催生新的科技成果和加快科技产品的更新换代周期,大数据必能成为未来实验室研究的主流方式。为此,我们应该加大建设大数据实验室、大数据人才培养的力度,增强实验研究人员的大数据意识,抢占科技制高点,为我国科技的新一轮发展打下坚实的基础。
参考文献
[1] 李锋. 大数据在高校实验室管理中的作用[J]. 科学大众(科学教育), 2017(08): 178.
[2] 吴润强, 孙科学. 大数据及其在实验室管理中的应用[J]. 科技经济导刊, 2016(34): 243.
[3] 廖军, 张毅, 王成良, 等. 高校大数据实验室建设体系研究与分析[J]. 实验技术与管理, 2018, 35(11): 241-244.
[4] 贺宁, 汤明伟, 贺萌. 大数据课程在高职学院中的建设和发展[J]. 软件, 2015, 36(10): 50-52.
[5] 梁祥炎, 莫晓静. 大数据下的实验室研究[J]. 技术与市场, 2014, 21(07): 7-8+10.
[6] 贺威, 刘伟榕. 大数据时代的科研革新[J]. 未来与发展, 2014, 36(02): 2-5.
[7] 朱东华, 张嶷, 汪雪锋, 等. 大数据环境下技术创新管理方法研究[J]. 科学学与科学技术管理, 2013, 34(4): 172-180.
[8] HENKE N, BUGHIN J, CHUI M, et al. The Age of Ana-lytics; Competing in a Data-Driven World [EB/OL]. (2016-12).
[9] 黄叶超, 郑庚. 基于大数据技术实验室建设探索与研究[J]. 电子测试, 2017(24): 56+53.
[10] 徐炼, 王小强, 金美顺, 等. “伪基站”数据现场取证方法[J]. 中国人民公安大学学报(自然科学版), 2017, 23(03): 92-96.