李文静
(中国地震局地壳应力研究所,北京100085)
(作者电子信箱,李文静:wenjing410@126.com)
“大数据”这个术语最早期的引用可追溯到Apache.org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌Map Reduce和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度[1]。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇[2]。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V 特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)[3-4]。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”[5]。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。大数据需要特殊的技术,以便在允许的时间内有效地处理大量的数据[6-7]。
从字面上看,某个单一的地震观测台站和大数据是没有关系的,而实际上,台站不仅需要大数据工程,而且是迫切需要大数据工程。
目前的野外观测台站向上级部门提供的就是仪器观测的时间序列数据,有些台站提供部分辅助的观测数据,如地震前兆观测台站还提供相应的气象要素观测结果等。然而这远远不够,完整的台站数据,即这里所说的大数据计划,应该包括如下内容:
(1)台站历史资料。包括选择在该台站设立相关观测项目的初衷,建台以来台站观测设备的更换,观测手段的增减。如果是人工读数观测,还应该提供相应读数人员的变化情况。
(2)台站场地环境资料。包括台站所处位置一定范围内的地貌情况,地下结构情况,周边环境变化,比如在可能影响数据变化的距离内修建水库、兴建大型建筑等。
(3)台站观测数据资料。除了目前常规的观测数据时间序列外,还应包括一个通用的数据说明,在其中标明数据文件格式、数据是什么(何种)设备产出的,中间经过了怎样的数据处理过程等。
(4)台站临时试验资料。为了项目研究或者其他工作的需要,对台站正在进行的观测项目开展的临时试验,例如改变观测井水温的探头深度或场地注水试验等,就需要将该段时间的数据进行特别标注;有些研究项目在台站临时架设观测设备的数据,台站需要保留下来,以便后续可能的应用分析;有些工程项目在台站所辖的一定范围内开挖探槽、打桩、放炮等,需要给台站备份该项目所获得的数据和分析结果。
(5)台站常规及常用的分析工具。主要是台站使用的数据处理软件、源程序等,包括台站人员自己研发的实用程序,以及应用台站数据开展分析工作的研究程序等。
(6)台站观测数据行业应用。台站不仅仅是产出数据的地方,还是最先处理数据并开展行业应用的地方。台站可以利用自己单一的台站或者综合临近数个台站的相关资料开展分析,并将结果汇总至上级部门。
(7)台站观测数据的应用效益。观测数据是用来被分析的,因此需要统计台站资料的应用情况,比如每年有多少篇文章、多少份报告中用到了台站数据,是用什么样的方法分析的台站数据,对数据观测提出了什么样的建议等。
台站大数据计划涵盖的内容很多,其意义和必要性主要体现在:
(1)从数据处理的工作量来看,采用并行计算的思想,将原来集中在一个国家数据中心或省数据中心,由数名人员分析全国或全省的数据,改变为由全国各个台站人员独立分析数据,将结果反馈到数据中心进行二次加工,从而大大减轻数据中心或分析预报中心的压力,提高工作效率。台站进行常规数据分析时,可以采用统一的软件和算法标准,或者根据已有经验确定固定的算法标准。同时,台站人员是对观测数据最熟悉,对当时一些可能的影响因素最了解,由他们开展数据分析工作,可以大大提高结论的可靠性。
(2)从数据的完备性来看,观测资料仅仅是一部分,观测资料的变化与观测设备的更新换代、观测场地环境的改造以及数据预处理方法的差异等都密切相关。数据分析结论的可靠性取决于数据的完备程度,如果仅仅从数据时间序列出发,分析得到的结论是不可靠的,甚至是错误的。而从台站长期的人员更换来看,一套完备的数据,可以让刚从事该项工作的人员更快地掌握工作技能,从而降低由于人员变更带来的数据变化风险。
(3)从台站管理的角度来看,完备的数据有益于上级部门对台站建设和运行维护做出正确的决策。比如,台站观测的数据是否达到了架设台站测项时的预期目标?台站数据是否有其存在的意义,是否存在一些台站数据长期没有被使用?通过对类似相关内容的分析,可以对当前台站布局、台站测项搭配、后续台站布局等提出合理的意见和建议,并做出适当调整。
(4)从人才培养和科学进步的角度看,由台站来建立一套完备的大数据,将改变观测、分析、研究相互脱节的现状。尽管现在有很多科研项目也开展野外观测,但这些观测的短处是显而易见的,比如是远程访问或定期下载观测数据,而不是现场观测等。同时,大数据计划也将会激励更多的高学历人才从事一线工作,有助于改善台站知识层次以及改变社会就业理念等,最终推动行业研究工作乃至科学研究的进步。
1983年,太阳电脑(Sun Microsystems)提出“网络是电脑”(“The Network is the Computer”),2006年3月,亚马逊(Amazon)推出弹性计算云(Elastic Compute Cloud,EC2)服务。2006年8 月9 日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次提出“云计算”(cloud computing)的概念。对云计算的定义有多种说法,目前广为接受的是中国云计算专家咨询委员会副主任、秘书长刘鹏教授和著云台团队给出的定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力”。云计算代表了以虚拟化技术为核心,以低成本为目标的动态可扩展网络应用基础设施,是近年来最有代表性的网络计算技术与模式。一般意义上的云计算提供基础设施即服 务(Infrastructure-as-a-Service,IaaS),平台即服务(Platform-as-a-Service,PaaS)和软件即服务(Software-as-a-Service,SaaS)这3个层次的服务功能。
台站的云计算计划和管理台站的上级部门或数据中心密切相关。因为它需要数据中心提供计算数据和计算软件,这正是台站的上级部门或数据中心所应该提供的云计算服务功能。台站不需要庞大的计算集群和高性能计算设备,只需根据自己的需要,从数据中心选择数据,并在计算平台上利用相应的计算软件或程序开展数据分析和研究。而这些研究成果将成为上级部门进一步分析时的重要参考。而上级部门或数据中心也将根据大部分台站的需求,提供相应的软件和算法,以进一步提高台站数据分析能力和可靠性。
台站大数据和云计算计划看起来是个非常庞大的课题,似乎难度很大,但仔细分析并非如此。因为它只是涉及工作的调整,特别是很多数据中心的工作被分流到一个个台站来完成。对数据中心而言,一般都有远程数据服务功能,现在只是把更多关于一个个台站的信息增加了进来,这需要对数据库进行扩展改造。对上级部门的数据分析专家而言,他们的工作中心应该是对数据的二次加工,以及在此基础上为台站提供更为成熟的或必要的计算软件。对台站而言,增加了很多原来没有的工作,但是保留了一套完整的台志,为后人留下可用的资料,提高了台站数据的应用效益,提高了台站人员的地位。对行业科学进步而言,它将会推进行业研究水平的提高。因此,这是一个可行的计划。
当然,在具体操作过程中,还是存在一些问题,特别是数据分析任务分流到台站,需要结合台站的具体情况,采取合适的步骤进行,否则分析中心可能得不到正确的结论。
[1]抚苏.众望所归,大数据时代来临.电脑报,2013-06-24(14):1-3
[2]任姝玮.大数据时代:新机会 新模式.浦东开发,2013(3):22-23
[3]赵三明.汽车后市场大数据时代已来临.中国工业报,(2014-02-14)[2014-04-15].http:∥www.cinn.cn/qc/309938.shtml
[4]维克托·迈尔-舍尔维恩,肯尼斯·库克耶.大数据时代.杭州:浙江人民出版社,2013
[5]邱雪涛,赵金涛.基于实时大数据处理的交易欺诈侦测的研究.软件产业与工程,2013,22(4):36-40
[6]王太师.大风起兮“云”飞扬.贵州日报,(2014-02-28)[2014-04-15].http:∥58.42.249.98/epaper/gzrb/Content/20140228/Articel01007WD.htm
[7]《财务与会计》编辑部.词条:大数据.财务与会计:理财版.2013(7):23