亓东霞++王馨++朱大铭++马琳++杨小龙
摘要:近年来,气象服务进入高速发展阶段,从提供简单的气象信息服务,逐步转变为产生经济效益的社会生产力,为人民生活趋利避害、防灾减灾和应对气候变化发挥着越来越重要的作用。技术的不断发展对气象服务技术也提出了更高的要求,大数据技术为提高气象服务速度和服务质量提供了技术手段,气象行业的大数据分析及应用也有了很大的进步。
关键词:气象行业;大数据;数据分析
中图分类号:TP393 文献标识码:A 文章編号:1007-9416(2017)10-0233-02
随着社会、经济和科技的发展,气象与国计民生的关系越来越密切,气象服务对经济建设、社会发展和人民生活的影响日益明显,气象工作也前所未有地受到全社会的关注。农业、交通业、建筑业、旅游业、销售业、保险业和电力行业等,都与天气变化息息相关。随着社会气象意识、气象观念的提升,气象服务也发挥着越来越重要的作用。
气象业务从最初的天气预报发展到现在气候预测、气候可行性论证、公共气象服务、专业专项气象服务、气象防灾减灾等,大数据技术也成为气象服务不断创新和完善的重要支撑。
1 大数据发展现状
大数据相关技术从国外开始率先研究,IBM、SAP等服务公司争相涌入大数据行业,技术平台提供者甲骨文、SAS、EMC、Google、亚马逊等都从中盈利[1]。国内大数据是用传统的IT技术、软硬件工具和数学分析方法,感知、获取、管理、处理和分析数据集合[2]。
2012年,美国提出“大数据研究和发展倡议”,积极推进大数据核心技术研究和应用。麻省理工大学等6所大学建立了大数据科学技术中心,英国牛津大学也成立了首个综合运用大数据的医药卫生科研中心[4]。
2012年,中国计算机学会和中国通信学会都成立了大数据专家委员会,专门研究大数据分析及应用,旨在推动我国大数据发展。
2013年,国家气象信息中心开始着手气象数据与云计算的研究探索。
2015年,国务院印发《促进大数据发展行动纲要》,全面推进我国大数据发展和应用,探索开展气象、交通、公安、安监、地震、测绘、旅游、农业等跨部门、跨地域数据融合和协同创新,加快建设数据强国。
2 大数据理论
大数据的定义不是一成不变的,而是呈现多样化发展的状态。广泛通用的定义是2011年国际数据中心IDC定义的大数据:“大数据技术描述了一个技术和体系的新时代,被设计用于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。这个定义刻画了大数据的4个显著特征,即体量(Volume)、多样性(Variety)、价值(Value)和速度(Velocity)。
Volume:数据体量大,一般在TB级及以上;
Variety:数据多源异构多样,包括传统的关系数据库存储类型的结构化数据和以文本、图像、视频、音频、e-mail、网页等形式存在的未加工、半结构化或非结构化数据;
Value:数据价值低,隐藏在海量数据中的有用信息所占比例较小。通过各种分析手段提取有用信息,提高数据质量及其价值;
Velocity:处理速度快,对海量数据实现近乎实时的分析处理。
大数据价值链可分为数据生成、数据获取、数据存储、数据分析等四个阶段[5]。
3 气象行业大数据
气象大数据是现有各种气象数据加上其他行业数据分析得出行业事件变化规律和对未来的一些预测,即要将多种跨行业跨领域的异构数据融合,并应用大数据分析方法确立一定的规则,对未来进行预测。气象大数据可分为“行业大数据”和“互联网大数据”两类。
气象行业大数据由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括:由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其它部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统如项目管理系统等所产生和管理的数据,各业务和管理系统的状态数据和日志数据等[6]。
本文主要讲述气象的行业大数据,是从气象服务的具体业务角度出发,将大数据分析应用分为数据整合、数据存储、数据计算、数据分析、可视化服务五个部分内容。
3.1 数据整合
数据整合采用消息队列、数据导入工具、数据抽取工具、数据复制工具等多种技术手段,实现结构化、非结构化、海量历史数据、准实时数据、地理空间等数据接入。
国家气象信息中心副总工程师沈文海说,在2014年整个中国气象局所保存的数据在4~5PB左右,每年大概增加数百TB。这些数据包含了地面观测、卫星、雷达和数据预报产品等观测数据。
其中,地面气象站观测所获取的数据是需要永久保存的,其使用率非常高,除了常规天气预报业务需要用到外,诸如气候预测、气象农业、环境气象、交通气象、电力气象以及科研等领域,都需要用到这些数据。目前,我国地面观测台站已达到约4万个,遍布我国各个地区。由于自动观测技术的发展以及地面自动气象站的推广普及,地面观测业务摆脱了人工观测居住环境的要求,观测站点可布设到许多环境十分严苛的地域,如:荒岛、沙漠、高原等。
以气象卫星和多普勒天气雷达为代表的遥感遥测业务领域近三十年来取得了飞速发展,这些领域一方面每天产生着数TB级的观测数据,另一方面也需要地面观测等实测数据作为其遥感数据的订正依据。
地面及高空观探测数据为结构化数据,气象卫星、天气雷达数据则为非结构化数据。以这些数据为主,构成了“气象大数据”。虽然“气象大数据”与目前业界公认的以“4V”为特征的大数据的存在一定差异,但数据量的巨大以及迅速膨胀的速度则是十年前完全无法想象的。
3.2 数据存储
数据存储是对各类接入数据按照统一数据规范按照标准化格式进行存储,依据应用需求存储在分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库,实现各类数据的集中存储与统一管理,满足大量、多样化数据的低成本存储需求。
数据存储管理使用基础数据管理、数据质量管理、数据流转监测、数据权限管理和数据运维辅助管理,管理内容如下:
(1)基础数据管理:提供对大数据元数据资源的统一管理,保证数据资源的标准化应用,为质量监测、流转监测提供基础数据。
(2)数据质量管理:提供业务明细数据、指标数据等多数据模型的数据质量分析和校核规则,持续提升数据质量。
(3)数据流转监测:从数据接入环节、抽取环节、业务处理环节对过程处理进行逐级监测、层层控制。
(4)数据权限管理:提供访问各类数据的授权功能,保证数据的安全及可靠性。
(5)数据运维辅助管理:提供数据日常管理和监控等辅助管理。
3.3 数据计算
气象大数据的数据计算采用流计算、内存计算、批量计算、查询计算等分布式计算技术,满足不同时效性的计算需求。
流计算支持实时处理,内存计算支持交互性分析,批量计算支持大批量数据的离线分析,查询计算支持类似SQL查询分析。
3.4 数据分析
气象大数据分析在融合传统数据挖掘算法的基础上,优化分布式挖掘算法,形成数据挖掘基础算法库,在此基础上,构建支撑气象行业大数据分析算法模型。
对于建模算法选择,主要依赖于所要解决的问题,即大数据分析应用的具体业务需求。对于预测类的问题,有回归和分类预测两种,算法可以选择决策树、逻辑回归、神经网络、机器深度学习应用等;对于描述类的问题,可以选择聚类分析、关联分析、最优化分析等。最后根据所选择的建模算法,通过分析建模工具建立模型。
4 总结和展望
目前,气象行业大数据分析及应用在跨行业数据融合分析有了很大的进步,但社会上大多数行业的大数据应用仍局限在行业数据自身价值的深度挖掘。跨行业数据壁垒是当前大数据应用推广的一个实实在在的障碍,建立一个行业间双方及多方的信息共享基础环境,进行跨行业跨领域的数据融合及深度分析,更大地实现气象行业大数据的价值,为社会创造更多的财富仍是未来一个技术探索领域。
參考文献
[1]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2012.
[2]李国杰,程学旗大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[3]高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015,38(3):1-12.
[4]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015,45(1):1-44.
[5]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报:自然科学版,2014,5:405-419.
[6]沈文海.再析气象大数据及其应用[J].中国信息化,2016,(1):85-96.