梁玉荣
(济南市水文局,山东 济南 250014)
“大数据”是一个体量特别大,数据类别也同样大的数据集。并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。它的特点是:数据体量(volumes)大;数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富;数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理;数据真实性(Veracity)高,企业需要有效的信息之力以确保其真实性及安全性[1]。这种数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术可以分为:数据采集,数据存取,数据处理,统计分析,数据挖掘,模型预测以及最终的结果呈现。
GIS技术是指通过采集一定的信息,建构显示地理信息系统的计算机数据库。国家会通过GIS技术增强国民的安全感。而在大数据化时代,GIS技术的运用并没有削弱,反而随着信息化进程的加快,人们对于GIS技术的依赖性也随之加强。
水文GIS技术即将GIS技术运用到水文测绘当中,整合相关信息,并做出预测。主要的表现为:对于海量水文数据的管理,对于空间数据挖掘以及地理可视化。
水文数据原有的大规模、传输块、形态多样化的特点会随着GIS技术的数据管理存贮而带来改变,之前信息数据中的非结构化数据会大量的呈现在人们的视线当中。随着信息传输速度的加快,使用传统的数据库技术将无法适应社会的发展。NoSQL技术是水文GIS技术为了面临大数据的带来的挑战而开发的新型技术,它可以与关系数据库之间形成互补,并结合实际需求进行运用,共同发展。
空间数据挖掘的意义就在于挖掘深度的信息价值。数据信息挖掘其实就是运用数学分析方法,对数据的结构模式以及发展方向进行探究,在原有的数据基础上建构一个空间,然后通过空间模型,挖掘空间之中以及空间之外的信息。信息挖掘不只限于特定模式下的具体性核算,而更多的研究重点从之前复杂整合转换为抽取规则的方向,发现其中的普遍性规律,进行相关预测,为人们的生活带来更大的便利。
地理可视化同样也是水文GIS技术中的重要功能。数据信息进行可视化分析是非常先进的方式。全球顶级的GIS技术软件公司进行了“城市瞭望台”的项目研究。这个项目是通过当今世界现存的数据,建立具体化的信息模型,然后同步到世界城市信息的对比,比如交通、人口老龄化、就业趋势、医疗状况等等。综合之后,人们可以很好地了解自身的生存环境,对于出现的问题,积极采取措施予以解决。在大数据发展快速的时代下,水文GIS技术已经转变成为了一种可见的地理空间模型[2]。
频繁的信息,爆炸的数据,对于GIS数据的采集、管理以及空间数据分析带来了严峻的挑战。在数据采集方面,传统的方法是通过遥感、摄影测绘的相关测量手段进行采集,这种依赖于GPS等传感器的方法获取的数据信息有很高的精确度以及确定性,但是这种数据并不是滚动制的,而是一种静态化的数据形式。随着大数据时代的来临,GIS技术的数据结构比传统的数据信息都要复杂许多,因此对于数据采集方式提出了新的要求和新的标准。传统的数据采集方式已经不适应信息的多变需要、数据采集及时准确性要求,无法实现信息的完美对接和对数据的真实程度以及价值进行仔细的甄别。这种标准是任何的个体无法单独解决的,需要人类的集体智慧才能够予以解决。
对于大数据的管理,其实不在于规模的大小,而是要及时准确,注重信息的动态性和灵活多变的特点。传统的GIS技术是无法对大数据进行精确的描述。特别是对于这种含有大量非结构的数据,旧有的技术根本不具有处理这种信息的能力。随着时间的变化,大数据库中的信息也会越来越多,这种根据时间动态增加的数据,人们把它称之为流数据,具有无限性。水文观测数据就是典型流数据,因为信息的收集与时间变化息息相关。目前的GIS技术对于空间数据的管理依旧是停留在静态的数据采集模式上,需要做出相应的改变与创新。
空间数据分析是大数据运用中不可或缺的环节。但是当前的大数据库,很多并不是人们想要了解的信息。垃圾多、污染多、环节多是挖掘大数据价值不容忽视的问题,这些都会使数据丧失其准确性。因此,对传统的空间分析理论以及方法带来了严峻的挑战。如果无法保证数据信息的真实可靠,那么只能说明这种信息是无用的。传统的数据分析采用从样本本身进行推测,无法解决这种问题。因此,如何将传统数据分析方法与当代信息分析技术进行有机结合是当前水文GIS技术亟待解决的问题。
大数据对于人们影响的加深,在水文GIS技术运用上,需要采取相应的对策。下面从4个方面进行深入分析:
水文GIS技术的运用应当从自身的实际情况出发,制定相应的使用标准。一般而言,GIS的开发和运用大部分都是分开的。针对不同的具体需求,进行独立的技术开发。因此,从整体来看,我国并没有一套完整的技术规范系统以及应用标准。各种开放平台以及数据格式的复杂给我国信息的共享带来了巨大的阻力。虽然部分地方政府已经共享部分水文信息,但是仍然需要国家对这些信息进行统一处理。这样无论是对于地方的水资源监控,还是国家的水利工程建设都会起到巨大的促进作用。因此需要尽快完善GIS技术的应用标准。
其实在大数据来临之前,我国已经建立了相应的信息库。但是面对复杂的社会环境,传统的信息库已经无法适应人们的需求。因此,作为GIS系统关键的水资源地理空间数据库需要重新构建。随着人们对于GIS数据库要求越来越高,对于一些重要的水文信息数据库,比如旱情检测、水位线下降以及水质污染等方面,需要在极其规范的基础上进行高标准的建设。另外,数据库当中存有的信息应该及时更新,并且为决策者提供准确可靠的信息。
加强水文空间数据基础设施建设,将基础数据、管理数据、以及分析数据等等,实现资源信息之间的共享。我国的地理环境极其复杂,各种水文数据的覆盖面是相当巨大的,所以水文中的各种专业数据需要有关人员及时进行分类,然后输入数据库中记录。这些规模大的数据不仅为人们的管理带来诸多不便,并且由于管理主体的独立、结构不统一以及工作不协调等原因,严重的阻碍了数据的共享。
因此,利用大数据的优势,对传统的水文GIS系统实现转型升级,实现非结构化空间数据库的有效管理,建构三维一体的水文空间数据结构[3]非常必要。
水文数据分析关键在于解决好数据采集和模式分析过程中的计算问题。在现有信息技术以及组织体系的支持下,水文大数据分析应该根据实际应用的需求,进行相关处理。分布式的并行计算方式是解决这些问题的关键途径。大数据的规模化特点削弱了精确复杂模型在数据分析中的作用,使人们逐渐摆脱了对于模型设想的依赖。其实小数据的复杂算法并没有大数据的精简算法有效,人们需要及时有效的信息,即使复杂算法下的信息分析比简单算法方式更加精确,但是时效性才是人们最关键的需求。云计算方式是当前数据核算的发展方向,基于云计算的体系框架,利用大数据信息量大的特点,实现通过数据驱动的创新开发。并且深度挖掘潜在信息价值,提高人们的应变能力,这是大数据时代下衡量水文GIS技术是否“过硬”的关键。
信息技术在不断的改变人们的生活方式以及思维方式。在大数据时代,虽然我国的水文GIS系统较为成熟,但是面对日新月异的社会环境,在大数据面前依然存在许多的不足。数据的采集、分析、管理中的空间信息抽取、存贮以及动态更新,发展明显乏力。如何实现高效化的动态流数据管理,如何解决数据库中的“垃圾”信息,如何净化人们的数据储存库等一些问题都亟待人们研究解决。只有实现大数据时代下GIS技术的创新,我国的水文系统才会更加完善,国际地位也会显著提高。