陆明
(天津智信慧通信息技术有限公司,天津 300456)
目前,国内外学术界对大数据的各种定义中,最具有代表性的是 3V、4V 的特征。李德仁和刘经南分别对大数据5V——Volume,Velocity,Variety,Veracity,Value 的特征进行同词异译的阐释[1]。时空大数据信息量庞大等特点,使其研究方式较传统的基于数学模型的研究手段有所不同,已故图灵奖得主吉姆·格雷将大数据研究从计算科学(第三范式)中剥离成为一种新的科研范式,即数据密集型科研“第四范式(the fourth paradigm)”。同样,王家耀认为“大数据”的出现为科学研究带来“第四范式”[2],为地理研究所面临的具有本质性的理论、技术和方法挑战带来新的可能,在大数据的推动下,时空大数据产业发生变化,或许会构成以时空大数据科学为中心的理论体系。虽说这样的结论有待进一步考证,但时空大数据已势不可当地运用于地理学、社会学、生物学等诸多领域,对各学科传统研究方式、理论和尺度产生冲击。
“大数据”并不单指一项具体的技术或是一类产品,当前信息技术是一个比较抽象的概念,有着很大的发展趋势。这个概念之所以被称作“大数据”原因在于这种概念的表现形式与我们常见的传统数据有根本上的不同,“大数据”所包含的数据量更加庞大、数据的种类纷繁复杂、可以使用多种途径获得数据、没有明确的结构、传播的速度更快。在大数据时代之下互联网开始与各行各业进行融合并朝着深度融合的方向发展,各行各业都在实践中探索与互联网大数据进行契合的切入点,以推动行业的发展与创新[1]。对于测绘信息部门来说,大数据时代的意义在于机遇与挑战,主要的原因就是现代地理信息产业将在未来地理信息系统当中创建出更多的大数据,而大数据也将帮助地理信息产业实现更好的发展,也就是说两者属于协同发展的情况,因此要求未来大数据时代下我国地理信息部门以及相关行业在新一轮的变革机遇影响下,需要更好的对大数据技术来进行考核,发现其中带来的更大商机。未来企业需要结合大数据时代下社会各行业对工作业务流程的实际需求,从而更好的帮助地理信息相关企业实现全新的业务转型,帮助我国地理信息产业能够适应时代的发展需求。
首先在未来发展的过程中,地理空间数据量将会进一步的提升与增加,并且提升的速度将会达到非常迅猛的状态,几乎能够达到指数级增长。同时在发展的过程中地理空间数据相关问题也显现出来,因此需要对大数据的存储问题进行研究,而这正是未来地理信息系统发展过程中的主要研究内容,站在这一角度上来看,未来大数据的出现需要帮助地理信息系统解决更多的大数据储存问题,同时大数据还需要关注自身如何将地理信息系统数据实现共享。又如何才能够保护大数据分享下的文件?对于一些大量的重复数据又该怎么处理? 这些都是需要面对的关键问题。
在实际处理与使用的过程中,传统数据处理方式很难控制这些数量极大的数据。在这种情况的影响下,未来如何能够提升大数据量计算的能力,提升数据的实时更新率、迎合广大用户应用需求等等,这些都是需要进行处理与管理的问题。未来这一系列的问题和挑战在大数据时代下将会发挥出更大的影响,因此也需要更多的高度重视。
在当今科学技术快速发展的今天,计算机技术得到了快速的发展,使得硬盘的成本进一步下降,这导致数据的储存技术成本也随之下降。未来大数据量数据的储存更加容易,甚至当下个人电脑的数据存储量也能够达到1TB左右,单个磁盘阵列服务器的容量能够达到30TB,这代表着我国大数据技术和数据存储技术的快速发展和进步。然而在客观世界不断变化的过程中,地理信息系统需要在更多的方面进行应用,其中包括有应急保障、实时导航、分析决策等等方面,这在一定的程度上要求能够提升数据的存储效率。一旦无法提升这方面的能力,那么将会导致整个地理信息系统的性能受到一定的影响,进而导致地理信息系统无法发挥出应有的作用。因此,在大数据时代下,未来发展的过程中地理信息系统需要具备有高效的数据存储能力。
地理信息数据的来源非常丰富,因此种类也十分的多样,对于一些较少的数据或者说在其他领域应用的数据,大数据时代下地理信息系统需要对其进行数据规范化。一般来说数据规范化的主要方式就是使用数据转换、人工整理等等一系列的途径,主要的目的在于保证数据结构的统一。在未来发展的过程中,一旦出现多种类型的数据,就会导致发展过程中产生的数据与传统数据出现存储要求的不符合,而这对于大数据地理信息系统来说将会造成较为严重的影响,想要解决这一问题就需要使用原始的非结构性数据来进行存储。或者说地理新系统的特殊性决定了需要对不同来源的数据进行储存,因此要求数据库必须要能够支持多种类型的数据进行共同存储。
大数据时期的来临,要求地理信息系统能够有全新的发展方向,而现如今地理信息系统当中蕴含的数据正在飞速上涨,这代表着未来需要转换管理方式。如果说依旧使用传统方式来管理数据,那么就需要将数据库的存储来进行扩展和审计。现如今发展的过程中,使用次数较多的数据库格式就是关系型数据库,这种数据库需要进行升级与加强,从而更好的帮助这类型数据库在今后使用的过程中进行分割与非规划扩展。一般情况下,数据想要进行升级处理,就需要将数据库中的内容进行区分,而这往往会耗费大量的资源。除此之外升级时由于服务器的自身状态,很多时候无法对性能和容量产生非常大的提升。同时数据库进行分割之后对于一些非结构化数据的储存可以说非常不适合,然而地理信息系统当中又拥有着非常多的非结构化数据,这导致程序以及模型的独立性受到了严重的破坏。针对于这种情况如果使用非规范化的处理,不仅仅会增加大量的冗余,同时也会导致数据一致性维护难度大大提升。由此来看,未来发展的过程中需要将地理信息数据系统数据库进行扩展,保证其拥有非常良好的可伸缩性和可扩展性。
地理信息系统在实际发展的过程中,对于数据的快速处理有着非常大的作用,总的来说就是数据储存技术当中包括了对数据的各项处理工作以及技术。在数据库当中可以将数据存储为BSON 格式,能够更好的省略数据传输过程中的各项工作以及过程,从而搭建出具有更好空间索引水平的数据库。这种方式的主要目的就是为了在最大程度上提升数据查询和访问的效率。
总而言之,未来大数据在地理信息系统当中的应用有着非常重要的意义。在大数据时代下,未来各项技术得到了全新的发展,而这些技术对于地理信息系统的进一步发展与提升有着非常重要的意义,其中包括物联网技术和云计算技术等等。在这一基础上,大数据技术的出现能够推动我国地理信息系统格局的进一步创新与发展。为了保证大数据技术能够在地理信息系统当中的应用实现更加广泛的提升,地理信息部门以及相关企业都需要更加重视大数据技术的发展,通过不断推动地理信息系统的发展,从而挖掘出大数据技术带来的好处。