马 玲 叶 胜 张雪清
(1、深圳市易简空间技术有限公司,广东 深圳518000 2、重庆市地理信息和遥感应用中心,重庆400000 3、中冶赛迪重庆信息技术有限公司,重庆400000)
随着人类科学技术的快速发展,计算机和信息通讯技术的繁荣带来了各种以电子形式存储的数据量也呈指数式迅速增长,根据IDC(Internet Data Center)的统计,人类社会的数据量以每年50%的速度增长,每两年增长一倍多。所谓大数据,是指“用目前数据库管理和传统数据处理方法难以获取、管理和处理的巨大复杂的数据集合”。“大数据”是继“云计算”之后互联网时代掀起的又一个热潮。
人类信息技术的井喷式发展使得全球每18 个月新增的数据量是人类有史以来全部数据量的总和,到2020 年全球数据量将达到40ZB,并且这些数据中的95%是不精确的和非结构化的,同时具有典型的5V(Volume、Varity、Velocity、Veracity 和Value)特征,我们根据这些数据统称为“大数据”。地理学科所面对的是复杂的地球系统,因此地理信息是天然的大数据。上至卫星遥感对地观测数据、下至航空传感器数据、以及我们常见的统计、环境、土地等领域的数据都属于地理数据,因此地理信息技术数据源之多,数据量之大是不言而喻的。
大数据在一定程度上克服了传统地理数据时空属性缺失和不连续的不足,也为创新地理学研究的议题提供了机遇。大数据细化了时空尺度,人类活动的三维空间具有时空三维属性的变化,并且这种变化是每时每刻在发生的,意味着地理数据的细化是同步于时间发展的,因此移动的个体或群体所产生的地理信息位置和属性变化更为明显,地理大数据在这个尺度上促进了地理计算与城市计算和社会计算的交叉和融合,符合人文地理学“计量转向”与“社会转向”的发展规律。大数据提供的丰富且详细的信息,使得社会学家全面、精细化分析各类社会科学问题提供了契机,而社科学家在越来越多地理空间属性信息的支持下,研究结果也越加具有实证性。大数据对人文地理学的影响也是自然地理学的影响。在优化区域布局、防灾减灾、城市精细化管理、智慧城市等方面综合多维的国情地理数据影响甚大。这些大数据,对人文地理学研究内容与研究范式提供了巨大突破创新的机会。
地理学+大数据技术已经成为了地理空间分析的前沿,是当前地理学研究的重要新方向。美国NASA 已经利用地理大数据开展了气候变化的深入模式探究,结合GIS 研究建筑物的气候变化反应和规划,为全球数据应用提供了范式。
Anderson 在《Wired Magzine》的一篇评述中强调“大数据”可能带来理论的终结和传统科学方法的过时,因为仅仅依靠“大数据”就足以直观地了解所发生的各种现象,简单的数字就能表达一切。尽管这种言论有很多漏洞,但却引发了众多关于“大数据”在研究过程中所起作用的讨论。不可否认的是大数据作为一种新的技术为地理学研究提供了新的数据类型和新的研究范式,但需要深思的是需要回归到数据本身,数据本身不是知识,在大数据时代,科学研究也应该需要进行过滤和筛选,从众多的数字背后探究深入的社会机理和有效信息,而这个过程重点强调人的作用而不是数据本身的作用。
从数据知识以至经验的过程需要地理学者的挖掘和提炼,重点把握尺度效应,不应在大数据时代下忽视了小数据的价值,正如地理学尺度永远不能细化至极致,研究人员在收集数据时需要寻求合适的尺度,小空间的尺度数据有助于把握地理细节,对大数据分析下的时空趋势进行更好的辅政与说明。这一过程不仅需要地理大数据的空间可视化同时需要更深层次地挖掘现象背后的空间规律。
在大数据的冲击下,当今地理学学科内部出现了一种破碎化和离心化的趋势,正如有学者的批判:自然地理破碎化、人文地理经济化、地理信息科学信息技术化。传统地理学的“区域性”和“综合性”的传统学科特色与优势遭受挑战。地理学要“回归”到哪里?地理学有自己的共同体共识,第一是研究取向上对“地”的重视,第二是研究方式上对地的重视,即强调实地取证与调查,坚持一切从实际出发和唯物主义观点。目前在地理大数据的研究中和对大量数据操作的过分关注而忽略了典型代表的选择等,这样会导致出各种偏差。利用地理数据进行预测也需要进一步的理论支撑,因为大数据源于过去数据的积累,在未来与现在具有相似情景的条件下,则可通过算法预测未来。然而地表过程和人类社会过程是一个动态非线性的过程,一旦未来某段时间内的系统动力发生改变,那大数据对未来的预测也需要改变。
地理大数据狂热的背后依然摆脱不了多数成果探索性阶段的现实。例如谷歌流感趋势预测失效案例。与传统地理学注重野外实证和严谨科学验证数据相比,绝大多数的“大数据”是有偏数据,这些数据受环境和人群的影响和干扰较大。由于原始样本的偏差、预处理方法是否恰当等多方面因素,地理学者对收集来的大数据的质量无法进行系统性评估,大数据是一个新呈现出来的新鲜事物,研究案例可供借鉴研究的少之又少,条件也不够充足,所以研究问题片面不够具体,所以研究的结果大多数都不够足以让人信服,因此大数据驱动地理研究仍然需要更加严谨和鲁棒的算法。地理学者能够做的不应该是面对数据的狂欢,也不应该趋向于计算机科学对大数据技术算法的深化,而是应该扎根学科特色,回归人地关系主题,扎根现实、回归研究本质,冷静客观对地理大数据的使用条件进行科学的评估。同时地理学是一门实证主义较强的学科,在社会发达地区,地理大数据的丰富可以对地理环境进行表达,而对于自然区域,也存在数据盲区。在这个过程中,基于访谈、野外调查等途径获得的小数据的价值依然不可忽略。
新事物的产生总是具有强大的生命力,在以矛盾具有两面性的思想指导下地理学者不应该过分抬高大数据对地理学发展的作用,不能妄自菲薄,全盘否定传统地理科学的研究意义和研究方法。在新技术对传统学科的冲击中只有通过辩证法的思维看待问题,抓住问题的本质,方能发扬本学科特色。地理学的发展依靠数据,数据的垄断会产生“数据鸿沟”,对于地理学而言,数据是血液,只有与相应的社会部门或公司协商,或借助计算机科学的数据挖掘技术,才能多方面获取多尺度数据。在获取数据之后,在数据分析上依然不能固步自封,应认识到与其他学科分析方法上的一些差距,加强学科融合和学科交流合作,地理大数据的交叉学科特性也将成为未来地理学数据研究的新趋势。
首先值得深思的是地理大数据应回归到数据本身,地理学需要从众多的数字背后探究深入的社会机理和有效信息,而这个过程重点强调人的作用而不是数据本身的作用。同时地理学要回归到对“地”的重视,强调实地取证与调查,扎根现实、回归研究本质,冷静客观对地理大数据的使用条件进行科学的评估。最后面对大数据的冲击,传统地理学应认识到自身的缺陷,加强学科特色融合。在新时代背景下,地理学勿固步自封,积极面对机遇与挑战,融合交叉学科,回归人地关系主题,切实给人们带来更多的地理信息服务。