何骏
(江西省自然资源事业发展中心,江西南昌 330025)
测绘地理信息工作一直以来都是国民经济发展的基础,同时也是国防事业发展的基石。通过技术手段掌握地球关键点或相关面的坐标、高程、方向等信息,探究其间的相互关联关系并发现数据变化背后的规律性与科学性,基于这些数据信息开展科学研究与工业生产,尽最大化满足人们的使用需求并探索地球变化的奥秘,这是测绘地理信息的核心任务[1]。一般来说,测绘地理信息数据量大、需要具备相对较强的数据处理能力才能获得精准的信息可视化表征,从而实现对相关地域地理知识的有效掌握。传统上,对于地理测绘信息的分析采用的是变量解析的方法,主要依靠人工计算来完成,不仅工作量大、占用人力资源多,而且计算精度不高。近年来,随着信息技术的发展,尤其是大数据技术在信息技术发展中引领地位的确立,人们提出可以利用大数据技术进行测绘地理信息数据的自动处理与深度挖掘。
利用卫星对地球表面进行高空扫描、获得详细的遥感数据后传输至地面工作站进行分析与处理,是当前地理信息测绘技术的主要手段。遥感大数据是测绘地理信息数据中的主要存在方式。这类数据在获取的时候,由于地球表面环境的复杂性,必然存在无法进行归类与统一、相互之间缺乏联动、无法共享等问题[2]。具体来说,测绘地理信息遥感大数据由于获取方式的局限性,存在的特点如图1 所示。
由图1 可以看出,测绘地理信息大数据在获取方式、存储方式、共享方式、扩展方式、管理方式等方面都有不同于传统测绘信息数据的特点,因此基于这些数据信息进行地理环境分析时需要有针对性地采用改进后的方法。为了获得更加精确的测绘信息数据分析结果,本文提出了利用自动分析与数据挖掘技术处理大数据信息的方法。
图1 测绘地理信息大数据特征
随着测绘技术的发展,尤其是卫星遥感技术的提升,测绘信息不仅以文本的形式表现,更多的时候采用影像的形式表现[3]。针对文本与影像相互混杂的遥感数据信息,进行表达与特征分析时可以按照图2 所示的流程进行。
由图2 可以看出,遥感测绘数据信息进行表达与特征分析时,主要是对文本与图像信息的综合处理。这两类信息在获取之后需要进行特征联合分析与本征表示,通过特征融合与归一化表示获得有效的数据流形和相关节点信息。其中,数据信息的融合主要是采用数据变换的方式将不同源、不同分辨率的多元特征离散化后统一到同一个分区特征空间中,实现数据维数的降低并易于提取主要特征,为获得特征节点信息奠定基础。
图2 遥感测绘数据信息表达与特征分析方法流程
遥感大数据进行特征表达之后,需要进行存储与检索。数据存储一般采用自建数据库的方式进行,通过对数据特征进行编码并归类后进行存储,同时搭建专用网络用于链接不同数据库,方便不同数据库之间信息的调取。对于存储的信息,为了实现快速检索,需要对信息数据之间的相似性和互异性进行计算和表征。可以对数据设置标签,根据不同标签的内容计算数据与标签之间的相似度,对标签相似度计算结果设置一定的阈值范围,只有在阈值范围以内的数据才可以算作相互之间存在相似性,否则就是互异的。对数据的相似性和互异性进行表征之后,同一标签下属的数据都是相似的,不同标签之间的数据都是互异的,这样就实现了对数据的有效分类。在对数据进行有效分类之后,可以利用知识驱动的方法实现遥感大数据的快速检索。
具体来说,基于知识驱动方法的遥感大数据检索方法主要由图3 所示的关键环节组成。
图3 基于知识驱动的遥感大数据检索方法流程
由图3 可以看出,遥感大数据检测主要是通过建立检索服务链实现数据特征的自主学习,通过构建智能检索系统输出用户所需场景,利用知识更新做好检索系统的自学习,为下一次信息检索提供自主实现功能。对信息特征的处理可以利用标签相似度的方法实现,之后利用人工神经网络构建知识在线自主学习机制,通过对标签数据的反复训练实现底层特征与高层语义之间的高精度关联,最终使检索系统具有自主检索数据信息的能力,达到“智能检索”的目的。
传统上遥感大数据是基于“面向特征”的处理方式进行理解的,利用大数据分析技术可以实现“面向特征”到“面向对象”处理方式的转变,从而实现对对象层- 目标层的目标信息提取与识别。为了实现“面向对象”数据理解方式的转变,需要对特征-目标- 场景语义进行数学建模,解决语义信息与特征信息之间的鸿沟问题,通过输入多元特征信息获得遥感大数据场景多元认知信息,为数据挖掘做好准备。
数据挖掘是基于特征分析的进一步深化,通过对数据之间的相关性进行分析可以获得数据之间的规律变化,从而获得科学的决策信息。遥感数据挖掘可以采用图4 所示的流程实现。
由图4 可以看出,对数据信息挖掘之前需要进行分类与回归分析。当前,数据的分类与回归分析可以自己开发软件实现,也可以利用现有的软件进行,比如可以利用SPSS 软件实现,也可以利用成熟的聚类方法、统计分析方法、云理论方法等实现。
图4 测绘地理信息遥感大数据挖掘流程
对于采集到的某遥感图像,该图像中有山地、丘陵、湖泊、平原等四类地形特征。为了给地形特征进行自动标记与分类,首先对平面像素进行归一化,得到的数值如表1 所示。
表1 像素数据归一化结果
对于归一化得到的数值,经过与实际数据对比,可以建立如下归类关系:山地,数值≥1.0;丘陵,1.0>数值≥0.7;湖泊,0.7>数值≥0.4;平原,0.4>数值≥0。对于以上数据,为了判定属于某类数据,可以利用直接分类的方法一一进行判断;但是,当数据量比较大的时候,利用这种直接分类的方法必然会造成分类时间的增加,同时也会造成结果精度的下降,因此,可以采用K-means 算法进行自动分类。
K-means 算法计算步骤如下所示:
Step 1:计算样本数据与待分类数据之间的距离,一般采用欧氏距离表示,即
其中,(x,y)表示待分类点坐标值,(xi,yi)表示样本数据坐标值,di表示相互之间的距离。
Step 2:为待分类数据选择k 个与其距离最小的样本;
Step 3:统计出k 个样本中大多数样本所述的分类;
Step 4:依据统计结果确定待分类数据所属的类别。
按照以上步骤,对数据进行迭代计算,就可以获得理想的分类结果。
按照该方法对表1 中的数据进行分类,结果如表2 所示。
表2 像素数据分类结果
由表2 可以看出,利用K-means 算法计算得到的分类结果与直接分类方法的分类结果相一致,证明了这种分类方法的正确性,当数据量增大时可以直接进行运用。
测绘地理信息数据分析具有一定的难度,其分析结果直接影响着对地理信息的判断精度。本文基于大数据分析技术研究了测绘地理信息遥感数据的自动分析与数据挖掘方法,后续在进行工程化应用时可以根据数据类型进行改进,通过不断提升数据分类的准确度,拓展大数据分析技术在测绘地理信息系统开发中的应用空间。