何占军
中国地质大学(武汉)信息工程学院,湖北 武汉 430074
地理空间关联模式是地理要素关系的一种重要表现形式,也是地理空间数据挖掘的核心研究内容,对分析地理要素/地理事件的分布模式、影响因素及演化趋势等有着重要的指导意义。目前,地理空间关联模式挖掘算法尚未能充分考虑地理空间数据的特性,挖掘结果缺乏有效评价与筛选,从而影响了挖掘结果的可靠性与可解译性。本文充分考虑地理空间数据特征对挖掘结果的影响,综合利用空间分析、时空统计、空间数据挖掘等理论工具,深系统地研究地理空间关联模式的统计挖掘方法,主要研究工作及创新之处包括:
(1)深入探讨了地理空间关联模式挖掘的含义与特征,分析了地理空间认知理论、地理空间数据特征在地理空间数据挖掘中的重要作用,确立了地理空间关联模式挖掘结果的评价策略(即:显著性统计分析),并在此基础上构建了地理空间关联模式统计挖掘的基础性框架。
(2)针对空间同位模式挖掘算法未考虑空间自相关特征、算法参数缺乏先验等问题,提出了顾及空间自相关的空间同位模式统计挖掘方法。首先,通过空间特征组合的策略建立了空间点模式的非参数表达模型;进而,通过分析不同类型事件的空间分布特征,提出了一种邻近距离阈值的统计推断方法;在此基础上,基于空间模式重建与统计假设检验的理论方法,发展了空间同位模式的统计判别模型;最后,借鉴视觉感知领域模式稳定性分析理论,发展了一种空间同位模式多尺度挖掘结果的有效性评价指标。所提方法被应用于分析黑龙江洪河湿地区域的生物共生现象,试验结果表明,该方法不仅可以在多个分析尺度上发现物种间的共生模式,而且可以避免挖掘结果中的误判和漏判现象。
(3)针对时序事件模式挖掘过程中未考虑事件分布特征、挖掘结果一致性较差等问题,提出了融合时序数据异质性的事件模式统计挖掘方法。该方法综合考虑事件在全局与局部的分布差异特征,定义了一种密度比度量指标;在此基础上,发展了一种基于密度比指标的时序事件模式挖掘方法;进而,借助随机移位模式重建与统计假设检验理论,发展了时序事件模式的统计判别模型。最后,该方法应用于分析北京地区空气污染物浓度与气象因子间的关联关系,试验结果表明,与经典MOWCATL算法相比,本文方法可以有效发现数据中具有统计显著意义的时序事件模式,挖掘结果的一致性更好。
(4)针对现有时空关联模式挖掘方法难以用于分析时空连续变化的复杂地理事件,提出了复杂地理事件的时空关联模式统计挖掘方法。针对无固定形态、连续变化的复杂地理事件,采取层次化表达策略,提出了一种时空有向路径的动态地理事件表达模型;在此基础上,发展了一种时空扩散模式统计挖掘方法,用来刻画复杂地理现象的时空扩散变化特征;最后,借鉴本体概念模型,从动态变化视角出发,发展了一种融合本体模型的时空演变模式挖掘方法,用来探测地理现象变化背后的驱动因素。所提方法用于分析京津冀区域空气污染事件的动态变化规律,试验结果表明,该方法可以有效发现空气污染事件的扩散路径,有助于揭示空气污染物的主要来源。