尚志鸣 文高进 李辰 王洪民
(北京空间机电研究所,北京 100094)
数据挖掘是在“数据中挖掘知识”[1],从海量的数据里提取出有用的信息和知识,并利用这些知识进行预测和决策,找出隐藏在数据中不能靠直觉发现的规则、模式、规律[2]。关联规则挖掘是数据挖掘的主要任务之一,它寻找数据项之间的关联与派生关系,反映一个事务与其他事务之间存在的依赖或者关联的知识。
光学对地遥感观测载荷任务复杂、探测对象多样、参数众多[3-4]。面向任务的载荷设计具备多目标、多变量、多约束的特点。传统上,载荷技术指标的选择与设计决策由专家在先验知识支撑下,针对遥感应用目标开展需求分析、仿真计算[5],并借鉴参考其他先进遥感载荷确定。然而遥感应用目标多样,监测机理各不相同,分析仿真过程非常复杂,借鉴参考对象的选择也具有一定的主观性,对设计人员的技术水平与知识储备有很高的要求[6-10]。
随着空间光学遥感载荷技术的快速发展,积累了丰富的技术指标参数与载荷应用方向数据。在此基础上,针对遥感任务多目标与遥感技术参数多约束导致的面向遥感应用方向的指标设计难题,从数据自身出发,开展空间光学遥感器应用方向与技术指标参数间的关联规则挖掘,寻找遥感应用方向与遥感载荷技术指标间潜在的且具有规律性的依赖或派生关系。由此,全面、充分地利用既往光学遥感载荷设计经验,将借鉴参考其他遥感载荷的过程客观化、定量化,实现面向遥感任务的指标自动推荐,为空间光学遥感载荷的指标设计提供一种新的视角。
关联规则挖掘的主要任务是探索事物间的关联模式,其最著名的应用是对超市“购物篮”分析,探索客户购买行为模式,在商业与科学领域获得了广泛应用[11-16]。
其内涵如下:假定与分析任务相关的事务数据库D为事务T的集合,即D={T1,T2,…,Tn};事务T则为项i集合的子集,即T⊆{i1,i2,…,in}。设A、B分别为一个项集,且为某事务T的子集,互相无交叉项目,即A⊂T,B⊂T,且A∩B=φ,则A⇒B构成一个关联规则,其中A为输入参数,B为由参数A确定的结果,规则表示由输入的前因A导致结果B的派生关系。满足给定的评价指标,足够可信的关联规则A⇒B,被称为强关联规则。
面向遥感应用的遥感器技术指标推荐,其本质是根据输入的遥感应用方向,确定和预测应该设计和选用的技术指标,这与关联规则的形式一致。因此,将遥感应用方向作为A,遥感器技术指标参数作为B,挖掘它们间的强关联规则A⇒B。其挖掘成果就是针对不同遥感应用方向的遥感器技术指标推荐成果。
Agrawal等提出的Apriori算法[17-18]是应用最为广泛的关联规则挖掘算法,在挖掘和识别关联规则的工作中具有很大的影响力[19]。
Apriori算法首先在目标事务库D中检索出现频率高于设定阈值的频繁项集;再在得到的频繁项集中寻找满足要求的关联规则。其频繁项集检索采用逐层、迭代的搜索方式,从低阶频繁项集到高阶频繁项集逐步搜索,并利用频繁项目集的任一子集全部为频繁项目集的特性,对候选集进行剪枝,提升了计算效率。
具体步骤[20]包括:1)遍历目标事务库D,找出其中 1阶频繁项集L1;2)将k-1阶频繁项集Lk-1(k≥2)采用自身连接生成k阶候选项目集Gk;3)对k阶候选项目集Gk进行剪枝,假设Gk-1是Gk的任意一个k-1阶子集,若Gk∉Lk-1,则Gk∉Lk,即候选集Gk肯定不是频繁集,将其从候选集中删除;4)循环执行步骤 2)、步骤 3),直至不能得到更高阶的频繁项目集。最后选用关联规则筛选指标从频繁项集L中提取满足条件的关联规则,挖掘过程结束。
使用支持度、置信度、提升度[21-22]作为关联规则的评价指标。支持度用于决策项集是否频繁,置信度、提升度则用于从频繁项集中提取足够可信的规则。同时满足事先设定的最小支持度、最小置信度、最小提升度阈值的规则就是可信的强关联规则。
1)支持度s,描述同时包含A和B的事务在事务数据库D的所有事务中所占的比例,即
其中P表示概率。支持度说明了规则在整个数据库中出现的频繁程度,如频繁程度过低,则表明这条规则受数据采样等偶然因素影响较大,并不具备实际价值。
2)置信度c,表示当A发生时,B发生的条件概率,即
它等于同时包含A和B的事务在所有包含A的事务中所占的比例,即
置信度代表了规则(出现A则应该出现B)的可信程度。
3)提升度l,表示同时包含A和B的事务在所有包含A的事务中所占的比例与包含B的事务的比例的比值,即
由于遥感应用方向与载荷参数间多目标、多约束的关系,单台载荷往往既可同时服务多个遥感应用方向,又具备多种遥感设计参数。这些参数与应用方向出现于同一个载荷,容易计算出较高的置信度,但是它们事实上并非全部正向相关,单纯使用置信度指标会导致错误的结论。因此引入提升度指标判定强关联规则。
提升度没有单位,其意义在于,描述了事件A发生,对B出现的概率有什么样的影响,如果提升度l=1,那么说明事件A和事件B没有关联;如果l<1,说明事件A和事件B是互斥的;如果l>1,则代表事件A和事件B是有关联的。本文使用提升度l>3作为强关联规则的筛选条件。
以谱段参数设计为例,研究面向遥感应用的空间光学遥感载荷技术指标关联规则挖掘方法,实现面向具体遥感应用方向的技术指标自动推荐功能。
以单个光学遥感载荷为单元,合并其光学遥感载荷的光谱参数与应用方向数据,作为一条事务。设事务数据库D中载荷数量为N,则事务数据库D由各个载荷对应的事务Ti(i=1,2,…,N)组成。
单条遥感载荷事务T为同时包含多个遥感应用方向与多个谱段参数的多维数据集。其中每一个遥感应用方向或谱段参数,均应作为一个项目ik。如某载荷有3个光谱,同时可应用于2个应用方向,则以该载荷可形成1条事务,Ti= {is1,is2,is3,im1,im2}。因为每个载荷所具有的谱段数量与应用方向数量并不相同,所以在事务数据库D中,每条事务的长度也并不一致。
按照上述方式,搜集国内外空间光学遥感载荷谱段设计参数与遥感应用方向数据。涉及的光学遥感载荷涵盖全色、多光谱、高光谱、红外等多个类别,共计588种。其光谱参数与应用方向数据来自世界气象组织OSCAR网站与eoportal网站公开数据[23-24],其中光谱参数包含各载荷谱段中心波长;遥感应用方向涵盖大气、陆地、海洋等遥感应用领域,细分至如植被指数、土地利用、海洋叶绿素含量等具体监测目标。将每条载荷数据转化为单条事务Ti(i=1,2,…,N),由所有事务构成事务集D={T1,T2,…,Tn}。
事务数据库具体形式如表1所示,可见数据库由N条事物组成,每条事物则包含某载荷的谱段中心波长与应用方向信息。
表1 事务数据库示例Tab.1 An example of the transaction database
依据关联规则筛选指标,设定最小支持度为5%、最小置信度为50%、最小提升度为3。采用Apriori关联分析算法对事务数据库D={T1,T2,…,TN}开展挖掘,获取其频繁项目集与强关联规则。
Apriori算法将所有满足关联规则筛选指标的规则视为强关联并提取出来。然而,并非所有的强关联规则都有意义。本文在Apriori算法的基础上,对强关联规则提取成果进行两点优化:
1)在获取的全部关联规则中,仅选取载荷应用方向与其光谱参数之间的关联规则进行分析。其中,重点提取由遥感应用方向得出光谱参数的关联规则,即面向某具体遥感应用方向,可以推荐选用的谱段设计;其次提取由光谱参数得出遥感应用的规则,即如果光学遥感载荷具有某些谱段,则可以推断其应用于哪些遥感任务。
2)较低维关联规则是较高维关联规则总的概括,较高维是较低维的深入[25]。在低维强关联规则基础上增加条件得到的高维度规则,随着维度的提升,其置信度会逐渐增高,但更高的维度意味着得出结论的条件更为苛刻,规则的实际应用价值下降。因此将提取强关联规则的维度限制在五维以下。同时,针对100%置信度的关联规则,不再寻求更高维度的规则。
对光学遥感载荷事务数据库中的588种空间光学遥感载荷事务数据进行关联规则挖掘,得到满足设定的最小置信度、最小支持度、最小提升度阈值的强关联规则,并对挖掘成果进行优化。
最终得到由遥感应用方向确定光谱参数的强关联规则8 243条,其中二维规则15条,三维规则304条,四维规则1 827条,五维规则6 097条。依据各个规则对应的不同遥感应用方向,将其划分为大气、海洋、陆地与交叉应用共计四个应用类别。
由于挖掘到的关联规则较多,难以全部显示。针对二维关联规则与三维关联规则,仅选取各个应用类别中支持度最高的强关联规则,以及与该规则拥有同样遥感应用方向的强关联规则展示。
二维关联规则如表2所示。其中强关联规则列中,符号“⇒”左侧为遥感应用方向,右侧为推荐谱段的中心波长。根据提取的强关联规则,输入具体遥感应用方向后即可确定谱段中心波长参数结果。
表2 二维关联规则举例Tab.2 An example of two dimension association rules
三维关联规则如表3所示。其中逻辑符号“∧”是“合取”,代表“并且”关系。当“∧”连接的遥感应用方向被同时输入时,可以确定符号“⇒”右侧的谱段中心波长参数。
表3 三维关联规则举例Tab.3 An example of three-dimensional association rules
随着新遥感应用方向的加入,规则的维度提升,其置信度也相应提升,符合条件的规则数目相应增加。为在有限的篇幅中尽量丰富的展示挖掘到的关联规则面貌,针对四维关联规则与五维度关联规则,仅列举与二维、三维规则差异较大的规则样本。
四维及五维关联规则如表4所示。
表4 四维及五维关联规则举例Tab.4 Examples of four and five dimension association rules
同时,提取了189条由光谱指标确定遥感应用方向的强关联规则,其中二维关联规则63条,三维关联规则123条,部分规则如表5所示。
表5 由光谱指标推导遥感应用的关联规则举例Tab.5 Examples of deriving association rules for remote sensing application from spectral index
挖掘到的关联规则分为由遥感应用方向确定光谱参数的关联规则与由光谱参数确定其遥感应用方向的关联规则两类。
1)由遥感应用方向A确定光谱参数B或参数集Bi(i=1,2,…,M)(M为光谱指标参数集的维度)的规则,如置信度c、支持度s、提升度l满足算法阈值要求,代表设计面向遥感应用方向A的空间光学载荷时,推荐使用Bi(i=1,2,…,M)指标参数集。以表 3为例,设计面向海洋叶绿素浓度反演的遥感载荷,推荐使用中心波长为 490nm,412nm与 443nm的光谱谱段进行观测,推荐的置信度均达到了70%以上,这一结论与先验知识相符合[26]。
由表2~3可以发现,设计面向海洋叶绿素浓度、海洋有机物、海洋扩散衰减系数等多个海洋遥感应用方向的遥感载荷时,均推荐使用中心波长为412nm,443nm,490nm的光谱谱段,具有较高的置信度与提升度。这意味着在海洋遥感领域,国内外空间光学载荷研制机构的谱段选择较为一致,在今后的海洋水色遥感载荷研制中可以参考。
由表2~4可以发现,在二维、三维关联规则中,有较多的独立应用类别对应特定谱段的规则,而随着维度增长,规则所属的应用类别出现交叉。这意味着空间光学遥感载荷可以突破其原有应用类别限制,在更广泛的遥感任务中发挥作用,譬如针对火灾监测,可以通过关联分析搜索所有具备火灾监测能力的遥感谱段,再统筹调度包含该谱段的各领域空间遥感载荷投入监测,从而提升遥感载荷的复用程度,提升空间遥感应急反应能力。
2)由光谱技术指标B(或指标集Bi(i=1,2,…,M))确定遥感应用方向A的关联规则,置信度c、支持度s、提升度l满足算法阈值要求,代表具备技术指标Bi(i=1,2,…,M)的遥感载荷,可服务于遥感应用方向A。如表5所示,如遥感载荷具有10 800nm和12 000nm谱段,则可知其有100%的置信度可服务于综合水汽含量、云顶高度、云顶温度监测等遥感应用方向。这样,对某型空间光学载荷,可以通过它的谱段设计,推断其有潜力的应用方向。
文章以面向遥感应用的光谱谱段参数自动推荐为例,提出了基于关联分析的空间光学遥感器指标自动推荐方法。方法针对遥感载荷技术指标与遥感应用方向数据的特点,构建空间光学遥感载荷事务数据库,应用Apriori算法进行关联规则挖掘,确定所挖掘规则的评价筛选指标,并对挖掘到的规则结果优化。最终得到了一批遥感应用方向与光谱谱段参数间有意义的规则,并加以分析。
在相应数据支持下,方法也可挖掘遥感应用方向与载荷其他技术指标(如辐射分辨率等)间的关联关系,为面向遥感任务的遥感载荷指标设计这一多目标、多约束问题提供一种新的解决思路。与传统依赖专家知识的设计方法相比,该方法没有明晰的物理推导过程,但却具备定量化的可信度评价机制,其研究成果可为遥感载荷指标体系设计提供有益的参考。