韦二龙,刘 东,龙 恩,王永安
(1.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;2.北京遥感信息研究所,北京100192)
面向用户需求的遥感信息检索与推荐[1-2]是近年来研究的热点。目前对于空间数据推荐服务的研究重点考虑时间、空间、社交网络关系[3]和推荐数据类别等要素的影响,利用矩阵分解[4]、泊松系数模型和链接关系模型[5]等数学模型构建用户与数据的关联关系。在此基础上利用机器学习和统计方法,训练学习用户的偏好兴趣[6],实现主题信息检索[7]和用户推荐,该方法在推荐数据分布均匀和密集时效果较好,但对于稀疏性数据的解决方法[8-9]尚处于探索阶段。目前,广泛应用的开放平台,如天地图、百度地图和高德地图等都具备一定的空间信息检索能力[10-11],但产品订制和主动推荐能力不够,无法根据用户的特点进行定制化服务。本文对遥感信息如何实现精准主动服务进行了研究,采用主题模型构建用户画像,基于用户画像实现遥感信息的主动推荐,解决面向用户个性化需求的遥感信息精准推荐问题。
基于用户画像的遥感信息精准服务立足于用户画像构建技术,搜集整理用户需求和行为模式,采用主题模型构建用户画像[12],综合考虑用户的显性和隐性行为,结合应用需求和环境精准刻画用户画像[13-14]。利用知识网络动态汇聚各类遥感数据,精准匹配遥感信息产品与用户需求,从而实现遥感信息的主动推荐。
通过收集和分析用户显性和隐性反馈行为,在其上利用命名实体引导的主题模型构建技术,构建用户画像所需的主题空间。首先需要获取语料中与使用场景相关的命名实体,设计基于命名实体引导的文本主题建模技术,分析现有的相关主题模型在用户使用场景描述语料上的主题抽取性能,归纳当前技术的缺陷与短板,确定命名实体引导的主题模型的实现思路,如图1所示。
图1 实现思路Fig.1 Realization idea
用户画像是基于用户的显性和隐性反馈行为构建的,用户行为内容往往以短文本的形式呈现,因此,需要短文本特定的主题模型技术。同时,由于描述语料是以常规文本(即长文本)的形式存在,需要同时设计常规文本与短文本的命名实体主题建模技术。具体来说,设计了命名实体与场景语义2类主题。命名实体主题直接反映命名实体的语义信息;场景语义主题反映了使用场景非命名主题相关的语义信息。为了便于捕获命名实体间/命名实体组的语义联系,设定每个命名实体都有一个场景语义主题分布,便于计算命名实体之间的关联,或者是命名实体组所表达的语义信息。对于包含命名实体的短文本,调整该条文本的主题先验知识来匹配其包含的命名实体的主题分布情况。对于非文本的用户历史交互行为,将反馈行为描述作为用户产生的短文本一并处理。具体技术将采用调整先验知识与概率模型相结合的方式开展。
从主题模型推断的角度,采用吉布斯采样技术进行主题抽取与表示。设计的吉布斯采样如下:
基于上述公式,计算出用户的短文本主题分布,从而可以通过单词分布刻画用户行为与身份,达到用户画像的目标。
基于用户画像的遥感信息主动推荐方法设计思路如下:首先,建立满足用户真实偏好的理想解;然后,引入物元分析法来构造多属性决策物元矩阵,从而将待分发遥感信息的主动推荐问题转化为多属性决策问题;最后,设计关联函数定量计算待分发信息在各个元数据属性上对用户主题的满足程度,引入关联度、兴趣度、效用度等概念和算法,以实现基于用户主题画像的遥感信息的个性化、主动、智能推荐[15-16],具体流程如图2所示。
图2 推荐流程Fig.2 Recommendation process
(1)确定理想解
所谓理想解是指用户设定的最优解,所包含的各个属性值均为各项待分发信息中的最佳值。根据建立的用户主题模型可知,元素项区间变量在子区间上的分布特征值V越大,则该单位子区间的值越接近理想解,越符合用户的需求。因此,在n个元素项上都具有最大分布特征值的区间单元所组成的集合便构成理想解A*,结果如下:
A*={A1*,A2*,…,An*},
式中,Ai*为元素项xi理想解对应的区间单元的集合。
(2)构建关联函数
为了使评价结果更加准确,定义了关联函数来刻画在各个元素项上待分发遥感信息对用户兴趣的满足程度。针对遥感信息的覆盖特性,通过分析待分发信息与理想解之间的拓扑关系,建立待分发信息与用户兴趣主题之间的关联函数。同时,为了保证评价结果的准确性,考虑到用户主题模型各元素项含义不同且评定标准各异,通过关联函数分别对波谱范围、空间范围、时间范围及空间分辨率4类元素项的数据信息进行标准化处理,最终得到不同元素项的兴趣度与关联度。
(3)多属性决策支持的效用度计算
多属性决策是通过一定的函数关系,归纳、分析并整理一定数量的决策方案在有限的评价指标下的属性值,然后以此对各个决策方案进行排序与择优的过程。从决策理论的角度来看,效用度指待推选数据与理想解之间的相互贴近程度,效用度愈大则该方案愈接近理想值,愈能满足用户的兴趣需求。因此,可以通过计算效用度来定量评价待分发信息对用户兴趣的满足程度,备选方案Bi的效用度ui即为各个元素项关联度的加权和:
式中,zij表示第i个待选方案在元素项xj的关联度;wj代表元素项xj的权重。
基于用户画像的遥感信息精准服务系统采用B/S架构设计,配置软件环境如表 1所示。
表1 软件环境Tab.1 Software environment
模拟的用户兴趣特征图如图 3~图 6所示。
图3 空间兴趣分布Fig.3 Spatial interest distribution
图4 时间兴趣特征分布Fig.4 Temporal interest distribution
图5 波谱兴趣特征分布Fig.5 Spectral interest distribution
图6 分辨率兴趣特征分布Fig.6 Resolution interest feature distribution
以20条理想测试数据为例,其中前15条为从用户训练集中随机生成的数据,后5条为模拟的不在用户训练集中的数据,测试输出结果如表 2所示。
表2 推荐测试结果Tab.2 Recommendation test results
分别选取了4组训练数据集和测试数据集,对推荐方法进行测试。根据前文描述的随机生成的用户历史记录数据,生成用户偏好模型[17],构建训练数据集。测试数据集由部分训练数据和差异较大的遥感影像数据构建,分别对应推荐和不推荐的结果。测试数据数量及结果如表 3所示。
表3 测试数据数量及结果Tab.3 Quantity and results of test data
由表3可以看出,采用的推荐方法的准确率保持在90%以上。
本文提出基于主题的用户画像[18-19]构建技术,设计了基于用户画像的遥感信息主动推荐方法,利用已有的遥感产品历史相关资料并结合网络百科信息,精准匹配遥感信息产品与用户需求,实现遥感信息的精准推荐。开发实现了基于用户画像的遥感信息精准服务系统,对上述技术方法进行了实验验证。实验结果表明,技术途径合理可行,为实现遥感数据的主动精准推送提供了解决方案。