熊剑,李新广,王力斌
(1.武汉市勘察设计有限公司,湖北武汉 430022; 2.河南工业大学,河南郑州 450001)
空间数据智能分发的用户偏好模型研究
熊剑1∗,李新广2,王力斌1
(1.武汉市勘察设计有限公司,湖北武汉 430022; 2.河南工业大学,河南郑州 450001)
空间数据量的急速膨胀与其获取效率低下之间的矛盾日益突出。空间数据的智能分发是解决该问题的有效途径,用户偏好模型是空间数据智能分发研究的关键瓶颈。本文结合当前主流的空间信息元数据标准,提出一组能够反映空间数据特征和用户兴趣的核心元数据作为建模指标,并在此基础上给出空间数据的用户偏好模型的模型结构。
空间数据智能分发;用户偏好模型;空间元数据;建模指标
近年来,随着地球空间信息学[1]相关技术的快速发展,空间数据量急速膨胀,人们对空间信息的依赖程度不断加深。空间数据的海量特征与其获取效率低下之间的矛盾日益突出。空间数据的智能分发[2]是解决该问题的有效途径,用户偏好模型[3]的优劣是制约空间数据智能分发质量的关键因素。由于空间数据量大、结构复杂、分布式异构存储等特征,如何准确和高效地构建用户偏好模型是长期困扰空间数据智能分发研究的难题之一。本文结合当前主流的空间信息元数据标准,提出一组能够反映空间数据特征和用户兴趣的核心元数据作为建模指标[4],并在此基础上给出空间数据的用户偏好模型的模型结构,从而为空间数据的智能分发奠定基础。
空间元数据是关于空间数据或资源的标识、覆盖范围、质量、空间和时间模式、空间参考系等的信息[5],能够比较客观、全面地描述空间数据的各方面特征,是实现空间数据共享的基础。元数据标准一直是空间信息领域的研究热点,主流的空间元数据标准包括: CEN/TC 287的元数据标准[6]、FGDC的元数据标准[7]、ISO/TC211的元数据标准[5]等。
尽管各空间元数据标准定义了众多的元数据元素,以全面描述空间信息或数据,但在空间数据的分发过程中,用户能够涉及的检索点(检索元素)通常十分有限,且一般比较固定,元数据标准所描述的元数据项大多数并没有参与检索。据此,孙鹏选取主题、题名、地理覆盖范围、时间覆盖范围、日期、类型、格式标识符等10个具有普适性的元数据项作为核心检索元素,用以描述用户的检索兴趣点[8],如表1所示。
空间数据核心检索元素[8]表1
本文通过分析主流的空间元数据标准,结合现有的一些空间数据分发系统的研究成果,选取一组核心元数据,作为建模指标,以构建空间数据智能分发的用户偏好模型(如表2所示)。表2中,空间范围是一片沿经纬度方向均有一定连续范围的空间区域,它描述空间数据的覆盖范围。空间参考系与空间范围相对应,它描述空间数据的参考系,是对空间范围信息的补充。像元分辨率(比例尺)元素包括两种情况:对于遥感、摄影测量等影像数据,指像元分辨率;对于一般的测绘成果、数字化地图数据等,指地图比例尺。成果类型指数据的载体类型、表达形式、用途等的分类。时间元素主要指空间数据的生成时间。
空间数据的核心元素集 表2
空间数据的用户偏好模型描述用户的空间数据需求特征,是空间数据智能分发的依据。现有的相关研究[2,3,9]主要集中于空间范围、频谱范围等具有区域/区间特征的建模指标的表达,空间参考系、成果类型等指标并未得到充分研究,且模型的效果并不理想。本文采用表2的核心元素作为建模指标,并扩展以上文献的模型,扩展后的模型形式化表达如下:
(1)
其中,X={x1,…,xi,…,xs},W={w1,…,wi,…,ws},R={R1,…,Ri,…,Rs},V={V1,…,Vi,…,Vs}。xi依次为空间范围、比例尺(像元分辨率)范围、时间范围、空间参考系、成果类型等建模指标,s为建模指标的个数;wi为xi的权值,由用户的空间数据检索反馈次数确定;Ri为xi的分布范围和步长,根据建模指标的不同,其形式也不相同;Vi为反映xi分布特征的数值矩阵或向量,其形式和内容由用户对空间数据相应指标的检索反馈值决定。
图1 偏好模型树结构的实例
开放目录结构[10]是互联网上最大的人工编制的分类检索系统,它是由来自世界各地的众多志愿者共同维护与建设的最大的全球目录社区。基于开放目录结构的偏好语义模型[11]是用户偏好建模的一个研究热点,但该方法不适合空间数据的用户偏好建模。本文采用偏好语义模型的描述方法,给出空间数据的用户偏好模型树结构的定义如下:
[定义1]偏好模型为一棵倒立的树结构TP,每一棵树描述了一位用户的空间数据偏好特征。树结构包含五个一级子结点,分别代表空间范围、像元分辨率(比例尺)、时间、空间参考系、成果类型等指标的偏好模型分量。
[定义2]树中的每个非叶子子结点定义为node= {keyword,mark,children}。keyword为代表偏好模型分量的结点关键词,mark为关键词权重,children为子结点结构。
注:空间参考系的叶子结点指倒数第二层结点,底层结点为叶子结点的属性。nc.mark为相应叶子结点的权值,取值为1。
[定义4]用户描述文件FP是用户偏好模型TP 的XML表达。
图1是用户偏好模型树结构的一个实例。图中,用户偏好模型是一个树结构,由空间范围、空间尺度、时间、空间参考系、成果类型等模型分量组成,分别描述相应指标的用户需求。根据重要性的不同,各模型分量被赋予不同的权值。不同类型指标的取值单元也不相同,空间范围采用区域数,像元分辨率、低时效时间等采用区间数、空间参考系、成果类型等采用点值。
地球空间信息学相关技术的快速发展使得空间数据量急速膨胀,面对海量的空间数据我们显得无所适从。如何使用户能够准确、及时地获取所需的空间数据已成为空间信息领域亟待解决的迫切课题。空间数据的智能分发是解决该问题的有效途径,用户偏好模型的构建是制约空间数据智能分发质量的关键瓶颈。本文采用一组能够反映空间数据特征和用户兴趣点的核心元数据作为建模指标,提出了空间数据的用户偏好模型的建模方法。实验表明,采用本文方法所构建的用户偏好模型能够较为准确地描述用户的兴趣点,根据该用户模型分发的空间数据基本上满足用户的真实需求。
[1]李德仁.摄影测量与遥感学的发展展望[J].武汉大学学报·信息科学版,2008,33(12):1211~1215.
[2]夏宇,朱欣焰.利用区间分析的空间信息智能分发决策[J].武汉大学学报·信息科学版,2013,38(9):1103~1107.
[3]李新广,范明虎,杜武.面向空间信息智能分发的动态化用户偏好模型研究[J].测绘学报,2011,40(5):646~654.
[4]Hwang C,Yoon K.Multiple Attributes Decision Making:Methods and Applications[M].Berlin Heidelberg:Springer-Verlag,1981.
[5]ISO19115.Geographic Information-Metadata[S].2003.
[6]谭娜.基于XML的空间信息元数据管理系统[D].开封:河南大学,2004.
[7]蒋景瞳,刘若梅,贾云鹏.国际原数据标准的发展和研究现状[M].北京:科学出版社,1999.
[8]孙鹏.基于元数据映射的分布式空间数据检索方法及其应用[D].武汉:武汉大学,2009.
[9]Xinguang Li,Yang Liu,Yunhua Li,et al.Collaborative distribution of remote sensing data based on user profile similarity[C]. Proceedings of Ninth International Symposium on Multispectral Image Processing and Pattern Recognition,Enshi:SPIE,2015.
[10]臧铖.个性化搜索中隐私保护的关键问题研究[D].杭州:浙江大学,2008.
Research on User Profile Model of Spatial Data Intelligent Distribution
Xiong Jian1,Li Xinguang2,Wang Libin1
(1.Wuhan Geotechnical Engineering and Surveying Co.,Ltd.,Wuhan 430022,China;2.Henan University of Technology,Henan Zhengzhou 450001,China)
Contradiction between rapid expansion of space data and its acquisition inefficiency is increasingly prominent.Intelligent distribution of spatial data is an effective approach to solve the problem,and user profile model is the key bottleneck of study on intelligent distribution of spatial data.In this paper,combined with spatial information metadata standards in current mainstream,a group of core spatial metadata that can reflect the features of spatial data and user interest are put forward as decision indexes.And on this basis the model structure of user profile model of spatial data is given.
spatial data intelligent distribution;user profile model;spatial metadata;modeling index
1672-8262(2016)02-25-03中图分类号:P208.1
A
2016—01—19
熊剑(1978—),男,高级工程师,主要从事工程测量、GIS应用与研发、空间数据挖掘方面的工作。
河南省教育厅科技攻关项目(13A420174);河南工业大学博士基金项目(2012BS017)。