倪金生, 刘翔, 杨劲林, 潘健, 苏晓玉
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中国地质大学(北京)土地科学技术学院,北京 100083)
多源动态异构空间标绘内容整合研究
倪金生1, 刘翔1, 杨劲林1, 潘健2, 苏晓玉1
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中国地质大学(北京)土地科学技术学院,北京 100083)
为使复杂的海量多源空间标绘内容规范化、标准化,确保标绘内容的正确性,亟需对空间标绘内容进行整合。针对多源异构空间标绘信息中存在的同标异物、异标同物等情况,分析不同应用类型标绘数据的自身特点,以最大限度地消除差异性为标准,采用粗糙集理论对信息进行分类,通过建立语义本体库进行源数据分析、提取和转换等工作,建立数据整合标准与质量控制体系,突破数据源之间标准的差异以及异常数据的限制,实现了多源标绘内容的自动/半自动整合。以全球地名数据为例,随机选取4组实验数据进行属性约简和规则提取,并对相关数据进行整合。实验结果表明,算法可行性强,数据整合流程具备高效性,能够应用于大数据集的分类。
多源动态异构; 标绘信息; 内容整合
随着计算机与网络通信技术的飞速发展,类似于Google Earth这类可以提供标绘平台的应用服务软件深受大众的欢迎。但是由于数以万千的用户在此类平台上进行标绘,标绘信息类型数据量大,结构复杂,现势性要求高,在一定程度上超出了人工分析的能力,因而会出现数据的不一致性以及对其准确性的质疑[1-2]。如何处理海量多种数据源的异构标绘信息,高效地去除同物异标、同标异物的内容,实现多尺度空间信息的整合,已成为当前标绘信息内容整合的研究热点和主要技术难点。为此,针对标绘信息的内容整合研究,寻求一种能够从繁杂的标绘信息中正确高效的去伪存真、去粗存精的技术势在必行。
多源动态异构空间标绘内容整合的核心是从杂乱无章的数据中提取出标绘信息,通过对数据自组织模型的构建,实现不同数据类型(文字、图像、声音、视频和三维模型等)的标绘信息按主题自动归类; 同时针对不同标绘情况(同标同物、异标异物、同物异标和同标异物等)的自身特点,进行源数据分析、提取和转换等工作,建立数据标绘信息整合标准与质量控制体系(容错率和正确率),突破数据源之间标准的差异以及异常数据控制,实现面向应用的多尺度空间信息整合,从而保证标绘信息的唯一性与正确性。
1.1 标绘信息主题类别
标绘信息主题类别是依据人们所关心的热点问题,参照目前国内网易、新浪和搜狐等门户网站的分类体系,采用以主题立类为主,以学科立类为辅的分类方式,进行标绘信息的主题划分,为后续杂乱无章的标绘信息自动分类提供依据。
参照中国网络信息分类[3]编制意见,将标绘信息主题划分为生活服务、经济、资源、社会文化、自然灾害、政法军事和社会安全等16大类139中类。
1.2 标绘信息自动分类
标绘信息自动分类采用粗糙集理论[4-6]。粗糙集理论是一种新的数学工具,可以分析和处理模糊和不确定性知识,它是基于对于论域中的每一个元素都能找到某些信息与之相关联的假定之上。
在论域U范围内,对于子集x∈U和等级关系R,可以根据R的上、下近似集的描述来划定集合,其中Φ 为空集[7-8]。定义如下:
1)x的R-下近似集为{x∈U: [x]R⊆X};
2)x的R+上近似集为{x∈U: [x]R∩X≠Φ};
3)x的正域为PosR(x)=R-x。
标绘信息自动分类算法是基于概率粗糙集,把正则条件熵作为评判属性重要程度的指标,进行属性简化,最后输出相应的标绘分类准则和置信度。
具体步骤如下: ①根据设置一定条件的属性把标绘信息样本数据分为一组等价类,即“X1,X2,...,Xn”,每个等价类是在一个所有条件属性上取值相同的样本集合。同样,我们也可以重新划分一组数据集合,即“Y1,Y2,...,Ym”,即一个类别对应一个等价类; ②分析Xi和Yj(1≤i≤n,1≤j≤m)的情况。如果Y的集合下近似集包含X的集合,则X是一条确定性的原则,那么可信度为100%。如果Y的集合上近似集包含X的集合,则X是一条非确定性规则,那么可信度等于Xi集合中属于Yj集合的百分比; 如果它们的交集是空的,则不产生相应规则; ③将带有标绘信息的样本数据进行归类; ④合并相关的规则[9]。其中,规则由X⟹Y可信度(confident)记为Pr(X∪Y)/Pr(X)=support(X∪Y)/support(X),表示包含X的集合,同时也有可能包含Y,记作con(X⟹Y)。
根据不同应用类型数据(文字、图像和声音)的自身特点,对源数据进行分析、提取和转换等工作,建立数据整合标准与质量控制体系(容错率和正确率),消除数据源之间标准的差异,实现面向应用的多尺度空间数据整合。
2.1 标绘内容差异性消除
为了实现多源动态异构空间数据的无缝整合,首先必须对获取的标绘内容进行加工与整理,争取能够消除标绘内容的大多数差异性,减少后期工作内容。
2.1.1 语义性差异
地理信息的多种类特点决定了其多语义性,对同一地理信息的语义也可有不同的理解,因而会造成语义分异问题(如“同标异物、同物异标”问题)。语义性差异的解决更多依赖于人工干预,通过建立数据的语义映射表来实现。如图1所示通过描述和规范河流的拓扑规则和地理关联,可以让不同部门、单位和个人之间进行语义共享[10]。
(a) 交通部门(b) 水利部门(c) 地理要素
图1 语义差异性消除实例
Fig.1 Semantic difference to eliminate
2.1.2 时空尺度差异
空间数据的尺度是由时间尺度和空间尺度构成的: 在时间尺度上,不同时间标绘的数据在名称与位置上均不相同; 在空间尺度上,不同用途、不同需求的标绘数据对地理信息描述的详实度也是不同的。对于这2种尺度差异的消除,采用的原则是: 用来整合的地理数据应该具有相同的空间尺度,时间尺度的差异则根据语义定义进行选择、过滤。
2.1.3 坐标体系差异
不同的部门标绘的数据根据各自的要求采用的坐标系不同,因此数据叠加时会带来偏差。由于坐标系采用的椭球基准不同或者投影方式不同而无法整合到一起,甚至在相同投影方式下坐标基准、中央子午线和分带方式等的不同也会造成坐标系之间存在很大的偏差。如果要把数据整合到一起,必须将不同坐标系的坐标通过坐标转换模型转换到同一椭球基准、投影方式和分带方式的坐标系中。
2.1.4 数据精度差异
由于数据采集的来源不同,在面积、边长和位置等方面存在差异。数据精度主要取决于图形标绘人员的经验水平和坐标数据的精确度,包括坐标点后的小数位数等。以WGS84坐标系为例,地球长半径为6 378 137 m,则仅在纬度方向上,1″对应的弧长就有几十m。所以,对于大地经纬度坐标,至少应精确至秒后的1位小数,最好保留2位小数。在数据精度与坐标体系和空间尺度差异同时存在时,通过坐标体系和空间尺度的差异性消除进行数据精度差异性的控制。
2.1.5 同名实体表达方式差异
使用不同的标识(点、线或面)对同一种地物要素(房屋、道路和湖泊等)进行表达将会产生差异。整合前用同一实体表示同一地物,通过空间拓扑关系检查进行差异性消除。
2.2 标绘内容整合
标绘内容整合主要包括: 通过建立语义本体库(建立规则),进行数据过滤,采用容错机制进行数据管理,最后利用拓扑关系整合进行数据位置的显示调整,具体流程如图2所示。
图2 标绘内容整合流程
2.2.1 语义本体库建立
通过对概念的严格定义和概念之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识,从而解决语义异构的问题。在建立语义本体库时根据建立的术语约束来建立本体中的类、属性和个体。
采用SWEET对地理信息及知识体系进行描述,采用ISO19115/ ISO19119标准规范分解元数据以及建立空间信息服务分类体系。SWEET定义了一个基础概念,该概念是关于地理信息科学,不同的地理信息在此基础上共享一个语义本体。该本体含有相当数量的术语以及与之相关的精准定义,同时对概念间的关系与联系做出精确描述。其中还有一些以OWL为主要表达形式的本体,不仅含有正交意义(物理量、时间、空间和地球领域等),而且集纳了相关知识概念(事件、现象等)。一般意义上,研究人员将SWEET设计为高级本体,允许创建地理信息各个相关领域的具体应用本体,以补充完善SWEET的内涵。因此,地理语义本体在被创建时,可以借鉴SWEET(图3)并进行一定程度的调整和扩充,这将减少构建具体应用本体的工作量,并降低出错的概率。
图3 SWEET本体及其关系
SWEET本体类结构(SWEET 1.1)在构建本体库的基础上,采用SWRL(semantic web rule language)语言来进行各术语间不同逻辑关系(包含关系、等价关系等)的描述,并建立语义映射表。
2.2.2 数据过滤
元数据的衡量准则是规则元数据,它的作用是判断元数据能否符合相关要求。质量控制的标准就是该数据文件对应的规则元数据,数据校验则包括对规则和规则元数据的校验。
2.2.3 容错管理
在数据整理中,并不是所有数据都满足规则的,需要在确保标绘内容完整性的条件下对不正确数据进行备份、消除等处理。因此有必要建立一个容错数据库,用来存储各种逻辑错误和格式错误,实现容错管理。具体原则如下:
1)根据数据类型确立容错规则。针对同一类数据,设立相同容错规则。例如国名的全称和简称之间建立相等的容错规则。
2)主要数据源优先原则。若2个或2个以上数据源就相同数据发生冲突时,采取主要数据源优先原则。例如税务数据来自于国家税务局和其他研究数据库,则以国家税务局为准。
3)接近数据真实性原则。对于来自不同数据源的同一数据项,当无法评定优先级别,且没有办法取得真实数据的情况下,求取平均数据以尽可能接近真实数据。建立容错规则可以在一定程度消除数据冲突,但没有办法完全消除。建议根据实际情况修改数据规则或进行其他处理。
4)空间拓扑关系整合。空间拓扑关系相当复杂,主要分点与点、线与线、面与面、点与线、线与面的相离关系、邻接关系、重合关系、包含关系和相交关系。多源空间数据的整合可能会导致空间关系不完全符合逻辑,比如房屋建到了马路上、铁路修到了城墙上等。必须检查和分析空间拓扑关系,寻找逻辑有问题的数据,进行纠偏,使数据在逻辑上保持相应的合理性。
基于数据获取的途径,动态异构空间标绘信息分别通过地图搜索引擎,人工标绘以及网络数据截取等方式获取。其中,地图搜索引擎通过收集互联网上众多的网页并对其中每个词进行索引,建立索引数据库的全文搜索引擎。利用地名自动识别及空间定位技术,将具有空间属性信息的网页依据标绘信息数据库组织规则自动入库。全球地名数据库(whole world geographic names database,WWGNames)即是通过地图搜索引擎获取的一种数据,该数据以点矢量形式存储,包括地名点名称(中文或英文)、别名(中文或英文)、经度、纬度、国家代码和行政区划编码等属性(图4)。
图4 数据表
表1 实验结果表
实验结果表明,联合粗糙集算法和数据整合,随着数据集的增加,运行时间也会随之增加。此实验结果符合时间复杂度分析,证实了粗糙集算法和数据整合的可行性和高效性,非常适合大数据集的分析与分类。
本文主要采用了粗糙集的分类方法,以正则条件熵为衡量属性的标准,以语义本体库为规则,进行数据的语义差别消除,有效地实现了多源异构空间标绘内容的分类。
通过建立语义本体库、数据整合标准与质量控制体系,开展了对文字、图像和声音等不同类型标绘信息的自动/半自动整合研究,并实现了面向应用的多尺度空间数据整合。研究表明,本文的空间信息整合方法耗时少,正确率高。
但是由于所建立的语义规则和整合标准不能涵盖全部数据类型,可能导致少部分样本记录无法正确整合,因此在这一方面还有待进一步研究完善。
[1] 陈静,龚健雅,向隆刚.全球多尺度空间数据模型研究[J].地理信息世界,2011(4):24-27,43. Chen J,Gong J Y,Xiang L G.Research on global multi-scales spatial data model[J].Geomatics World,2011(4):24-27,43.
[2] 谢远飞,刘洋,李海军.空间数据挖掘方法综述[J].全球定位系统,2010,35(5):65-68,75. Xie Y F,Liu Y,Li H J.Summarization of spatial data mining methods[J].GNSS World of China,2010,35(5):65-68,75.
[3] 吴礼志.《中国网络信息分类法》编制研究[D].武汉:武汉大学,2004. Wu L Z.Research on Establishing Chinese Network Information Classification[D].Wuhan:Wuhan University,2004.
[4] Pawlak Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
[5] 刘少辉,盛秋戬,吴斌,等.Rough集高效算法的研究[J].计算机学报,2003,26(5):524-529. Liu S H,Sheng Q J,Wu B,et al.Research on efficient algorithms for rough set methods[J].Chinese Journal of Computers,2003,26(5):524-529.
[6] 张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2001. Zhang W X,Wu W Z,Liang J Y,et al.Rough Set Theory and Method[M].Beijing:Science Press,2001.
[7] 林鹏,杨波.粗糙集理论与方法[M].北京:科学出版社,2002. Lin P,Yang B.Rough Set Theory and Method[M].Beijing:Science Press,2002.
[8] 王宏磊.基于粗糙集理论的自行炮营指挥系统效能分析[J].舰船电子工程,2011,31(3):45-47,55. Wang H L.Operational of self-propelled howitzer ability quantification analysis based on information system of rough fair theory[J].Ship Electronic Engineering,2011,31(3):45-47,55.
[9] 魏晓云.关联规则挖掘方法的应用研究[J].电脑与信息技术,2007,15(3):17-19,36. Wei X Y.Application of data mining in introducing talents[J].Computer and Information Technology,2007,15(3):17-19,36.
[10]陈常松,张传霞.GIS语义共享的实质及其实现途径[J].测绘科学,2000,25(1):29-33. Chen C S,Zhang C X.The essence of GIS semantics sharing and its realization[J].Science of Surveying and Mapping,2000,25(1):29-33.
(责任编辑: 陈理)
Research on content integration for multi-dynamic plotting information
NI Jinsheng1, LIU Xiang1, YANG Jinlin1, PAN Jian2, SU Xiaoyu1
(1.BeijingAerospaceTITANTechnologyCo.,Ltd.,Beijing100070,China; 2.SchoolofLandScienceandTechnology,ChinaUniversityofGeosciences(Beijing),Beijing100083,China)
In order to deal with the multi-source and multi-scale spatial data content integration and ensure the plotting correctness of the content, the authors have handled the multi-dynamic plotting information in which there exist such cases as the plotting marked with the same thing, different standards for foreign body, synonymous standard, and the same standard for the foreign body. The key problem is to analyze the characteristics of plotting information for themselves, perform source data analysis, extraction and conversion, and build data integration standards and quality control system. In addition, the authors have broken through the restriction that data are always from different sources or with outlines. As a result, the authors have achieved the application-oriented multi-scale spatial data integration.
multi-dynamic; plotting information; content integration
10.6046/gtzyyg.2017.01.31
倪金生,刘翔,杨劲林,等.多源动态异构空间标绘内容整合研究[J].国土资源遥感,2017,29(1):208-212.(Ni J S,Liu X,Yang J L,et al.Research on content integration for multi-dynamic plotting information[J].Remote Sensing for Land and Resources,2017,29(1):208-212.)
2015-09-17;
2016-01-08
国家863计划项目“星机地综合定量遥感系统与应用示范”(编号: 2013AA12A303)和 “全球海量空间信息更新关联与主动服务系统”(编号: 2013AA12A402)共同资助。
倪金生(1964-),男,博士,主要从事于遥感与地理信息系统方面的研究。Email: jasonni@apollotg.com。
TP 311
A
1001-070X(2017)01-0208-05