詹长根,涂李蕾,严 盼,吴 艺
(1.武汉大学 资源与环境科学学院,湖北 武汉430079)
地籍数据库优化集成研究
詹长根1,涂李蕾1,严 盼1,吴 艺1
(1.武汉大学 资源与环境科学学院,湖北 武汉430079)
针对我国现行地籍数据库中存在的数据杂糅、组织异构、冗余量大等不足,将ISO/TC211土地管理域模型(LADM)拓展为适合我国国情的人-地关系模型。利用该模型对地籍数据组织结构进行优化集成,消除数据库中存在的数据冗余与异构,以构建通用一体化地籍数据库。
地籍数据库;集成优化设计;人-地关系模型;数据组织结构
2007年,我国正式发布了2个地籍数据库标准,即《土地利用数据库标准》(TD/T 1016-2007)[1]和《城镇地籍数据库标准》(TD/T 1015-2007)[2],分别用于2008年开始的农村土地调查和城镇土地调查数据库建设。2011年至今,我国开展了农村集体土地所有权、宅基地使用权和集体建设用地使用权调查登记工作,其相应的数据库建设原则上仍按照上述2个标准进行。至今,县级国土资源部门共建设了4种数据库,包括农村土地利用数据库、城镇地籍数据库、集体土地所有权数据库以及宅基地使用权和集体建设用地使用权数据库。基于当时的技术水平,《土地利用数据库标准》和《城镇地籍数据库标准》的数据组织结构并不是一体化设计的。因此,基于上述标准建立的4种数据库之间在数据交换、相互利用等方面存在很大的障碍[3]。将现有的地籍数据库进行统一集成,克服数据库之间的异构,实现地籍信息共享,是亟需解决的问题。
1.1 相似度计算模型
相似度是对数据冗余进行定量分析的重要指标,也是分析数据组织异构,实现数据组织集成、合并的理论基础[4]。基于特征匹配计算相似度的模型是通过匹配2个对象的特征来计算其相似度,最早应用于心理学研究。其基本思想为:对象a和b之间的相似度与它们之间的共性和差别相关,拥有的共性越多,相似性越大[5]。最有代表性的算法是Tversky模型:
式中,A、B分别是对象a和b的属性集合;A∩B表示A和B共有的特征;A-B表示A具有而B不具备的特征;B-A表示B具有而A不具备的特征;α、β表示比较对象和参照对象的重要性权重。
Tversky模型将特性的差异性引入相似性度量中,设a为比较对象,b为参照对象。地籍数据中,不同种类的调查数据可认为具有同等的重要性,故取α=β=1。Tversky模型是基于二值特征的,可通过1或0表示特征的有或无。据此,将式(1)简化为:
式中,f11表示A和B共有特征的个数;f10表示A具有而B不具备的特征个数;f01表示B具有而A不具备的特征个数。
1.2 基于LADM的人-地关系模型
1.2.1 LADM概述
ISO/TC211国际标准土地管理域模型 LADM是以国际测量师联合会(FIG)发布的“地籍系统2014”为基础的[6]。LADM从人地关系出发,以地籍主体、地籍客体和土地权利为核心,建立起地籍主体和地籍客体之间的联系,是应用非常广泛的空间表达模型[7,8]。
1.2.2 人-地关系模型
本文立足于我国地籍管理的现状,以LADM核心框架为参考,将其改进为适合我国国情的人–地关系模型。我国地籍管理对象为:主体——人,客体——地块、主体和客体之间的纽带——土地制度,对象及其关联通过地籍业务显化出来,见图1。采用数据结构的表达方式,人–地关系模型可以表示为:
式中,D由2个元素组成,D={人,地块};R是D上关系的集合,R={土地制度}。
图1 基于LADM的人-地关系模型
2.1 数据库内组织混乱
现行各地籍数据库中数据组织的设计思路是参照地籍管理业务中的相关数据表格,根据其结构与内容,基于实际业务管理的特点进行设计的。在这种面向业务的数据组织方式中,唯一的实体是宗地。现行数据组织结构虽然能够满足单纯的业务数据存储、查询和管理需求,但各数据表都仅针对具体业务,而忽略了数据库内各部分间的关系。地籍数据库主要存在以下几个问题:
1)属性字段内聚度低。现行数据库属性表中,部分字段与表中其他字段关联程度较低,属性表繁杂且不符合范式要求。例如,城镇地籍数据库的宗地属性表中,建筑容积率、建筑密度、土地级别、申报地价、取得价格这5个字段并不属于宗地的基本信息,而是在土地利用过程中产生的易变动数据。当上述信息变化时,宗地的基本信息就会被重复存储。
2)属性字段集成度低,即同一数据库中部分语义、结构相似的字段多次出现。例如,城镇地籍数据库的权利人属性表中,权利人名称、权利人证件类型、权利人证件号、法人代表姓名、法人代表证件类型、法人代表证件号、代理人姓名、代理人证件类型、代理人证件号这9个字段高度相似。
3)属性字段重复冗余。在现行的地籍数据库中,部分完全相同的属性字段在多个属性表中重复出现。例如,在土地利用数据库中,有关控制点的名称、点号、类型、等级等相关字段,在测量控制点属性表与数字正射影像图纠正控制点属性表中重复出现,造成数据冗余。
2.2 数据库间结构差异明显
由于现有4种地籍数据库在建库过程中缺少统一标准,造成各数据库的数据组织结构存在差异,数据库之间明显异构。主要体现在以下方面:
1)空间要素分层异构。主要指部分空间要素层缺失的情况。例如,由于土地利用数据库对土地利用信息重点关注,土地利用数据库中所包含的基本农田要素层和其他要素层在其他数据库中缺失。
2)属性结构描述表异构。主要包括:①部分属性表缺失。例如,城镇地籍数据库中包括“房屋属性表”、“房屋权利人扩展属性表”,而其他3种数据库则不存在。②结构冲突。例如,在城镇地籍数据库中,权属来源证明扩展表为标识码、地籍号、土地证号、权属证明文件类型、权属证明文件编号、权属证明文件日期、权属来源证明;土地利用数据库中,权属来源证明扩展表为标识码、地籍号、权属来源证明文件类型、权属来源证明文件编号、权属来源证明、权属单位代码。同为权属来源证明扩展表,前表比后表多出“土地证号”和“权属证明文件日期”2个字段,缺少“权属单位代码”字段。
3)字段冲突。①命名冲突。同名异义,例如,城镇地籍数据库与土地利用数据库的地类图斑属性表中均包含“图斑面积”字段,但因空间对象的多尺度性,导致二者虽名称相同,但含义却不相同[9,10];异名同义,例如,在城镇地籍数据库与土地利用数据库的权属调查扩展表中,分别存在“界址标志”和“界址标识”字段,但均表示界址点标记。②类型冲突。指采用不同的数据类型表达相同的字段。例如,权利人属性表中的“代理人身份证明书”字段,城镇地籍数据库把它定义为varbin类型,而土地利用数据库将其定义为char类型。③长度冲突。例如,宗地属性表中“实测面积”字段,城镇地籍数据库与土地利用数据库分别将此字段长度定义为16位和15位。④约束条件冲突。例如,行政区属性表中的“控制面积”,在城镇地籍数据库中属于条件必填字段,而在土地利用数据库中为必填字段。⑤值域冲突。以卫星定位等级点的值域为例,其在城镇地籍数据库中为A、B、C、D、E、二等、三等、四等、一级、二级;而土地利用数据库中仅为A、B、C、D、E 5个等级。
2.3 数据库间数据冗余大
运用相似度模型对现有地籍数据库中的数据冗余进行定量计算与分析。以城镇地籍数据库和土地利用数据库的宗地属性表为例说明相似度计算过程:分析宗地属性表中的字段名,确定等价概念对,用1或0表示概念的有或无,对宗地属性表进行简化,见表1。
由表1统计得到,宗地属性表中f11=9,f10=7,f01=2。代入式(2),得到城镇地籍数据库与土地利用数据库宗地属性表之间的相似度为50%。同理,可计算出各数据库之间所含属性表的相似度。通过对城镇地籍数据库、土地利用数据库、集体土地所有权数据库及宅基地和集体建设用地使用权数据库中所有同名属性表的相似度分析发现,现有地籍数据库中所涉及到的32个属性表,其中4库完全相同的属性表有11个,占34.4%;3库完全相同的属性表有8个,占25%;2库完全相同的属性表有4个,占12.5%。可见,现有地籍数据库间相似度较高,数据冗余量大。
表1 宗地属性结构字段对比表
针对现行地籍数据库中数据组织结构杂糅、数据冗余度高以及数据库间异构、共享困难等问题,本文基于由LADM拓展的人-地关系模型,并结合我国地籍管理现状,对现行地籍数据库中的属性字段、组织结构等进行规范,构建适合我国国情的一体化集成地籍数据库。
3.1 地籍主体实体构建
人-地关系模型中的主体实体“人”,是指地籍管理和业务中涉及到的所有角色,包括权利人、代理人、义务人、审查人、审批人等自然人和法人。通过对现有地籍数据库进行分析发现,权利人实体(权属单位)的名称、证件号等关于人的属性信息,多次出现在房屋权利人扩展表、权利人属性表、他项权利登记扩展表、地类图斑属性表和线状地物属性表中,造成数据冗余大、数据库维护与更新困难。从相关属性表中提取出人的本质属性,构建人属性的实体模型,见图2。人属性结构描述见表2。
图2 人属性的实体模型
表2 人属性结构描述表
3.2 地籍客体实体构建
人-地关系模型中的客体实体为地块,即可辨别出同类属性的最小土地单元[11]。依据本体论的思想,宗地、地类图斑、线状地物、零星地物都可以统一聚集到地块实体中。设计的地块属性结构描述表中仅包含地块位置、地块类型等地块的本质属性,通过“标识码”、“地块代码”字段与其他相关联的权属信息和利用信息进行挂接;通过“隶属调查区代码”与上级调查单元进行挂接[11];通过“隶属地块代码”、“隶属界址线代码”与下级空间实体界址线、界址点挂接。地块及其关联属性的实体模型见图3,地块属性结构描述表见表3。
表3 地块属性结构描述表
图3 地块及其关联属性的实体模型
图4 地籍业务属性的实体模型
3.3 地籍业务实体构建
人-地关系模型中的连接枢纽是指土地权利制度和土地利用制度,外化为地籍调查、土地登记申请、土地登记审批、土地注册登记等多种地籍管理业务。地籍业务的发生将地籍主体实体与地籍客体实体相互关联。本文构建地籍业务属性的实体模型如图4所示。
需要补充的是,地籍数据库中除人-地关系模型的核心实体外,还包含许多基础性地理数据和辅助性数据,如行政区、调查区、控制点、高程点及地类界线、各类注记等。这些数据通过相应字段与核心实体相互挂接,从而使各数据层之间彼此联系,构成一个完整的地籍数据库整体。
本文在分析现行地籍数据库缺陷的基础上,通过理顺地籍管理中所涉及的实体及其关系,克服数据库之间的异构与冗余等问题,并基于人-地关系模型从人、地块、业务等方面设计了通用的一体化地籍数据库的实体模型与属性表。相比现行地籍数据库中的32个属性表、360个字段,通用一体化地籍数据库仅包含26个属性表、244个字段,将大量冗余数据挤出。一体化集成数据组织结构既减少了数据存储量,又满足了数据库范式要求,是地籍数据库建设发展的必然趋势。
[1] TD/T 1016-2007土地利用数据库标准[S].
[2] TD/T 1015-2007城镇地籍数据库标准[S].
[3] 陈红艳, 于晓峰, 李晓燕, 等. 城镇地籍数据库建设及发展趋向[J].测绘通报,2010(7):65-67
[4] 曹泽文, 钱杰, 张维明, 等. 一种综合的概念相似度计算方法[J].计算机科学,2007,34(3): 174-175
[5] 宋玲, 郭家义, 张冬梅, 等. 概念与文档的语义相似度计算[J].计算机工程与应用, 2009, 44(35): 163-167
[6] Kaufmann J, Steudler D. Cadastre 2014: A Vision for a Future Cadastral System[M]. Kaufmann J, Steudler D, 1998
[7] Elia E A, Zevenbergen J A, Lemmen C H J, et al. The Land Administration Domain Model (LADM) as the Reference Model for the Cyprus Land Information System (CLIS)[J].Survey Review, 2013,45(329):100-110
[8] Lemmen C H J, Oosterom P J M, Uitermark H T, et al.Transforming the Land Administration Domain Model (LADM) into an ISO Standard (ISO19152)[J]. 2009
[9] 许欢. 面向服务的土地资源空间信息多级语义网格研究[D].杭州:浙江大学, 2009
[10] 黄亮,姜栋.城乡一体化土地调查理论与方法初探[J].国土资源科技管理,2009,26(6): 79-83
[11] 詹长根,唐祥云,刘丽.地籍测量学[M]. 武汉:武汉大学出版社, 2008
P273
B
1672-4623(2016)02-0006-04
10.3969/j.issn.1672-4623.2016.02.002
詹长根,博士,副教授,主要研究方向为现代地籍理论与方法、土地信息技术。
2015-03-30。
项目来源:全国宗地统一编码示范推广与集成应用资助项目(DCPJ13-10.1)。