基于数据挖掘的第二次土地调查成果应用现状分析

2014-04-25 03:29:26郭谁琼金雨泽白晓飞黄贤金钟太洋
中国土地科学 2014年9期
关键词:土地权属土地利用成果

郭谁琼,金雨泽,张 嘉,白晓飞,李 焕,黄贤金,钟太洋

(1.南京大学地理与海洋科学学院,江苏 南京 210046;2.中国土地勘测规划院,北京 100035)

基于数据挖掘的第二次土地调查成果应用现状分析

郭谁琼1,金雨泽1,张 嘉2,白晓飞2,李 焕1,黄贤金1,钟太洋1

(1.南京大学地理与海洋科学学院,江苏 南京 210046;2.中国土地勘测规划院,北京 100035)

研究目的:对二调成果在全国范围内的应用深度和广度进行量化分析。研究方法:数据抓取、数据挖掘和半自动分类技术。研究结果:(1)二调数据在国土部门应用频率远高于其他部门,但从趋势看正逐步向其他部门渗透;(2)土地权属类信息得到最广泛应用,其中规划、确权、基本农田保护为主要的利用形式;(3)围绕山西、山东、江苏、江西4省出现鲁苏皖赣、晋陕两个应用频次较高的组团,应用方式基本与其主要职能相对应。研究结论:二调成果尤其是土地权属类信息在部门间应用范围正逐渐扩大,区域之间在应用深度广度上存在差异。

土地调查;成果应用;行政部门;大数据

1 引言

土地调查是开展土地利用及社会经济发展决策的基本依据。《土地管理法实施条例》第14条规定“土地调查应当包括下列内容:(一)土地权属;(二)土地利用现状;(三)土地条件”。全国第二次土地调查(以下简称为“二调”)将这些信息以文本和空间数据的形式进行表达,使其具备了易复制、易更新的特征,成为了政府和相关部门、科研机构开展工作的基础数据[1]。

二调成果具有详实性和空间性特点,在土地利用规划实施评价[2]、农村居民点整理成效[3]、农村居民点的空间优化[4]等方面已见研究和应用。关于二调数据的研究性应用现状的综述,郭谁琼等对此做了定量化描述[5]。同时,二调成果作为全国政务信息化建设的重要基础,在规划修编、数字化建设、业务管理、土地管理和耕地保护中的应用研究得到证实[6],在地税、数字城市建设、农业管理中也有所体现[7]。马龙泉等由此探讨了二调成果分级共享机制,按照信息公开级别分为国土系统、其他行政部门及企事业单位、社会公众三级[9]。

二调成果主要在哪些部门得到应用?不同地区的应用是否有显著差异?应用现状是否对其公开机制提出要求?这些具体问题却因数据统计困难等原因鲜见回答。定量研究的缺乏使得二调成果应用研究停留在可能性分析的层面,难以反映其应用强度和广度。对二调成果应用现状进行量化分析,不仅能补充研究领域的空缺,也能根据应用的差异化特征来优化其公开形式,使其能够得到更广泛和充分的应用。

本文旨在从不同部门应用和不同区域应用两个角度对二调成果的应用现状进行分析,在定性分析的基础上,通过关键词检索的方式进一步挖掘这些成果在不同部门和不同地域间的应用差异,以期为二调成果的应用现状提供更有力的量化支持。

2 研究方法与数据来源

二调信息根据其公开的级别可分为国土部门、其他政府部门、社会公众三个层次[9]。目前二调成果还未对社会公众公开,主要的社会应用集中于国土部门和其他政府部门,为了了解二调成果在不同部门和不同地区应用程度的差异,需要对应用的形式和次数进行分类统计,但由于这类数据意义特殊,缺乏相应的统计指标,而且数据总量大、来源分散,因此在全国层面精确统计存在困难。

“大数据”的来临意味着能够在更多的领域和更深的层次上获得和使用全面、完整和系统的数据[10]。这一概念一经提出就已在经济学、社会学、医学等多个研究领域得到了广泛应用,但是在地理学研究中依旧局限于遥感、地理信息系统等方面[11-13],反映地理事件发生频率的数据则较少得到挖掘。目前,政务信息公开已经成为中国大多数政府网站的“第一功能”[14],二调成果的应用作为政府工作内容之一在其官方网络平台通常会有相关信息发布。政府网络政务公开实际构成了二调信息的“大数据”,充分利用这一载体并结合相应数据挖掘技术为突破目前研究的制约提供了可能。本文受到“大数据”的启发,考虑采用关键词检索方法结合数据挖掘技术,以二调信息发布频率来替代二调实际得到应用的频率对目标问题进行探索。

研究主要流程分为数据挖掘和数据分析两大块,数据挖掘主要包括数据抓取、自动分类、手动分类三步,数据分析包括总体应用分析、应用类别分析和区域差异分析(图1)。

数据挖掘和数据过滤分别通过编写网络数据采集软件UindexWeb和半自动分类软件Filter实现。由于网络信息存在重复发布的情况,因此在一次抓取的结果基础上进行手工筛选,对标题重复和目录级别的信息进行删除,最终筛选得到的数据包括了信息公开级别、部门以及地区三个属性值。不同的属性值相互重叠交叉,分析时无法兼顾每个方面,鉴于本研究主要目的是揭示二调数据在应用类别和区域层面的差异,下文立足于这两个角度重点展开分析。本文中所列数据如未经特殊标注,均为Filter软件筛选计数结果。

图1 研究技术路线Fig.1 Technology roadmap

表1 筛选关键词及约束条件Tab.1 Classification keywords and basic rules

3 总体应用分析

第一轮数据抓取和数据自动分类共检索到1708条有效记录,手动分类后最终得到有效信息为754条,信息有效率为44.1%。其中国家层面100条,主要集中在国土部门;省级层面654条,广泛分布在住建、水利、农业、地税、统计和旅游等政府官方网络信息平台。从部门间分布来看,除了国土部门之外,农业部门二调信息公布量最高,占总信息量的7.4%,这与农业和土地关系的紧密性密不可分。住建部门在房地产管理和规划编制等过程中应当也会较多地涉及土地权属利用类的数据,但是统计结果却显示旅游和统计部门的信息发布量更大。一方面数据在抓取和分类时存在绝对误差,但是也可以初步推断二调数据的应用不仅仅局限于与土地利用直接相关的部门,而是逐步向旅游、统计等其他政府部门延伸。

在实际结果验证中,研究发现由于部门间信息转载等情况的存在,仅以不同部门包含“二调”相关关键词的信息数量并不一定能反映这些部门对二调成果的应用水平。为了更精确地统计此类信息的部门归属,进一步采取了职能关键词进行详细统计。职能关键词指的是能反映不同部门主要职责的关键词,分别对应《土地管理法实施条例》中规定的土地调查三大内容,即土地权属、土地利用、土地条件。

土地权属是土地制度的核心问题[15],所有施加在土地上的行为都会涉及土地权属,因此本研究认为9个关键词的出现频率均能反应土地权属信息的利用程度。土地条件包括土地的自然条件和社会经济条件,是土地区位的基础。对土地区位的研究显示,区位在决定城市规划[16-17]、地价[18]等方面起到了关键作用,此处将“规划”、“以地控税”、“房地产市场”、“土地市场”和“灾害”5个关键词作为土地条件信息利用的代表。在明确土地权属、探明土地条件的基础上进行的具体人类活动即为土地利用。随着“数字城市”的建设,土地利用的数字化表达也日益成为实践研究的重点[19-20],因此最后在土地条件相关关键词基础上调整选取“数字化”、“督查”、“规划”、“以地控税”、“房地产市场”和“土地市场”6个关键词来描述。因为此处一个关键词可能对应多个职能,同时一条网页信息中可能同时涉及多个关键词,因此二次筛选得到的计数总量会高于一次筛选。

图2 职能关键词与调查内容、应用部门的对应关系示意图Fig.2 Correspondences of function key words to land survey contents and application departments

4 应用类别分析

4.1 土地调查三大内容分布情况

以二次搜索结果和职能关键词分类为依据,统计得到土地权属、土地条件和土地利用相关信息出现次数分别为1370、710和776条。出现这一结果一方面是由于在归类时不同内容下关键词数量存在差异,另一方面这三个概念之间的相互关系影响了这三类信息数量的分布。对于任何一宗土地而言,包括土地的边界、各项权益的归属在内的土地权属是最为基础的信息。只有明确了土地的权属,才能进一步探讨施加在其上的各种行为[21]。土地权属也是探讨具体地块土地条件和土地利用方式的基础,因此其出现于任何一项涉及土地这一客体的事件和行为中,相关信息量最高。土地利用是在土地权属基础上结合土地条件进行的,其既反映了特定土地的条件状况又体现了土地现状和人类的活动,信息要比土地条件丰富,因此在数量上也略高于土地条件的信息总量。

4.2 职能关键词分布情况

在不同的信息公开级别[9],主要信息均集中在“规划”、“基本农田保护”、“灾害”、“确权”这4个关键词上,从不同部门来看,各自发布的信息重点多有不同(表2)。

表2 职能关键词检索量的部门分布情况Tab.2 Distribution of function key words

从不同关键词在国土部门和其他部门所占比重差异来看,国土部门(一级公开层面)发布信息中“基本农田保护”占比要高于其他部门,可以推断在基本农田保护工作上国土部门显示出更高的关注度。其他部门(二级公开层面)中,农业部门相关信息的发布量要明显高于其他部门,总计69条,占二级公开信息总量的53.1%,其中,提及次数最多的为确权。农村集体土地确权登记发证工作是推进农业、农村改革发展的基础性工作,对维护农民土地合法权益,推进工业化、城镇化和农业现代化,加强农村社会管理,促进城乡统筹发展具有重要意义[22],以二调信息中土地权属信息为基础的确权工作也日益成为农业部门工作的重要内容。其次是旅游部门,共计发布信息31条,占二级公开信息总量的23.8%。旅游部门网页中“规划”这一关键词出现频率最高,可以推断在旅游部门,二调数据主要用于旅游规划的编制。统计部门发布的相关信息总量居第三位,共13条,占二级公开总量的10.0%,以“规划”为主要关键词。从具体网页发布的信息来看,在普查类统计工作中,利用二调数据进行统计单元和统计区域的划分是主要的利用形式。除了以上三个单位之外,住建、水利和地税信息发布量都不足10条,反映的信息较为局限,无法深入分析。

二调数据是中国开展土地利用与社会经济发展决策的基础[23],无论是对政府的宏观调控决策还是市场的土地利用决策都具有重要价值[24],尤其是近年来新型城镇化、沿海产业带等重大决策不断推出,对土地整治、土地规划、城镇化发展规划和产业布局都提出了新要求[25-26],当前二调数据应用不够广泛,与公开不够甚至一些地区尚未公开有关,影响了相关部门特别是学术研究的应用。

图3 全国各省、自治区、直辖市应用二调成果的频次分布Fig.3 Application frequencies of the second land use survey data in different provinces

5 区域差异分析

5.1 全国层面分析

对二调在全国(不包括港、澳、台地区)31个省、直辖市和自治区部门信息公开中的出现频率进行了统计,其中共有22个地区在相关政府部门网站上有二调相关信息发布(图3)。

从图3中可以看出,中国东部和中部二调相关信息发布量较高,并在东部沿海地区的山东、江苏、安徽出现了小范围的集中现象,西南大部分省份二调信息的公开力度不够。山西、山东、江西和江苏4省信息发布的总量最高,分别为135、122、89和73条,占到总信息量的20.6%、18.7%、13.6%和11.2%。沿海地区是中国经济发展的重要阵地,突出的人地矛盾是沿海地区土地管理中最严峻的问题之一[27],而中北部则是主要的粮食产地,因此这两部分地区对于土地问题的关注度要明显高于其他地区。

除了应用的强度之外,二调数据在不同省市部门间应用的广度也存在差异,此处以二调数据得到应用的部门数来反映。根据统计结果,全国各个省(直辖市、自治区)应用二调数据部门的数量在0—4个,有9个省(直辖市)没有公开对二调数据的应用,因此其计数结果为0,大部分省(直辖市、自治区)仅在一个部门发布了信息。根据初步推断仅在一个部门发布信息的情况下应该集中在国土部门,但是实际其中有7个省(直辖市、自治区)的信息发布在非国土部门,占发布信息省总数的一半以上。结合上两节的分析也可以发现,到了省(直辖市、自治区)层面,非国土部门已经成为了信息发布的主要平台之一,同时二调数据应用的广度也进一步扩大。

5.2 省际差异分析

对信息发布量最大的4个省份——山西、山东、江西和江苏进行初步分析显示,主要信息依旧集中在一级公开的国土部门。从省的个案来说,山西省信息发布通过国土和统计部门,江苏省通过国土、统计、水利和农业部门,山东省通过国土、农业、地税和统计4个部门,江西省则集中在国土部门。

以上4个省份发布的二调信息中包括了已选取的职能关键词,不同于全国层面的分析结果是,关键词除了集中在“确权”、“基本农田”等与农用地利用相关的内容上,针对“灾害”这一关键词的信息发布要明显多于其他地区。从发布的具体信息内容来看,灾害相关信息主要集中在二调成果数据在地质灾害调查上的应用。如需进一步深入研究二调成果的应用情况,可以着重选择山西、山东、江西、江苏4省及代表性地市的相关信息做典型分析。

在应用内容方面选取了出现频率最高的几个职能关键词进行进一步分析。从出现频率最高的关键词“规划”的分布来看,空间上呈三组团分布,即东部沿海山东、江苏,中部地区山西、陕西,西南地区云南、贵州三组团。这些省份或土地利用强度大,或省域内多为山地等特殊的地形,或受气候等多方面影响,实际可以利用的土地面积并不多,因此对这些省份来说二调的数据在规划制定方面起到了重要的支撑作用。“确权”一词主要在山东、江苏等省份出现。山东作为粮食产地之一,为了便于生产对确定土地权属要求较高,江苏省作为沿海经济大省,农地保护与城市发展的冲突使得土地权属问题尤其突出。与农田保护相关的关键词如“基本农田”、“督查”呈现与“确权”基本一致的分布趋势,在山西、山东、江苏、江西4省出现频次最高,与二调成果应用总量频率分布一致。这几个关键词的总量也占据了信息总量的较大比例,达36.5%,可以推断农田保护是二调数据得以应用的主要内容之一。“灾害”关键词的分布符合总体分布特征,值得一提的是,云南、贵州地处于西南地区,地质灾害发生几率较高,“灾害”作为关键词出现的频率相对较高。

6 主要结论及讨论

(1)目前二调成果的应用主要集中于国土部门,农业部门其次,且存在二调数据在其他行政部门中应用的延伸趋势。

(2)从应用的类别来看,根据所定义的职能关键词划分情况,土地权属、土地利用、土地条件三大类信息发布量依次递减,土地权属作为土地制度的核心在应用频率上得到了体现。职能关键词的分析显示多数部门将二调数据用于编制各项规划,在二调数据呈现的方式上对三大类信息的整合、处理、变更、保存提出了更高的要求。因此,在今后的工作中应着力推动以二调数据为基础的“一张图”工程。与农业生产活动相关的“基本农田保护”、“确权”也占据相当大的比重,体现相关部门对于“三农”问题的重视度日益提高。二调数据在灾情排查和灾后建设的应用比例也相对较高。

(3)从空间上看,各省应用二调成果的深度(应用频率)有较大差别,总体上呈现东部沿海多、中西部少的格局。山西、山东、江苏、江西是应用二调成果最多的省份,围绕这4个省份也出现鲁苏皖赣、晋陕两个应用频次较高的组团。二调数据部门应用广度的地区差异与深度差异基本一致,整体来看较好地实现了从一级公开层面向二级公开的渗透和对接。应用类型上规划编制方面的应用多出现在山东、山西;确权方面应用主要出现在山东、江苏;督察和基本农田保护方面应用集中于山东、山西、江苏、江西;数字化、一张图和金土工程方面应用主要在江苏、山东;灾害方面应用主要在云南、山西;土地市场和房地产市场方面应用主要在江苏、江西和山西。

(4)本文也存在一些不足:①出于数据可得性和工作量的考虑,采用软件对网页数据抓取筛选来进行量化分析,虽然提高了工作效率,但不可避免存在冗余信息或算法漏洞的情况,所以得到的统计数据在数量上的精确度依然有待提升;②对国家级和省级政府部门的网站信息进行采样分析,仅能反映公开信息中行政部门对二调成果的应用状况,还有部分未公开的应用未参与计数,故采样分析结果与现实情况仍存在不可避免的误差;③本文的研究仅对二调数据的应用现状作定量分析,对于这种现状形成的原因未作深入系统分析,这部分研究可以通过选取典型省份作应用原因分析进行补充。

(References):

[1]杨波,范金梅,曲欣.“二调”给力土地整治——“二调”成果在土地整治潜力评价中的应用[J].中国土地,2012,(3):50-52.

[2]王婉晶,揣小伟,黄贤金,等.基于空间吻合性的土地利用总体规划实施评价方法及应用[J].农业工程学报,2013,(4):1 -14,296.

[3]张晓平,朱道林.城乡建设用地增减挂钩政策下的农村居民点斑块整理模式评价[J].农业工程学报,2012,(1):244-249,297.

[4]杨立,郝晋珉,王绍磊,等.基于空间相互作用的农村居民点用地空间结构优化[J].农业工程学报,2011,(10):308-315.

[5]郭谁琼,黄贤金,白晓飞,等.土地利用变更数据的应用研究现状与前景[J].中国土地科学,2013,27(12):18-24.

[6]徐兵.第二次土地调查成果多元化应用[J].淮海工学院学报(自然科学版),2009,18:134-136.

[7]徐勇,李健,江韦希,等.第二次土地调查成果在日常土地管理中的应用[J].地理空间信息,2011,9(3):159-161.

[8]王丽娟,王勇,丁圆婷.土地变更调查成果在耕地保护中的应用研究[J].安徽农业科学,2012,40(5):3048-3049.

[9]马龙泉,陈建龙,李勇,等.第二次土地调查数据成果分级共享机制研究[J].国土与自然资源研究,2012,(6):20-21.

[10]Viktor Mayer-Schönberger,Kenneth Cukier.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2012.

[11]张晓祥.大数据时代的空间分析[J].武汉大学学报(信息科学版),2014,39(6):655-659.

[12]刘瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型研究[J].武汉大学学报(信息科学版),2014,39(6):660-666.

[13]吴立新,余接情,杨宜舟,等.基于地球系统空间格网的全球大数据空间关联与共享服务[J].测绘科学技术学报,2013,30(4):409-415,438.

[14]郑文晖.我国政府网站政务信息公开的现状及对策分析——基于55个省(市)级政府网站的调查[J].现代情报,2007,(12):19-22.

[15]刘长安.论土地权属调查与地籍测量[J].浙江国土资源,2003,(1):30-33.

[16]杨吾扬.区位论与产业、城市和区域规划[J].经济地理,1988,(1):3-7.

[17]管驰明,姚士谋,陆树建,等.基于全球区位论的城市发展研究:以江苏省南通市为例[J].人文地理,2003,18(4):69-74.

[18]李华忠,刘轶,艾南山.地价杠杆与土地区位配置[J].经济地理,1995,15(2):24-30.

[19]郑晓华,杨纯顺,陶德凯.基于数字城市的城市土地利用现状调查数字化实践——以南京市城市总体规划为例[J].国际城市规划,2010,25(2):43-47.

[20]罗敏.基于数字化地图的土地信息系统中土地利用分类的探讨[J].国土与自然资源研究,1999,(4):29-31.

[21]粟敏,宋金平,方琳娜,等.城市边缘区土地权属变化分析——以北京市大兴区为例[J].中国农业资源与区划,2010,31(6):52-57.

[22]于建嵘,石凤友.关于当前我国农村土地确权的几个重要问题[J].东南学术,2012,(4):4-11.

[23]谭术魁,宋祥波,张路.城市土地利用与经济发展的和谐度研究[J].土地经济研究,2014,(1):33-48.

[24]黄凌翔,范晓莉,卢静,等.基于SVAB模型的土地供给调控政策与宏观经济的关系分析[J].土地经济研究,2014,(1):79-90.

[25]Xianjin Huang,Yi Li, Ran Yu, et al. Reconsidering the controversial land use policy of linking the decrease in rural construction land with the increase in urban construction land: a local government perspective[J]. The China. Review, 2014, 14(1): 183-206.

[26]严金明,夏方舟,杨丹凤.新型城镇化背景下中国土地整治的转型发展研究[J].土地经济研究,2014,(1):21-32.

[27]王长征,刘毅.沿海地区人地关系演化及优化分析[J].中国人口·资源与环境,2003,13(6):91-96.

(本文责编:仲济香)

Application of the Second National Land Use Survey Data: An Analysis Based on Data Mining

GUO Shui-qiong1, JIN Yu-ze1, ZHANG Jia2, BAI Xiao-fei2, LI Huan1, HUANG Xian-jin1, ZHONG Tai-yang1
(1. Department of Geographic and Oceanographic Science, Nanjing University, Nanjing 210046,China; 2. China Land Surveying and Planning Institute, Beijing 100035, China)

The purpose of this study is to know the depth and width of the application of the second national land use survey data. The methods used in this study include data crawling, data mining and semi-automatic classification technology. The study shows the application frequency of the second land use survey data is higher in the Department of Land Resource than in other Ministries on the second-disclosure level but there is a trend of increasing application frequency and realizing cooperation on different levels. Information concerning land rights is most wildly applied. Planning, confirmation of land rights and protection of basic farmland are areas where those data shows the highest occurrence. The distribution manifests a spatial agglomeration around Shanxi, Shandong, Jiangsu, Jiangxi Provinces and the specific uses are in line with their functions respectively. The conclusion is that the application of the second national land use survey data, especially land rights data is widening and there are difference in the depth and width of the application among different regions.

land survey; application of the second national land use survey data; administrative departments; big data

K909

A

1001-8158(2014)09-0060-08

2014-04-15

2014-06-10

国家自然科学基金(41271190,40801063,40971104);土地变更调查数据应用分析研究(0904151021);国家科技支撑项目(2013BAJ13B02)。

郭谁琼(1990- ),女,江苏东台人,在读硕士。主要研究方向为土地利用与政策。E-mail: gsq0223@126.com

猜你喜欢
土地权属土地利用成果
土地权属调查的方法及数据管理
中华建设(2019年8期)2019-09-25 08:26:24
工大成果
“走出去”成果斐然
“健康照明”成果聚焦
土地利用生态系统服务研究进展及启示
“三医联动”扩大医改成果
中国卫生(2016年2期)2016-11-12 13:22:16
滨海县土地利用挖潜方向在哪里
夫妻间房屋产权变更是否要缴纳契税
当代工人(2015年6期)2015-08-18 16:58:45
夫妻之间房屋土地权属变更免税
农村百事通(2014年6期)2014-10-14 10:42:30
论低碳经济与转变土地利用方式