基于不动产统一登记数据的不动产大数据框架初探

2017-10-10 09:49:19方从刚黄志勤武椿江辜寄蓉兰井志
中国国土资源经济 2017年9期
关键词:爬虫国土资源数据挖掘

■ 方从刚/黄志勤/武椿江/辜寄蓉/兰井志

(1.北京大学,北京 100871;2.中国国土资源经济研究院,北京 101149;3.成都市国土资源信息中心,四川成都 610023;4.四川省国土资源厅信息中心,成都 610072;5.四川师范大学地理与资源科学学院,成都 610101)

基于不动产统一登记数据的不动产大数据框架初探

■ 方从刚1,2,3/黄志勤4/武椿江5/辜寄蓉5/兰井志2

(1.北京大学,北京 100871;2.中国国土资源经济研究院,北京 101149;3.成都市国土资源信息中心,四川成都 610023;4.四川省国土资源厅信息中心,成都 610072;5.四川师范大学地理与资源科学学院,成都 610101)

不动产数据具有丰富的人、地、房相关信息,但缺乏社会经济等相关信息。互联网中丰富的社会、经济、生态信息,与不动产数据相结合,将更好地拓展不动产数据的应用范围,为国土资源部门的数据管理、分析与挖掘等工作提供极大助力。不动产大数据建立可以有力地补充国土行业数据在社会、经济方面的短板,与不动产数据本身形成有机体,成为国土资源管理的核心数据集。同时,以大数据技术为支撑的数据获取、融合、挖掘技术,可以更好地发挥不动产数据和大数据的价值,提升数据资源的可利用性。

不动产统一登记;不动产大数据;数据框架;大数据技术

Abstract:Real estate data is rich in people, land and room related information, but it lacks of socio-economic and other related information.The combination of rich social, economic, ecological information and real estate data from the Internet will better expand the application of real estate data and provide great assistance for the data management, analysis and excavation for the land and resources departments.The establishment of large real estate data can effectively complement the shortage of land data in the social and economic aspects, and real estate data itself can form an organism, then a land and resources management core data can be set. At the same time, big data technology can support the data acquisition, integration, mining technology, which can better play the value of real estate data and big data to enhance the availability of data resources.

Key words:real estate uni fi ed registration; real estate big data; data frame; big data technology

0 引言

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合[1]。随着互联网技术的不断发展,人类逐渐步入大数据时代,数据资源正和土地、劳动力、资本等生产要素一样,成为促进经济增长和社会发展的基本要素。随着信息技术的迅猛发展和社会经济水平的不断提高,在我国社会生活生产实践中沉淀了大量数据,科学合理地利用好这些宝贵的数据资源对我国经济社会持续健康发展具有重要意义。

大数据在当今社会的重要地位显而易见,但不是“万能”的。大数据多为非结构化数据,在数据采集、存储、挖掘等环节具有较高的技术难度。大数据本身价值密度低,为发掘其中的有价值信息进行大规模存储和计算的成本有时候高于其所带来的效益。一种可行的模式是将高价值密度的专业化数据与大数据相结合,以提高数据处理效率,降低实施成本。

我国2015年3月1日正式发布《不动产登记暂行条例》,标志着不动产统一登记制度的正式建立。不动产登记形成的数据库包含丰富的人、地、房的相关信息,是一种专业化很强的高价值结构数据。然而不动产登记数据不能够提供相关的社会经济属性,导致其不能充分发挥宏观分析与决策支持能力,限制了不动产登记数据的深度挖掘。大数据来源广泛,覆盖社会经济生活的方方面面,必然成为不动产登记数据的有效补充,二者的结合能够实现结构化数据与非结构化数据的优势互补,赋予不动产数据相应的社会经济属性,进一步扩展数据的厚度和广度,促进不动产大数据应用发展,为国土资源部门数据管理、分析与挖掘等工作提供极大助力。

1 国土资源大数据应用现状与差距

国土资源数据作为基础国情信息,在国民经济和社会发展中发挥着极为重要的作用。国土资源部门通过国土资源调查、监测、评价和管理工作,产生和积累了海量的基础地理、土地、地质矿产、地质环境与地质灾害防治和海洋等数据[2]。国土资源的管理离不开数据的支撑,国土资源部门开展实施的国土资源信息化建设通过对存在于不同业务部门的国土资源数据整合梳理,建立了“一张图”核心数据库,涵盖国土资源基础、业务、专业数据[3],随着国土资源信息化工作的不断推进,对挖掘国土资源数据中的潜在价值,提高国土资源部门管理能力和服务效率提出了新要求,应用大数据技术势在必行,而大数据理念和技术的不断发展也使得其在国土资源系统应用成为可能。

(1)国土资源信息化建设“一张图”核心数据库是国土资源大数据应用的主要支撑。现阶段开展的国土资源大数据应用都基于“一张图”核心数据库,从数据库中获取门类齐全、覆盖全面的各类数据,在此基础上开展分析挖掘。江苏省国土资源系统将互联网+、大数据、国土云理念技术与“一张图”工程深度融合开展“慧眼守土”工程,给国土资源信息化工作带来了实质性转变[4];武汉市国土资源和规划局以“一张图”和政府办公、综合监管、公众服务、地理云服务平台为基础,从整合硬件、网络、数据资源等方面入手,在多维度耕地演变分析,建设用地动态监管,以地、税信息整合为基础的“以地控税,以税节地”,社会管理创新等四个方面开展大数据应用[5]。

(2)国土资源部门进一步构建数据资源体系。一方面,国土资源数据本身既有结构化数据,又有非结构化数据,需要对数据进行整合,保证其完整性、一致性。另一方面,高质量的数据不应该只是数量大,而且应该全,对涵盖不同维度的数据进行分析才能透过数据本身的复杂关联关系全面认识事物规律。国土资源数据需要从互联网、物联网等渠道收集和保留与国土资源有关的社会经济属性数据,对这些分散、结构不一、类型多样的数据进行清洗整合,形成可用的数据库和数据集。

目前,我国国土资源大数据应用刚刚起步,尚存在数据整合、应用落后等不足:

(1)国土资源数据与社会经济属性数据整合不够。国土资源数据资源体系建设刚刚起步,现阶段仍以自身内部积累下来的数据为主,对来自互联网、物联网等其他渠道的社会经济属性数据进行清洗整合的难度较大。同时,关于国土资源数据应该同哪些社会经济属性数据结合才能充分发挥国土资源数据潜在价值的问题尚未梳理清楚,阻碍了国土资源数据与社会经济属性数据的结合。

(2)国土资源大数据应用远落后于其他行业。相较其他行业和部门而言,国土资源部门坐拥海量国土资源数据,国土资源大数据应用发展与其拥有的数据量不相匹配。以城市规划行业为例,该研究领域的专家学者提出很多基于大数据的城市规划理论、方法,涵盖城市规划各个方面(绿道设计[6]、职住分离[7]、城市活动空间分布[8]、用地功能区分[9]等),并且成功应用到具体工作实际当中。而关于国土资源大数据应用的理论、技术研究很少,国土资源大数据主要是在国土资源部门实践推行,其应用的广度和深度有限。

2 不动产大数据框架

不动产登记数据是在国土资源部门统一监督指导下进行全国土地、房屋、草原、林地、海域等不动产登记所形成的数据,记录了不动产权利人、不动产位置、状态、编号等详细信息,实现了个人信息与房、地、林等不动产信息的精准关联。合理有效地挖掘分析不动产数据,可以揭示出其内涵的人、土地、房地产之间的复杂关系网络,为政府部门的土地供应、房地产管理等工作提供决策支持,是一种高价值的国土资源数据类型。但是不动产登记数据作为国土资源部门数据的一种,其关注的是不动产领域的权属变更信息,登记数据较少涉及到社会经济属性,这就降低了不动产登记数据深度挖掘的潜力,无法挖掘人、土地市场、房地产场等社会经济领域的相互关系,不利于不动产数据参与重要的社会经济生活领域宏观决策。

要充分发掘不动产登记数据的内在价值必须结合不动产相关的社会经济大数据。现代社会经济活动高度依赖互联网,人类的相关活动在互联网上留下了大量的痕迹数据,这些数据正在以极快的速度增长着,并且是开放免费的。同时,一些开放数据组织机构出于促进大数据产业发展,帮助研究团体和个人获得数据的目的,向社会免费公开所收集的数据。采用一定的技术手段获取这些带有社会经济属性的数据,将它们与不动产数据相结合,构建不动产大数据加以分析、挖掘,在大大节约成本的同时,也充分释放出不动产数据内在的经济、社会效益(图1)。

不动产登记数据和不动产相关的互联网社会经济数据在类型、结构、来源等方面存在很大的差异。将结构型不动产登记数据与非结构型的互联网社会经济数据相结合,必须制定相应的数据清洗方案,解决因业务口径不同而产生的数据标准不统一、类型不匹配、格式不一致、语义不一致等问题。通过互联网和物联网等方式获取的数据本身还呈现出数据价值密度低等问题,只有通过开展信息的清洗与抽取、时空匹配、信息融合,才能将这些具有现势性特性的数据与结构化的不动产登记数据相结合,实现国土资源大数据的实时接入、时空关联和内容融合,为后续的分析决策提供依据。在此基础上进行数据挖掘,从海量的数据中获得不动产登记大数据蕴藏的人、土地市场、房地产市场等方面的知识与模式,将这些知识、模式提炼总结,用来对国土资源部门工作进行指导与支持。

3 不动产大数据构建技术

3.1 大数据获取

对于互联网数据的获取,除了部分涉及数据提供者利益的数据需要购买外,其余大部分都可以采用网络爬虫技术抓取数据源对应的网络资源,通过解析、清洗后得到所关注的数据信息。网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web 信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分[10]。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、主题网络爬虫(Topical Web Crawler)、深层网络爬虫(Deep Web Crawler)、增量式爬虫(Incremental Web Crawler)[11]。网络爬虫一般都有URL管理模块、页面下载模块、页面内容解析模块贺网页数据库模块,贯穿了从页面抓取、目标页面锁定及下载、页面内容信息抽取和存储各个环节[12]。

图1 不动产大数据框架图

本研究基于网络爬虫原理,采用Scarpy爬虫框架,面向不动产大数据对框架进行优化和完善,从而实现对特定网站进行爬取、解析。Scrapy是一个为了爬取网站内容,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中,它实现了一般爬虫的主要模块。其最初是为了页面抓取所设计的,也可以应用于获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫,在国内外应用较广。

3.2 大数据融合

中国计算机学会理事长李国杰指出:大数据融合是大数据发展过程中一个重要的环节,将影响到大数据价值的发挥[13]。融合在大数据时代具有非常重要的价值与意义。通过多源信息融合,有利于进一步挖掘数据的价值,提升信息分析的作用;通过多源信息交叉印证,可以减少信息错误与疏漏,防止决策失误。大数据融合的重要性与必要性推动数据融合研究领域出现了成熟的理论、方法。中国人民大学孟晓峰教授认为当前大数据融合的主要支撑技术有模式/本体对齐技术、实体链接技术、冲突解决技术、关系推演技术四种。模式/本体对齐技术用于应对本体的易异构性和数据源的异构性;实体链接技术关键是实体识别,用于确定命名实体表象与真实实体之间的映射关系;冲突解决技术用于甄别所有冲突的值中的正确值;关系推演技术用于寻找关联数据中的数据模式与自然语言中关系词汇中的对应关系[14]。北京大学信息管理学院化柏林研究员从理论、方法、技术及应用四个层面谈论了大数据环境下的多源信息融合问题,指出多源信息融合主要涉及数据唯一识别、数据记录滤重、字段映射与互补、重名区分、别名识别、异构数据加权等多个方面[15]。郭春霞在大数据环境下高校图书馆数据融合中认为可融合的数据具有共性和互补性,在数据融合过程中应该进行数据拆分、记录滤重等工作[16]。

本研究借鉴专家学者的研究成果,采用适当的方法、技术将非结构化数据转化为结构化数据,对融合的数据进行去重、异常值剔除、属性整理工作,方便后期的研究使用。

本研究所需数据,一部分从不动产数据库直接获取,一部分数据将不动产数据与大数据结合,或者不动产与不动产数据结合,其数据的整理流程如图2所示。

3.3 大数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,涉及统计学、机器学习、神经网络、数据库等方法理论。合理运用数据挖掘技术,能够高效精确地发现隐藏在不动产登记大数据背后的特征规律,据此为决策者提供有价值的信息、知识[17]。

数据挖掘技术出现于20世纪80年代,它促成了数据库中的知识发现(KDD)产生。1995年在加拿大蒙特利尔召开了首届KDD国际学术年会,把数据挖掘技术分为工程领域的数据挖掘与科研领域的知识发现。此后每年都会召开类似的会议,且数量和规模逐渐增加,经过十几年的努力,数据挖掘技术研究已经取得了丰硕的成果[18]。数据挖掘的算法主要有神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等,这些算法在研究人员的努力下仍在不断改进和完善[19]。

图2 数据整理流程图

数据挖掘技术是面向应用的,随着研究的深入,数据挖掘技术的应用越来越广泛,在金融业、零售业、生物信息、客户关系管理、电子商务管理等领域发挥着重要的作用。在大数据环境背景下,数据挖掘作为发现数据价值的手段更是受到研究人员的重视:国内外学者基于微博数据进行了微博话题事件分析、微博情感分析、微博信息检索与推荐、微博关系分析与挖掘方面、微博地理位置的研究,这些研究都是通过数据挖掘技术实现的[20];李德仁深入分析了遥感大数据的挖掘过程、遥感大数据与广义遥感大数据综合信息挖掘,认为遥感大数据不仅能用于挖掘地球各种尺度的变化规律,而且能用于发现未知的,甚至遥感不相关的知识[21];贺瑶、王文庆等为了实现高效率低成本的海量数据挖掘,提出了基于云计算的海量数据挖掘模型,该模型利用云计算的并行处理和海量存储能力,数据挖掘的效率明显高于传统的数据挖掘,并且准确性也有了一定的提高[22]。

4 结论与展望

不动产大数据的建立可以有力地补充国土资源行业数据在社会、经济表现方面的短板,与不动产数据本身形成有机体,成为国土资源管理的核心数据集。同时,以大数据技术为支持的数据获取、融合、挖掘技术,可以更好地发挥不动产数据和大数据的价值,提升数据资源的可利用性。

后期将以四川省不动产统一登记数据为蓝本,具体研究不动产的哪些数据或数据产品,与大数据中的哪些数据融合,融合为何种数据产品,为哪些国土资源部门分析服务,最终建立不动产大数据集。

[1]甄峰,秦萧,王波.大数据时代的人文地理研究与应用实践[J].人文地理,2014(3):1-6.

[2]严正伟.基于大数据技术的国土资源信息化应用研究[J].信息化研究,2015(2):1-4.

[3]屈晓波,赵根.关于国土资源“一张图”建设的思考[J].国土资源信息化,2013(4):12-15.

[4]叶东剑.大数据“慧眼守土”:浅析江苏省盐城市盐都区国土资源信息化建设[J].中国土地,2016(7):38-39.

[5]李宗华,彭明军,黄新.武汉市国土资源大数据应用研究与实践[J].国土资源信息化,2016(1):3-7.

[6]李方正,李婉仪,李雄.基于公交刷卡大数据分析的城市绿道规划研究:以北京市为例[J].城市发展研究,2015(8):27-32.

[7]龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012(10):1339-1352.

[8]王波,甄峰,张浩.基于签到数据的城市活动时空间动态变化及区划研究[J].地理科学,2015(2):151-160.

[9]梁军辉,林坚,杜洋.大数据条件下城市用地类型辨识研究:基于出租车GPS数据的动态感知[J].上海国土资源,2016(1):28-32.

[10]孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010(15):4112-4115.

[11]于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011(3):25-29.

[12]肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013(9):60-63.

[13]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.

[14]孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016(2):231-246.

[15]化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作,2015(16):5-10.

[16]郭春霞.大数据环境下高校图书馆非结构化数据融合分析[J].图书馆学研究,2015(5):30-34.

[17]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[18]王雅轩,顼聪.数据挖掘技术的综述[J].电子技术与软件工程,2015(8):204-205.

[19]王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004(2):246-252.

[20]丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014(4):691-706.

[21]李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014(12):1211-1216.

[22]贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(2):69-72.

A Preliminary Study on Big Data Framework Based on Uniform Registration Data of Real Estate

FANG Conggang1,2,3, HUANG Zhiqin4, WU Chunjiang5, GU Jirong5, LAN Jingzhi2
(1. Peking University, Beijing 100871, China; 2. Chinese Academy of Land and Resource Economics, Beijing 101149; 3. Chengdu Land and Resources Information Center, Chengdu Sichuan 610023, China; 4. Information Center, Sichuan Provincial Land and Resources Department,Chengdu 610072, China; 5. The Faculty Geography Resource Science, Sichuan Normal University, Chengdu 610101, China)

F061.6;F062.1;F062.5

A

1672-6995(2017)09-0030-05

2017-04-07;

2017-05-02

四川省国土资源厅科技项目“基于大数据技术的不动产登记数据信息挖掘与决策支持机制研究”(201707)

方从刚(1983—),男,四川省泸州市江阳区人,成都市国土资源信息中心高级工程师,理学博士,主要研究方向:数字国土与地理信息工程。

猜你喜欢
爬虫国土资源数据挖掘
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
探讨人工智能与数据挖掘发展趋势
欢迎订阅2020年《国土资源信息化》
利用爬虫技术的Geo-Gnutel la VANET流量采集
电子测试(2018年1期)2018-04-18 11:53:04
欢迎订阅2018年《国土资源情报》
欢迎订阅2018年《国土资源情报》
2016年国土资源科技成果统计分析
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
大数据环境下基于python的网络爬虫技术
电子制作(2017年9期)2017-04-17 03:00:46