庄 艳 于志勇
[摘要]在论述数据仓库、数据挖掘和决策支持系统技术和框架的基础上,根据房地管理的实际需求,整合各类信息,建立了数据仓库,运用数据挖掘工具从大量的、不完全的、有噪音的数据中发现有用信息,为领导决策提供辅助支持。
[关键词]数据仓库 数据挖掘
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0120070-01
目前,土地管理、商品房、二手房管理、廉租住房、经济适用房、限价商品房配售已经纳入系统管理,但在统计分析、决策支持、市场预测、保障资格确认等方面仍存在诸多不足,无法在土地供应、保障性住房比例、资金补贴等方面为领导决策提供宏观数据支持。因此,建立一套基于数据挖掘房地管理决策支持系统势在必行。
一、决策支持系统框架
决策支持系统是通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,从而获得必要的洞察力和理解力,更好的辅助决策和指导行动[1]。一个充足、真实、时效性强的数据集合是实现决策支持的基础,无论计算机应用技术和系统设计展现形式如何提升,数据永远是信息化管理的核心和根本。所以房地管理决策支持系统的建立首先要求建立完整的信息化体系以长久获得规范的数据集合,这包括数据结构、用户权限管理、数字安全认证、数据交换等标准。将已有系统按照统一的标准管理体系进行改造后,整合到房地管理电子政务基础平台,新系统按照统一的标准管理体系在房地管理电子政务基础平台进行建设,基础数据、管理数据、业务数据、成果数据集中汇总至数据中心统一管理,并以此作为数据挖掘的原始数据。根据研究的主题,通过科学的数据抽取、整理等方法重组数据,形成数据仓库。数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的、用于支持管理决策的数据集合[2]。目前DB2、ORACLE等数据库系统已经可以高效地实现数据的录入、查询、统计等功能,数据挖掘作为深层次的数据分析方法,通过统计方法与数据挖掘有机的结合可以人机交互的从海量数据中发现隐藏于其后的规律或数据间的关系,预测未来的发展趋势,沙中淘金,解决“数据爆炸但知识贫乏”的现象,并建立图文并茂、直观形象的分析结果展示,发挥决策支持系统的最大效能。
二、数据挖掘过程
(一)确定业务对象。数据挖掘的最后结论是不可预测的,但要研究的主题必须是明确清晰。在房地管理中可用于辅助预测下一年住房需求量、供求比例;各年龄段人群对商品房、保障性住房的需求量和价格承受力;决策判断某块土地是应以招牌挂方式出让还是以划拨方式出让;一个新开楼盘中商品房、限价房的比例等,随着数据的积累和业务开展的深入,研究主题可以广泛扩展。
(二)数据准备。数据挖掘工作大部分的工作量是在数据准备上,数据的分散、标准的不一致是系统实现技术解决难点。
1.数据的选择。由于房地资源业务面广、涉及数据量大且关联性强,需要搜索所有与业务对象有关的内部和外部数据信息,作为数据挖掘的原始数据,根据研究的主题,从中选择出适用的数据。从管理类别上,房地管理数据信息基本分为土地数据、房屋交易数据、住房保障数据、房地产项目数据、开发企业与中介资质备案数据、基础数据六类,其中每一类又包含多个数据库,比如基础数据就包括土地利用现状数据、土地利用规划数据、土地开发整理数据、基本农田数据、农用地分等数据、城镇地籍数据、基准地价数据、土地利用遥感监测数据、数字正射影像图、三维空间数据等。
2.数据的预处理与转换。房地管理涉及的部门较多,且各部门信息化发展进度不一致,导致业务系统和数据库建设分散,数据具有多源性、多维性、类型多样性、空间拓扑特征、层次性与关联性、动态性和海量等特点[3],数据质量参差不齐。特别是在地形地貌、测绘等空间图形数据方面异构情况严重,不仅数据有Mapengine、ARCGIS、MAPGIS、AUTOCAD多种格式,坐标表示也有本地坐标、北京54经纬度坐标、西安80直角坐标三种方式,1:500到1:5万多种比例尺并存。这就必须对数据质量进行研究,按照统一的标准对数据进行噪声清洗,保证数据的全面性、准确性、有效性,才能实现数据的无障碍应用,建立一个真正适合挖掘算法的分析模型。
(三)数据挖掘。选择合适的算法,开展数据挖掘。数据挖掘的算法很多。要根据研究问题的不同选择相应的算法,比如:预测下一年住房需求情况可以采用决策树算法或时序算法,购房人员分类预测可以采用关联算法和聚类算法,涉及到三维数据时会用到空间聚类算法。要强调的是,各种算法并非独立应用的,经常是围绕主题,通过多种算法的综合协调应用才达到理想的效果。同时数据挖掘也是一门交叉学科,注重多种发现策略和技术的集成及多学科间的相互渗透。它的产生也不是为了替代传统的统计分析技术,相反,它是统计分析方法学的延伸和扩展[4]。
(四)结果分析与知识同化。对主题分析结果进行展示,并切实辅助各级领导决策。将依托三维数字城市模型,以空间定位与平面图表相结合的方式使结果展示更直观、易懂,并以强调对象生命周期的方式,跟踪每个对象的
变化轨迹。
三、数据挖掘需要的人员
不同专长的人员是数据挖掘实现的另一个必备条件,他们在数据挖掘分步实现过程中发挥巨大效能。这包括业务分析人员、数据分析人员、数据管理人员。随着软件工程的发展和应用广泛,越来越多的人发现,系统的实现最大难点往往不在算法本身,而是即懂技术又懂业务人才太少,业务人员与编程人员总是沟通不畅。
四、结束语
本文将数据挖掘,这种新的商业信息处理技术引入了房地管理当中,围绕解决城市低收入家庭住房困难和土地保护将我局长期分散的土地、房产、测绘、住房保障数据积聚到一起,解决了“数据爆炸但知识贫乏”的问题,在政府关注住房产业向关注民生住房转变时,为领导决策提供有力支持。
参考文献:
[1]刘维维,电信行业中基于数据仓库和数据挖掘技术的决策支持系统,中国科技信息,2006(7).
[2]洪沙、向芳,数据挖掘与决策支持系统,科学咨询,2008(7).
[3]文斌、张文广、张学峰、陈辉,国土资源数据分析及其整合与集成,国土资源信息化,2008(5).
[4]http://www.stcsm.gov.cn,上海科技.
作者简介:
庄艳,女,山东青岛人,中国海洋大学在读研究生,青岛市房地产交易中心、青岛市房地产信息技术中心工程师,主要研究方向:计算机技术。