文/刘玉华 (滨海新区住房和建设事务服务中心)
住房信息是反映我国居民消费水平和生活质量的重要信息,房屋维修基金是反映房地产市场状况的最好的信息资料库。
数据分析人员如果能够从这些房屋维修基金资料中,发掘出房屋价格、地段分布、居民生活用水等有价值的资料,并将这些资料整理成相关的资料,供相关部门参考,为公交线路、管道管线的设置,学校、商店等城市公共设施的合理布局等进行科学决策,是一件非常有意义的数据挖掘及研究工作。
数据挖掘是一个多学科交叉研究的课题。现在人们广泛认可的是费亚德等人所说的:数据库中的KDD是一种先进的处理方法,它可以从海量的数据中提炼出可信的、新颖的、有效的并且可以被人们所理解的模式。数据挖掘是一种多阶段的处理流程,通常可划分为:一条据抽取一条据预处理一条据转换一次发票挖掘。数据挖掘涉及很多学科和方法,分类方法也很多。
根据数据挖掘的任务,数据挖掘在房屋维修基金管理服务的应用可以划分为:分类或预测模型发现、数据汇总、聚类、关联规则发现、顺序模式发现、依存或依赖模型发现、异常发现、趋势发现等。根据数据挖掘的任务和方法,数据挖掘在房屋维修基金管理服务应用可以分为几大类:关联规则、数据总结、分类发现和聚类发现。
房屋维修基金的实质是住房公共设施专项资金和住房主体的维护资金,房屋公用设施专项资金,即专项资金,是指对物业共用部位、公用设施和设备进行更新改造的专项资金。专项资金“钱随房走”,在住房转让时,将账户内剩余的资金转入新的产权人。在住房维修资金方面,业主在购房时必须按规定交纳一定的费用,其目的是为以后的房屋维护服务。维修资金归所有人所有,交完钱以后,无论是小区里的公共区域问题,还是业主家里的一些维修问题几乎都可以解决,可以说是解决了许多的问题。通常来说,房屋维修资金是在购买时就要缴纳的,而购房者和销售公司关于维修资金的某些条款,在此条款中明确了维修资金的支付比例,房屋维修资金由购房者按照购房款的2%-3%支付,并且按照购买面积和购买总量的标准收取,所有的费用都由所有人共同承担。房屋维修资金是房屋保修期届满后,房屋主体结构、公共部位和公共设施设备的大、中修和更新改造的资金。主要承重构件包括基础、内外承重墙体、柱、梁、楼板、屋顶等,公用部位指户外墙面、门厅、楼梯间等,以及道路、沟渠、非经营性停车场等。
数据挖掘的目标是现实中的数据,现实中的数据往往是不完整的,比如在一些属性栏中,会出现一些缺陷,由于缺少必要的资料,导致资料不完整,例如,资料不精确、包含噪音、甚至是错误资料等。由于房屋维修资金的使用存在着大量的数据缺失,因此,研究者对数据的预处理中缺少的数据进行了探讨,并提出了一种基于合作筛法的改进算法。房屋维修资金资料整理工程,要求各单位之间进行协作、共建、共享,以及运用现代科技手段,要按照统一的计划,逐步推进信息化建设。在数据挖掘中,大量的数据都是不完全的(有缺失的)、不完整的、有缺陷的数据,这些数据会对数据挖掘的效率产生很大的影响,甚至会造成数据的偏差,因此,数据的清理非常重要,数据清理完成后接着进行或者同时进行数据集成、变换、规约等一系列的工作,该过程就是数据预处理。资料预处理的主要工作是:资料清理、资料整合、资料规约、资料转换。
1.数据清洗
在统计上,丢失的数据会产生误差,从错误的角度来看,不能很好地反映出整体的情况,而在数据挖掘在房屋维修基金管理服务的实践中,所有的数据都含有一个缺失的值,所以丢失值的处理非常重要。该方法主要分为丢失数据的确认和丢失值的处理。常见的方法有:删除、替换、插补法等。删除是最简便的方法,按数据处理的不同,可以把观测样本删除和删除变量两类。根据属性,变量可以分为数字类型和图形类型。如果一个变量是一个数字类型,那么这个变量的所有其他物体的值的平均值就会被替换掉。常用的插补方法包括回归插补、多重插补等。回归插补法是将需要插值的变量作为因变量,将其他相关变量作为因子,利用回归函数对因变量进行预测,从而对缺失变量进行修正。在进行异常处理前,必须先对其进行分类,一般都是采用单一散点图或者盒状图来实现。
2.数据集成
数据挖掘所要求的数据常常分散于不同的数据来源,而数据整合则是把多个数据源整合到一个独立的数据仓库中。在进行数据集成时,真实世界中的多个数据源的表现是不一致的,存在着不匹配的风险,需要从最基础的源数据转换、提炼和集成。实体识别就是从不同的资料来源中,辨识现实世界中的实体,其工作就是处理各种元数据的盾牌,普通的盾牌就像各类名称,名字一样但单位却不一样。数据挖掘在房屋维修基金管理服务数据整合中常常会造成数据的冗余,比如:多个同源属性和多个同源属性的名称不一致,从而造成重复。
3.数据变换
数据转换主要是对数据的处理、连续变量的离散化和变量的构造,使数据转化为“适当的”格式,满足了数据挖掘的需求。简单函数转换是将常用中的一些数据函数进行转换,包括平x、开x、取对数、差分运算等。由于各种评估指标的量纲差异较大,因此,如果不进行统计处理,将会对数据的分析产生一定的影响。为了避免不同的指数和数值区间的差别,必须采用规范化的方法,将不同的数据进行分类,以方便进行全面的分析。最小-最大标准化、零-均值标准化、核数化标准化等是目前研究的热点。一些数据挖掘算法,尤其是ID3算法、Apriori算法等,都需要以分类的属性格式进行数据处理。通常,把一个数据挖掘在房屋维修基金管理服务数据连续的属性转换为一个类别的属性,也就是一个连续的属性的离散。数据挖掘在房屋维修基金管理服务数据离散化过程中,连续属性的离散化是指在数据的数值范围内设置若干离散的分割点,并将这些分割点分成若干个离散的区间,最终用不同的一致性或整型数值表示各数据的数值。
项目组的人员对整个工程的整个过程进行了剖析,一开始是由开发商收取的,之后因为年代久远、测绘资料遗失等原因,结果有缺失,比如X幢X户的面积与资金数量不符,由信息中心的工作人员利用GIS进行土地测绘,以确定某一单元的范围。尽量用清晰的地面(道路、胡同、围墙)在小区的边缘,田埂、河流等),用文字标示,无明显地名标记时,应按小区边界两侧建筑物或其他地面物体的名称,用文字说明和标示。然后,按照建筑的位置进行实地勘察,在特定的区域内,将这栋楼的住户一一对应,但却不一定是同一个人,比如某个单元被拆除了,没有找到,或是已经被改为店铺卖掉的,这一切都要一一记载,等待进一步的调查。下一步,由财务部调取X幢X户的销售面积清单,再到物管部门查询记录(即维修资金)。物业管理部门负责小区物业专项维修基金的安全、集中和增值,负责运作、使用以及管理信息和档案。物业管理部门将房产分析表格与房产测绘资料进行比对。如果二者不一致,则由产权部门调取存量房屋的确权证书,并与相关的台账和测绘资料进行比对,最终确定的是确权证书,之后,物业管理部门会对现有的维护资金进行清理,重新生成新的数据并进行分配。这是一个涉及各个部门、不同工作人员的工作,需要齐心协力,在这个过程中,会遇到许多意想不到的问题。我发现了一个很大的问题,那就是店铺的名称不是XX区的,需要提供一个准确的地址。相似的例子:如果是自己盖房子,那就很难找到他们所属的物业公司,只能找到他们的下属单位,很难对齐,要特别小心那些可能发生的困难。
在维修基金资料整理工程中,建立一套完整的房屋维修资金资料比对查询系统是其中的一个关键环节。本研究团队通过对整个工程的需求进行了分析,将管理的要求转换成了可以用软件来完成的功能描述,并在此基础上建立了三层系统,将系统划分为用户界面层、业务逻辑层和数据库层。由于B/S架构采用了http,因此在数据传输方面存在着一定的局限性,且不存在专用C/S通讯,为了满足整个工程的快速查询需求,本系统更适合C/S架构的开发。住房制度的改革,是构建社会主义市场经济体系的一个关键环节。《国务院关于深化城镇住房制度改革的决定》颁布后,我国住房制度改革的步伐明显加快,住房分配货币化、住房商品化已经根植于人们的心中,房地产行业的发展速度很快,很多商品房也开始超过保修期,公共部位、设施设备的维修问题会影响到社会和谐,所以及时建立维修基金并且对维修资金进行有效管理和核查的重要性显得非常突出。
房屋维修资金的管理是根据本市住房公积金管理机构的委托,为实现对维护资金的合理利用、动态实时监测的目的而进行的。但是,由于存在着大量的缺失数据,无法通过计算来弥补,需要从数据来源中获取更加详细的信息。通过运用现代计算机技术、网络技术,实现了房屋维修资金的信息化管理,达到了房屋维修资金的信息化、规范化、科学化。全面、准确、及时地搜集各类资讯,并进行适当的整理,使之真正成为能够共同分享的一种资源。在决策过程中,能够快速地向决策层传达重要的信息,降低信息的冗余、混淆,加快信息的传递,改善信息资源的使用和品质。加强计划控制功能,通过对各类经营信息的持续收集、分析,发现企业经营活动的一般规律,形成计划控制的基础,防止盲目的、不合理的行为,节约成本,加强技术管理。
在数据仓库中,多维数据的设计与其对数据的处理效率有着直接的联系。OLAP多维数据的实现有很多种,按其存储方式的不同,可以将其划分为:桌面OLAP(DOLAP)、关系OLAP(RoLAP)、MOI_AP(multi-OLAP)、tfOLAP(multi-OLAP)。DOLAP,就是将OLAP所需要的资料通过OLAP进行分析,然后将其保存到客户机中,使其能够不被网络瓶颈所限制,但是却很难保证操作的安全与数据的安全,同时也有管理和维护的问题。这种程序仅适用于小规模的工程。ROLAF代表OLAP(RelationaloLAP)在关系数据库基础上的实现。以关系式数据库为中心,以关系式的方式对多维数据进行表达与存储。ROLAP把多维数据库分为两种类型:一种是用于存储数据和维度关键词的事实表格,另一种是多维数据表,它为每一维存储了维的层次、成员类别等维度的描述信息。维数和事实表是由主键和外部键结合而构成的“星型模式”。为了防止冗余数据占用大量的存储空间,采用多张表格进行描述。
MOLAP是一种以多维数据为基础的OLAP实现,它的核心是多维数据的组织,即MOLAP采用多维阵列来储存资料。多维数据在存储过程中会形成“立方块”的结构,而MOLAP则是“旋转”“切块”和“切片”等“立方块”的关键技术。HOLAP是一种OLAP(HybridOLAP),它是以混合数据结构为基础的OLAP。例如,底层为关系型,而上层为多维矩阵型,这样做更加灵活。也有其他方式来实现OLAP,比如为特定的SQL查询提供特定的SQL查询服务,例如星型、雪片型等。考虑到本分析系统的数据量并不大,而且数据库记录的添加和更新也是有规律的,基本上是每天的数据量的增长,而且由于数据的特殊性,涉及的领域也不广,考虑到效率和其他因素,我们采用了MOLAP技术,将其应用到SQLSERVER2000的AnalysiSServices上。使用多维资料集合精灵,对房屋多维资料进行了定义。建立一个事实资料表格,在一个事实资料表格中识别一个度量,然后建立一个维度,每一个维度都包含一个或多个其他表格。在定义了一个多维资料集合之后,再利用储存设计精灵来设计它的集合。在新多维数据集合的设计完成之后,通过“完全处理”选项来处理这个多维数据集合,并利用它进行维护。
维修资金管理信息查询系统是为了满足用户的需要而开发的,因此,开发人员要了解整个系统的整体目标和工作模式,首先要明确系统的要求,也就是决定系统的功能。在这个维修基金资料比对查询系统的研制中,经过交流、修改、多次反复,最后确定了系统的需求。系统的需求可以概括为:测绘成果查询、产权查询、合同备案查询、维修资金资料的对比查询。这个系统不仅可以方便地增加和修改用户信息,还可以根据建筑的不规则结构,进行多个房间的改造,每一个特定的房间都是由建筑物和单元生成的。数据挖掘在房屋维修基金管理服务报表的产生,在统计中有很大的作用,可以将以前遇到的各种报表或者是自己所需要的报表,都可以用Excel格式进行分析。为了满足维修资金比对查询系统各个层级的信息查询与统计要求,将各层次主管部门的相关数据从专用服务平台上自动传送至专门的查询数据库,即使网络服务器遭到恶意攻击,也不会对其业务的处理环境产生任何影响,而且可以轻松地利用专门的商业平台系统来恢复Web服务器的数据。
综上所述,随着我国房地产业的迅速发展,房地产市场的信息化进程也在不断加快。随着物业管理工作的不断深入,传统的物业管理手段已经不能满足发展的需要,计算机和网络技术在各方面的优越性已经充分体现出来。及时运用数据挖掘在房屋维修基金管理服务现代科学技术,建立数据挖掘在房屋维修基金管理服务信息比对查询体系,是贯彻国家科学发展的必然要求,也是与时俱进的具体表现。运用现代信息技术和现代科技与管理方式,对房屋维修基金的各个层次的用户,进行便捷、精确的数据管理,并对其进行多方位、高效的监督和管理,为业主、物业提供全面的维修资金信息,以实现对房屋维修资金的实时监测。随着信息化建设的不断深化,数据挖掘在房屋维修基金管理服务企业对信息化的依赖程度不断提高,对信息化建设的需求也日益增加,数据挖掘在房屋维修基金管理服务数据库必须与时俱进,以满足不断变化的信息需求。