郎振红
(天津电子信息职业技术学院,天津 300132)
网络化物业管理系统中数据挖掘的应用
郎振红
(天津电子信息职业技术学院,天津 300132)
针对住宅小区日益走向物业化管理,众多的物业公司都应用计算机实施网络化的物业管理及物业管理系统中已经存在大量数据的现状,认为可以构建数据挖掘模型,通过频繁项集产生关联规则,最终得出有效的物业费收取决策,使物业公司的效益实现最大化。
数据挖掘;关联规则;物业管理
随着城市各种高档小区、公寓、别墅的拔地而起,与之配套的物理管理也逐步走向网络化管理、智能化管理和现代化管理。但绝大多数的物业公司都是自主经营、自负盈亏,物业费的收取成为各物业公司一项非常重要的工作。多数小区物业公司都已经应用了计算机网络管理,经过数年的正常运转后,在物业管理系统的数据仓库中积累了大量的收费信息数据和用户基本信息数据。可以结合当今较为流行的数据挖掘技术充分利用这些积累的数据信息,从中挖掘出有用信息,以便提高信息利用率,更合理地配置现有资源,实现物业公司的最大利润率。本文主要阐述利用数据挖掘技术如何实现物业管理系统的信息挖掘操作,并为物业公司制定出相应的收费决策。
所谓数据挖掘(Data Mining)是指从大量数据中提取或发现知识[1]。它通常要利用相关的数据挖掘模型,从大量的纷繁复杂的数据中抽取用户感兴趣的数据信息,并且通过支持度与可信度的计算将抽取出来的数据信息进行量化,从而识别出用户真正感兴趣的、具有极强关联关系的信息,作为用户决策的依据和挖掘潜在需求的参考。在实际的数据挖掘中,面对大量的数据信息提取和发现知识的具体操作步骤为:定义分析主题,进行数据预处理;设计数据模型,进行数据变换和选择;综合使用多种数据挖掘方法建立数据挖掘模型;对挖掘出的模式进行评估和实施[2]。
所谓关联是指两个或多个变量的取值之间存在某种规律性。在众多的数据当中如果两个或多个数据之间存在着某种联系或规律性的关系称之为数据关联,它是数据库中存在的一类重要的可被发现的知识[3]。通过关联的分析可以找出数据仓库中潜在的数据信息的关系网,以此作为发现知识的出发点规划出相应的关联函数,并且计算生成规则的可信度,以此作为数据挖掘的基础信息,完成数据挖掘操作以及实现系统分析与决策处理。迄今为止,最典型的关联规则的应用案例就是“啤酒和尿布”的实例。通过数据挖掘商家了解到关联信息之后,便从货架上物品摆放的位置、仓库储备商品的数量等方面进行规划并作出相应的进货计划方案和销售决策方案。
Apriori算法是最经典的关联规则挖掘算法,是由Agrawal首次提出的,是基于计算候选集的递推方法,其思想是利用已知的高频数据集推导其他高频数据项集,是一种宽度优先算法[4]。该算法的核心思想就是寻找频繁项集,并且利用了频繁项集的向下封闭性,即频繁项集的子集必须是频繁项集。根据这一突出的特点产生新的候选项集,然后计算支持数,将小于规定数据值的分支进行修剪,最终完成关联规则的挖掘操作。但该算法存在着候选项集数目庞大,最小支持度设定困难等缺陷,本文提出了一种改进的Apriori算法的设计思想。
通过对物业管理系统中数据的挖掘操作找出相应的关联规则,最终得出居住在本小区内不同类型的业主交纳物业费的习惯,以便物业公司的收费人员因人而异采取不同的收费策略。针对与该主题相关的数据信息和背景知识进行如下的分析处理。
(1)业主交费政策。每月的前十天收取本月物业费,但为了鼓励业主主动上交费用,并对没有特殊原因而逾期交费用的业主进行相应的惩罚,物业公司制定了业主交费的相应政策。按月交费的业主按实际费用收取;一次性上交三个月物业费的可以享受2%的优惠;一次性上交六个月的可以享受5%的优惠。故意拖欠物业费的,在当月10日之后至月末之前交费的业主,加收1%的惩罚款;超出当月月末应当加收5%的惩罚款;如果再延长一个月加收10%的惩罚款,以这种递进关系以此类推。因此,交费金额P与交费时间T之间存在着T→P的对应关系。
(2)数据库的基本信息。物业公司管理系统使用的是关系数据库SQL Server2005,这个数据库系统具有数据仓库的功能,可以作为数据挖掘的后台数据仓库使用。为了更有效地进行关联规则的应用,本文选取了表1作为数据挖掘的基础信息。
表1 关系数据库中的数据表
其中,交费月份为业主所交纳该笔费用应为哪一个月份的物业费,而交费时间为业主交费的具体日期。由于具体交费金额是根据房产面积进行计算的,因此,数据表中较为明显的关系是A→P。
(3)数据库构建技术。本系统的开发平台使用的是具有数据仓库功能的关系数据库SQL Server 2005,并且运用了OLAP工具建立的多维数据模型。该模型将数据看作立方体(data cube)形式,其中,数据立方体由维和事实定义。根据关联规则的相关性分析,可以得出与业主交费记录相关的维度表与其事实表的模型,如图1所示。
图1 维度表与其事实表模型图
(1)不同时间交费信息的泛化分析。交费记录都详细而明确地记载在管理系统中,因此,在不同时间段交费的业主数量与具体的交费时间之间可以形成明确的量化关系,通过二维表格的形式予以表达,见表2。
(2)不同交费方式信息的泛化分析。根据业主的具体情况可以采取不同的交费方式,但是每户业主的交费方式不是一成不变的,因此本文以2009年11月为例将交费方式与该方式对应的业主数量进行量化,见表3。
表2 2009年11月物业费不同时间段交费信息表
表3 2009年11月物业费不同交费方式信息表
(1)业主住房面积分析。选取共有2 170户业主的小区,对住房面积进行聚类分析,并在住房面积与住房类型之间进行概化分析,得出房型可分为一室小户型(面积=56 m2)、两室中等户型(56 m2<面积≤90 m2)、三室一厅大户型(90 m2<面积≤114 m2)、三室两厅大户型(114 m2<面积≤132 m2)和四室超大户型(132 m2<住房面积≤168 m2)等信息。由于物业费的计算是根据住房面积按每平米进行核算,收取金额是与住房面积有密切关系的,面积越大交纳的费用就越高,所以,在住房面积与实际所要交纳的物业费用之间存在着很强的关联关系,因此,在建立数据模型进行关联挖掘时可以考虑选取住房类型作为关联挖掘的依据执行下钻操作。
(2)业主所从事的职业性质分析。业主的工作性质决定了其收入以及在家时间,收入和时间又与选择交纳物业费用的方式之间存在着较强的关联关系,因此,将此小区所有业主的工作性质、收入与在家时间进行了划分,即工作性质=企、事业单位(周一至周五每天工作8小时),收入=中等,在家时间=每天晚上和周末;工作性质=自由职业,收入=中、低档间波动,在家时间=不确定;工作性质=拥有私家公司,收入=较高,在家时间=周末;工作性质=退休,收入=较低,在家时间=全天候;工作性质=无职业,收入=无保障,在家时间=全天候。可见,工作性质是进行数据挖掘的又一依据。
考虑频繁项目集的子集也是频繁的,非频繁项目集的超集也是非频繁的,为了节省系统的运行时间,提高数据挖掘效率,因此考虑减少无用的候选项子集,从而实现不用剪枝的下一级候选频繁项集[5-6]。具体的算法思想是:先设定最小支持度,扫描事务数据库,用一张特定的数据表B记载事务中的项集和出现次数,将该表存入候选1-项集的数据表中,将小于最小支持度的项集删除,便得到频繁1-项集。然后在任意两个不同的频繁1-项集引用中一个去掉第一个元素,另一个去掉最后一个元素后如果完全相等,则这两个频繁1-项集引用可以合并成一个2-项集引用,因此,将频繁1-项集连接产生2-项集,将其存入候选2-项集的数据表,然后接着扫描事务数据库,对每个候选项集的支持计数,便得到频繁2-项集,同理重复执行上述的步骤,直至候选项集的所有子集都不是频繁项集时,便找到了所有的频繁项集,算法终止[7-8]。
(1)设置数据挖掘的基本属性信息。首先设定最小支持度为2%,可信度为50%,然后设定所要考察的数据信息,本次挖掘选择了2009年11月份该小区的物业交费数据,从数据库中抽出如下的字段:房产面积、工作性质、交费金额、交费时间、优惠政策、惩罚政策等作为数据挖掘依据。
(2)生成频繁项集。根据改进的Apriori算法得到候选项集C1,计算最小支持度,将小于2%的信息删除,得到频繁项集L1,以L1及数据表B为基础,构造候选集C2,计算最小支持度,将小于2%的信息删除,得到频繁项集L2,以此类推,直至形成频繁项集合L为止。
(3)产生关联规则。在频繁项集中将可信度大于50%的规则作为数据挖掘的范围,剔除不符合逻辑的规则,最终得到强关联规则,如表4。
表4 业主与交费倾向的强关联规则
(4)总结物业收费策略。为了使得物业公司效益最大化,本文通过构造的数据挖掘模型,制定出相应的收费策略:
①对于中、小户型的业主,职业或是退休或是在企、事业单位上班,由于他们在家时间比较固定,每月收入固定且属于中等收入水平,因此,一次性上交三个月费用的优惠政策对他们极有吸引力,物业公司可以在周末采用上门收费的方式,以便减少不交或漏交费用情况的发生。
②对于大户型或超大户型的业主,职业是拥有私家公司,由于他们在家时间不固定,但月收入较高,这些业主看中的不是优惠政策而是时间,因此,对于他们最好采取一次性交纳六个月费用的政策,物业公司可以先通过电话与这些业主商议交费时间,采用个案分析法,通常可以将收费时段规定在六月或年底一次性收取。
③对于大、中、小户型的业主,职业或是企、事业单位或是自由职业,这些人占小区的人数比例较大,收入有保障,在家时间基本可以确定,因此,物业公司可以采取在每月规定的交费时间段,组织专门的人员进行集中式收费。
④对于中、小户型的无职业者的业主,由于他们收入无保障,但他们在家时间较多,物业公司可以派人多次上门催交,也可以适当采取一些减免政策,保证物业公司的损失降到最低。
该模型的实际使用确实收到了预期的效果,无论从理论应用、方法改进、算法设计等方面都体现出该数据挖掘模型构造的成功。但是从挖掘的灵活性、交互性、智能性等方面还有待于提高。
[1]Han Jiawei,Kamber M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.
[2]冀振明,陶世群.基于电信运营中大客户流失的数据挖掘模型[J].计算机工程与应用,2004(23):169-171.
[3]董引娣.数据挖掘中关联规则在零售业中的应用[J].重庆科技学院学报:自然科学版,2010(1):121-123,146.
[4]王伟勤,郑海.Apriori算法的进一步改进[J].计算机与数字工程,2009(4):20-23.
[5]战立强,刘大昕.频繁项集快速挖掘算法研究[J].哈尔滨工程大学学报,2008(3):266-271.
[6]戴小廷.Apriori算法的改进及其在电力数据挖掘中的应用[J].沈阳理工大学学报,2010(1):18-22.
[7]董祥军,王淑静,宋瀚涛,等.负关联规则的研究[J].北京理工大学学报,2004(11):978-981.
[8]董萍.关联规则在学生成绩中的数据挖掘[J].三门峡职业技术学院学报,2009(4):117-120.
The Use of Data Mining in Networked Property Management System
LANG Zhen-hong
(Tianjin Vocational College of Electronics and Information Technology,Tianjin 300132,China)
It is pointed out that building data mining model is feasible,based on the current situation:the housing districts are moving towards property management day by day;many property managementcompanies tend touse computers and achievenetworked property management;there are a large number of data in property management system.The association rules will be generated through frequent items.An effective charging policy of property management fee will be drawed finally,maximizing the benefit of property management companies.
data mining;association rules;property management
TP 311.13
A
1008-3863(2011)04-0088-04
2011-01-19
郎振红(1975-),女,天津人,天津电子信息职业技术学院讲师,硕士。
【责任编辑 祝 颖】