房地产动态估价系统的设计与研究

2020-04-22 20:37潘巍晋松
无线互联科技 2020年4期

潘巍 晋松

摘   要:文章对房地产估价方法进行分析,研究房地产价格时变性的估价系统,并提出一种新型的房地产动态估价系统的设计方案,在方案中将分布式爬虫技术和基于回归的增量学习方法相结合,为构建房地产动态估价系统奠定了良好的基础。

关键词:房地产估价;动态估价;分布式爬虫;增量学习

1    房地产估价方法的研究现状

房地产估价方法的研究起源于欧美国家,并应用到银行和信托等金融机构的抵押贷款和房屋贷款中,但在中国起步较晚,因近年来房产交易的火爆使得房地产估价成为必要的金融行业避险手段。近年来,在党中央国务院为防止房产过热和保持健康合理的房地产市场秩序,下发了一系列的个人房屋贷款政策。得到合理的房产价格,将对金融机构的运营的风险产生巨大的影响并产生极其深远的意义。现有的机器学习方法,如模糊修正方法、神经网络、SVM等都没有考虑到房地产数据的时变性,无法对房地产数据进行动态估价。

2    房地产动态估价系统的数据需求

房地产动态估价系统是为银行房地产评估师研制的一款对房地产价格预测分析的系统,使其在对房地产进行估价时得到有效的参考。房产抵押贷款中的房产价格随时间和市场供求关系的动态变化而变化,从而房地产动态估价系统使银行评估师评估出的房产价格更符合当前市场的价格。

2.1  系统数据构成

数据采集是本项目的重要组成部分,其为系统提供外部数据的接口,是信息系统与外部世界的桥梁。数据采集将外部相关的房产数据采集到数据采集服务器上,然后在采集服务器中实现数据存储、数据整合和数据备份功能,最终将整合后的数据写人数据库服务器,以备房地产估价算法所用。

2.2  系统数据来源

对于房产数据的来源,本系统中数据采集系统主要通过人工采集、购买和Web数据3种方式进行数据采集。人工采集的数据是通过工作人员到实际的房产地去调研而得到的房产数据。购买数据是指从房地产经纪公司购买的交易数据。Web数据主要是指存在于Internet上的房产交易信息数据,如安居网、58同城网上提供的房产交易数据。

3    房地产动态估价系统的设计

3.1  房地产动态估价系统的业务数据流程设计

根据系统数据需求,我们可以得到系统的业务数据流图。本系统的工作流程:首先管理员通过配置分布式网络爬虫系统分配任务,每个爬虫节点收到任务后连接Internet上的URL地址进行HTML数据的采集,采集完成后将爬取的HTML数据进行网页分析处理(正则表达式来匹配HTML数据),得到整理提炼后的信息,将这些信息存储到指定格式的TXT文件中,然后将TXT文件传输到数据采集服务器中;其次通过数据暂存服务器中的TXT数据进行入库操作,并且也可以对人工数据进行数据导入到数据库,将其装入到系统的数据库中;之后将系统的数据库的数据进行数据清理和数据集成处理并建立数据仓库的数据集市,最后通过房地产估价系统中的算法来得到最终的结果,并展现给最终用户。

3.2  房地产动态估价系统的功能模块设计

房地产动态估价系统的功能模块(见图1)。本系统分为数据采集子系统和房地产估价子系统。数据采集子系统是采用分布式网络爬虫来实现采集HTML格式的房产数据,人工数据导入是系统自动将购买和调研得到的房产数据导入到数据库中,而采集数据导入是将采集来的Web数据写入到数据库中。

在房产估价子系统中主要包括数据查询、数据清洗、数据变换、数据去噪和价格预测等核心模块。数据查询模块是用户给出查询的条件,在数据集市中选取出符合询的条件的记录,在其上进行房地产价格回归预测得到最终的房地产价格的结果。数据清洗是对数据进行去除二义性的操作。数据去噪模块采用DBCAN聚类算法对数据进行去噪处理[1]。数据变换模块首先将不同格式的数据属性值变换成统一的呈现格式,在此基础上对数据进行規范化处理。价格预测是负责随市场供求关系和时间变化的房地产数据回归预测算法的核心模块,它实现房地产估价的时变,本系统采用了LS-SVM的增量学习方法[2-3]。

数据采集子系统可划分为两个部分:爬行节点模块和控制节点模块,如图2所示。其中设备管理模块、任务分配模块、节点通信模块实现了分布式网络爬虫中控制爬虫节点的运行和任务下发。爬虫节点模块由接受任务模块、HTML页面数据采集模块和数据上传模块组成,是爬虫节点的核心部分,它直接与控制节点进行通信。任务分配模块是指,在本项目的分布式网络爬虫系统工作时,由于是所有节点协同工作,因此很容易访问到重复的URL页面,同时将庞大的爬行任务分配给爬虫系统,需要保证每个节点的负载平衡。首先任务分配模块将采集任务写入数据库中的站点任务表,然后节点通信模块由采集站点任务表中的信息来下发任务给爬虫节点,之后爬虫节点接到任务后进行HTML页面采集,最后爬虫节点将采集到的房产数据通过数据上传模块将数据FTP到数据库服务器。

控制节点在爬行系统中不参与爬行过程,它主要负责整个系统管理工作,该节点对爬行节点信息维护主要是通过设备管理模块来完成的。它可动态地调整爬行节点的数量,使得系统具有良好的可扩展性。

[参考文献]

[1]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61.

[2]夏文静,陈耿,范丽亚.八种最小二乘SVM型学习算法的优势比较[J].聊城大学学报(自然科学版),2016(2):33-41.

[3]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].计算机学报,2006(3):400-406.