■仇晓洁 罗荣芸
(河北经贸大学财政税务学院,河北石家庄050061)
2021年3月,十三届全国人大四次会议通过的“十四五”规划和2035年远景目标纲要,明确将“推进房地产税立法”纳入工作重点[1];5月,财政部、全国人大常委会预算工委、住房和城乡建设部、国家税务总局召开房地产税改革试点工作座谈会,听取部分城市及部分专家学者对房地产税改革试点工作的意见;10月,第十三届全国人大常务委员会第三十一次会议通过《授权国务院在部分地区开展房地产税改革试点工作的决定(草案)》;房地产税的开征渐行渐近。为满足房地产税税基评估的需求,需不断提升房地产税税基评估的批量评估技术。基于此,本文试图借助机器学习以及大数据资源,引入新的房地产批量评估技术--人工神经网络的多层感知机,探索二手住宅的批量评估模型,以期为预期的房地产税征收提供计税依据。
房地产批量评估,就是指评估机构和人员在给定时间用标准化的方法,引用共同数据,进行统计测试等方法对大批量房地产进行评估的过程[2]。
通过梳理国内外文献发现,房地产批量评估中应用较早、且较为常用的方法是特征价格模型,常用形式是线性回归,它是基于特征价格理论构建的模型。该理论认为房价是由多种特征带给人们的效用决定的。国内外学者皆尝试利用此模型对房产税税基进行批量评估。其中,国外研究多集中于特征价格模型本身的优化改进,如用加法,乘法,混合模型回归方法(Connor,2002)[3],或是模型与传统市场法的效果对比(John D.Benjamin,Randall S.Guttery,C.F.Sirmans,2004)[4]。而国内研究主要针对变量关系、模型本身改进等方面展开研究,如用弹性分析影响因素间关系(孙礼圣、邓宇,2018)[6],利用空间计量优化特征价格模型(金杰,罗婷婷,2021)[7]。
但伴随大数据时代的到来,机器学习开始逐步被应用于各类领域中,包括房地产批量评估。所谓机器学习,即使用计算机模拟或实现人类学习活动的科学,通过对数据或经验的学习实现自身改进。目前,运用于房地产批量评估中的机器学习的算法,主要有随机森林、支持向量机和人工神经网络等算法。其中,随机森林是一个包含多个决策树的分类器,其取多棵决策树组合在一起取预测值的平均值为结果,国外学者较早尝试此方法,通过构建随机森林模型对房地产价格进行评估(EA Antipov,EB Pokryshevskaya,2012)[8]。支持向量机算法是利用有限的样本信息进行模型训练。在房产税税基批量评估中,支持向量机算法通常作为对比的方法出现(司玺同,2019)[9]。人工神经网络(Artificial Neural Network,ANN)是目前机器学习的研究热点,具有自学习功能,自适应性强。它通过模仿人类大脑神经元系统相互协作完成任务的过程,引入激活函数刺激神经元,将信息传递到下一层,变成非线性的信息处理系统。人工神经网络主要包括多层感知机、BP 神经网络、卷积神经网络及递归神经网络等。而在房地产批量评估中应用较为广泛的人工神经网络模型是BP 神经网络模型,如收益性房产评估(赵愈等,2021)[10],城市二手住宅评估(陈诗沁等,2020)[11]。
与BP 神经网络不同的是,多层感知机是一种前馈神经网络。后者将输入的多数据集映射到单一的输出数据集,克服了单层感知机不能对线性学习不可分数据进行识别的缺点。与BP 神经网络相比,多层感知机的运行和训练效率更快,更多地是偏向一种结构,而非算法。作为基础的神经网络,后期可以对多层感知机添加多种算法不断优化,可操作空间更大。但利用多层感知机进行批量评估的研究较少。
综上所述,鉴于多层感知机的优势,在此运用多层感知机模型,对石家庄市长安区二手住宅进行批量评估,将特征价格模型作为参照模型,对比两个模型的评估结果,以验证多层感知机模型在批量评估中的有效性,为税基批量评估提供新的思路。
另外,为确保结论的准确性,将此模型运用于石家庄市裕华区二手住宅的批量评估做进一步验证。
多层感知机(Multilayer Perceptro,简称MLP)模型也称为多层前馈神经网络模型,是人工神经网络模型的一种。所谓人工神经网络是一种可用于处理具有多个节点和多个输出点的实际问题的网络结构,除了输入输出层,它中间可以有多个隐层。多层感知机也具有同样的结构,这一结构使其具有出色的非线性匹配和泛化能力,如图1[12]:
图1 多层感知机结构
从图1 可看出,多层感知机层与层之间是全连接的。多层感知机最底层是输入层,中间是隐藏层,最后是输出层,多层感知机是一种前向的神经网络,它的输入是一组向量,输出为另一组向量。多层感知机由输入层(In-put Layer)、隐藏层 (Hidden Layer)和输出层(Output Layer)构成。其中,隐藏层又可以包含多层。每层由多个节点构成,每层又可以传递给下一层,直到输出层。除去输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。隐藏层的神经元与输入层是全连接的,假设输入层用向量X 表示,则隐藏层的输出就是 f(W1X+b1),W1 是权重(也叫连接系数),b1 是偏置,激活函数f 可以是常用的sigmoid 函数或者Tanh 函数。激活函数能够给神经元引入非线性因素,这使得神经网络可以任意逼近任何非线性函数中,神经网络可以利用到更多的非线性模型中,由于Tanh 函数的均值为0,弥补了sigmoid 函数均值为0.5 的缺陷,因此本文使用的是Tanh 函数作为激活层的函数,即双曲正切函数,此函数在原点附近几乎是线性的,便于下一层的计算,使得输出结果更加准确快速。
考虑到房地产评估的特征,研究的数据主要分为网站上的挂牌交易数据、样本小区信息以及样本地理数据。基于数据获取难度和信息详略程度,数据来源主要选取有:链家网站、百度地图GIS 以及各大房地产中介网站问答板块。
1.挂牌交易数据:利用Python 爬取了链家网站上石家庄市长安区在售二手住宅的相关信息,共取得2 067 条挂牌二手住宅的信息,通过对部分样本缺失值去除,筛选重复样本,去除非典型样本后,得到了包含全部预期特征变量的1 045 个样本,其中包括:总价、单价、户型、楼龄、总楼层数、物业费、小区户数、装修情况、方位等9 个指标的相关数据;
2.样本小区信息:通过搜查各房地产网站的问答板块核实典型样本的小区信息,确认了绿化率,容积率,重点学校划片情况的真实数据;
3.样本地理数据:利用百度地图GIS 测量了样本到市中心的距离,两公里内学校、医院、地铁、公交、商业中心的数量,获取了共6 个指标的相关信息。
通过对房地产评估实务经验总结以及样本分析,将影响价格的因素主要分为建筑特征、邻里特征、区位特征三个方面。其中总价和单价为目标变量,其余16 个为特征变量,预期会对房价产生一定影响。具体指标及对数据进行量化的方法主要如下:
表1 变量解释与量化
对特征变量的量化结束后,对变量进行描述性统计分析,相关统计如表2:
表2 描述性统计
1.样本分区
利用SPSS 内置的多层感知机进行模型预测,根据以往相关文献和研究经验总结,通常以7∶3 的比例划分训练集和检验集。因此在1 045 个样本中,随机选取725 个样本进行训练,320 个样本作为测试集对训练出的模型进行检验。
2.模型检验
平均总体相对误差和相对误差可以评价数据的变化程度,两者值越小,说明评估模型描述数据有更好的精确度,拟合效果更好。通过机器学习后,训练集的平均总体相对误差为0.068,检验集平均总体相对误差为0.162,平方和误差也较小,说明本次训练机器学习具有较好的效果,精确度较高。
3.预测值对比
当评估值和真实值重合得越多,两者就越易汇合到y=x 的直线上,说明模型评估效果越好。如图2,在多层感知机模型的训练下,单价评估值与实际值重合点占总点数的绝大部分,单价的评估值和真实值的散点图汇聚成为了y=x 的直线,且很清晰。说明模型具有较好的预测效果。
图2 单价评估值与实际值对比图
4.变量重要性
变量重要性通过观察SPSS 中正态化图例得出。由图3 正态化图例发现,长安区二手房样本中对因变量影响解释性最强的是楼层数,比例接近100%,其次是对口重点学校的数量比例超过80%。这部分结果符合预期,因为长安区是石家庄市历史较长的行政区域,二手房多为楼龄长的低楼层房屋,在该区后期修建的中高楼层房屋更易受到购买者青睐,此外学区房对口情况也对房价有较大影响力;最弱解释性变量的是朝向,比例仅有10%左右,这一点符合预期,因为网站上挂牌房产绝大部分选择了朝南方位,可能现实中并非如此,大批量的选择朝南使得该指标对房价的影响并不突出;超过60%解释性的因素分别是面积、物业费、市中心距离、户型、小区户数、楼龄。结合面积和物业费的重要性来看,石家庄长安区的二手住宅的房价与住宅的舒适程度,小区的高档程度有较大关系,在同样的条件下,小区越高端,住宅面积越大,二手住宅的交易价趋于更高。
图3 正态化图例
首先建立参照模型——特征价格模型,通过SPSS 计算样本数据后,获得以下特征价格模型系数,其中检验结果中模型调整的R2为0.739,德宾沃森值为2.082,具有较好的拟合效果:如表3。
表3 特征价格模型系数表
先随机选取5 个样本进行预测值展示,接着对1045 个样本进行匹配度对比和误差分析,匹配度反映了真实值和评估值之间的匹配情况,采用评估值除以真实值的方法,计算结果如表4:
表4 长安区二手住宅评估值匹配度对比
在综合1 045 个样本的匹配度后,多层感知机总价平均匹配度为1.038,单价的平均匹配度为1.012,特殊价格模型分别为0.739、0.724,此外,加入两种模型的误差分析,其中平均绝对误差为模型预测值与真实值的差额,平均相对误差=(预测值-真实值)/真实值。由表5 可知,两种模型在模型评估的精确度方面相差较大,相比之下,多层感知机的评估能力更加突出。
表5 长安区二手住宅评估效果对比
为进一步验证多层感知机模型的有效性,根据上述步骤,从石家庄市裕华区1 500 条挂牌的二手住宅的信息中筛选出包含全部预期特征变量的570 个样本,分别运用多层感知机模型、特殊价格模型进行评估,最终得出表6,由此验证:相比特征价格模型,多层感知机模型评估二手住宅的价值更为准确。
表6 裕华区二手住宅评估效果对比
通过对房地产批量评估相关文献进行回顾,在前人研究的基础上,较详细地分析神经网络如何在房地产评估中发挥作用,利用爬取的大量样本数据,对石家庄长安区实际挂牌交易的二手住宅进行评估,从理论和实证的角度证明了特征价格模型和神经网络在房地产批量评估有较大使用空间。综合以上,得出的主要结论如下:
第一,变量重要性方面。在多层感知机的学习下,对石家庄市长安区二手住宅样本而言,可以发现不同变量具有不同的重要性。其中,楼层在所有变量中最重要,占到100%的正态化比例,楼层对房价产生绝对影响,同时其余变量也具有一定的重要性,主要是学区房与否、配套设施等方面也会对房价产生较大影响;
第二,模型训练方面。通过对大量数据的处理和学习后发现,多层感知机在模型训练上具有突出的优势。一方面,训练速度快,即使是上千条数据也能在极短时间内训练得出结果,这为今后建立批量评估的估价系统起到较好的借鉴作用,更体现了批量评估技术在房地产税税基评估中应用优势;另一方面,训练效果好,体现各误差指标值较小,评估值与真实值拟合接近,展出技术预测的优越性。
第三,模型比较方面。经典特征价格模型具有较好的拟合效果,但是与神经网络类的机器学习对比预测效果不太理想。特征价格模型主要是线性形式,函数是提前预设好的,但是实际交易市场中,特征变量与房价并不一定呈线性关系,这就造成误差相对较大。其次,特征变量之间具有一定的相关性,会对最终的结果造成误差。多层感知机则是利用机器模拟神经运行,利用非线性的形式,对样本进行训练,最终得到较好的评估效果。
此外,多层感知机具有较大的算法优化空间,后期还可继续添加算法使其更加优化,比如广义多层感知机[14]、BP 神经网络的粒子算法、蚂蚁算法、遗传算法、卷积神经网络等等。样本数据有扩充空间,变量可能考虑不全,今后可以完善相关研究。