赵沁娜,李 航
(1.合肥工业大学 管理学院,合肥 230009;2.合肥工业大学 产业转移与创新发展研究中心,合肥 230009)
特征价格模型(hedonic price model,HPM)自诞生以来就被广泛用于房地产价格评估[1-3]。房地产是一种最典型的异质性商品,不同住宅在建筑、邻里、区位等属性方面都可能存在显著区别。因此,选择特征变量的合理与否是正确构建HPM的关键。就现有文献观察来看,这些特征变量往往基于研究者的过往经验及偏好选取,不同研究选取的特征变量各不相同,其构建的模型方程也有差异。相应地,不同方程所表现的拟合度也会有所差异[4-6]。
近年来,随着电子商务的迅猛发展,在线评论作为一种新型情报源,成为商家挖掘用户需求、提升用户满意度的重要数据资产[7-8]。对于购房者而言,他们在线下实地看房的前后也会去房地产网络平台搜索对所看房源的评价、房源周边设施的评价等相关在线评论,从而做出相应的购房决策。基于此,本文尝试利用房地产网络平台中的在线评论挖掘出隐含的购房者情感倾向,提取购房者在形成购买决策时显著偏好的房源特征,在此基础上选取特征变量来构建特征价格模型,从而为房地产行业的生产决策和购房者的消费行为提供参考。
根据Lancaster的消费者效用理论和Rosen的隐含市场理论,房地产由诸多不同的特征属性组成,价格由所有特征属性带给人们的效用共同决定。由于各个特征属性的数量及组合方式不同,房地产价格就会产生差异。通过单位特征属性的边际效用变化分析来评估这种特征属性的隐含价格,即Hedonic价格[4]。因此,选择哪些特征属性纳入特征价格模型中就非常重要,遗漏变量或测量错误将导致参数估计不准确[9]。
通过查阅和归纳相关领域的国内外文献发现,早在20世纪80年代就有学者指出,尽管Rosen的隐含市场理论构建了hedonic实证研究的基本框架,但并未对变量及函数形式的选择提供明确的指导[10-13]。在诸多实证研究中,Hedonic模型中变量的选择也往往是研究者凭借主观判断确定,并没有做细致深入的分析。以国内研究轨道交通对房地产价格影响领域的文献为例,大部分文献对住宅的结构特征,即面积、楼层、房龄等因素考虑较为周全,但在教育资源和生活配套的一些重要特征变量选择上却千差万别[14-20]。众所周知的“学区房”现象,即属于优质中小学划片分配的住宅价格显著高于非划片区域。教育资源的选择与否极有可能影响轨道交通对沿线住宅价格的溢价水平。与此同时,诸多研究为了减少遗漏变量带来的偏差,几乎所有的HPM研究都会在模型中纳入大量的特征变量,而使用大量的特征变量进行估计时,会产生高度的共线性[12-21]。由此可见,有必要对Hedonic模型的特征变量选择展开研究。
图1 房地产特征属性提取流程
值得关注的是,近年来,随着电子商务的迅猛发展,在线用户评论作为一种新型情报源,成为商家挖掘用户需求、提升用户满意度的重要数据资产。特别是机器学习、自然语言处理理论和方法的日益成熟,加速释放了海量在线评论数据的价值。从现有文献梳理来看,目前学者们主要通过在线评论数据挖掘开展产品特征提取和用户情感分析,进而进行用户需求分类和产品设计优化的相关研究,应用领域主要集中在购物[22-23]、旅游[24-25]、电影[26-27]、酒店[28-29]等,研究方法也从逐步从传统统计方法扩展到了机器学习。周立欣等从京东购物平台收集在线评论构建特征-情感的二分加权网络,并进行仿真实验,按照用户对产品特征的重视程度对产品特征进行了排序[30]。Zhou等提出了奇异值分解的语义关键词相似度的方法,通过应用于在线评论验证用户对该商品的态度,为企业改进商品性能提供依据[31]。贾丹萍等基于Word2vec和滑动窗口技术分析iPhone手机在线评论,结合感性工学理论更有效地捕捉用户的感性需求[32]。刑云菲等以Trip Advisor网站为例,采集北京、上海、深圳和广州4个城市的酒店用户在线评论内容构建主题图谱,并分析图谱以及实体的社会网络特征,发现不同地区酒店的用户需求存在差异化[33]。严炜炜等抽取知乎直播用户的消极评论,以细粒度观点的方法建立特征体系,揭示了知乎直播存在的缺陷和不足[34]。对房地产领域而言,在房地产网络平台上的在线评论中,评价内容丰富,包括房源建筑结构、小区环境、周边设施及入住感受等,能够真实地反映购房者对房源的预期期望和实际入住体验。基于此,本文提出通过挖掘房地产网络平台上在线评论所隐含的购房者情感偏好,提取房地产特征属性来构建体现用户关注的房地产特征价格模型方法,并以合肥房地产市场为研究对象进行实证研究,分析每个特征属性对住宅价格的影响。
在线用户评论代表着消费者的观点、态度和情感,利用产品特征提取工具可以从中挖掘消费者关注和偏好的产品特征。这不仅能够应用于产品推荐,还能够帮助商家认识并改进产品的不足,从而增强产品的竞争力。当前产品特征提取方法主要有基于关联规则、词频和词共现的提取方法[35-37],基于句法依存的提取方法[38-40],基于改进的LDA提取方法[41-43],基于机器学习的提取方法[44-46]等。本文参考借鉴了李伟卿等提出的基于同义词林与词向量的产品特征提取及词库构建方法[46],首先采用人工标注提取和同义词林扩展形成种子词库,随后使用Word2vec库和大规模评论数据进行模型训练,完成语义相识度计算与属性归并,形成产品特征词典[47-49]。具体流程如图1所示。
1)进行数据采集与预处理。采集房地产网络平台上的样本楼盘在线用户评论数据。之后利用Python中的jieba库进行分词,结合停用词词典,删除与房地产特征无关的词语,并按词频进行降序排列,去除低频词和高频非特征词,得到可用于后续研究的数据集。
2)构建种子词库。随机抽取样本楼盘中的部分评论数据,采用人工方式进行标注、归并与分类,利用这些评论中所提到的产品特征,建立特征种子词库。并以提取出的种子词为基准,通过哈工大同义词林对种子词库进行扩展。
3)进行词向量训练。将完成数据清洗预处理后的样本楼盘在线用户评论文本分词后作为训练语料,设定合适的蚕食,借助Word2vec中的Skip-gram模型或CBOW两个模型进行词向量训练,得到候选特征词的词向量。
4)形成产品特征词库。模型训练完成之后,计算候选特征词库和种子词库中各个单词之间的语义相似度及相关度,并将相似度大的候选特征词加入种子词库中,形成最终的产品特征词库。
5)对产品特征词库进行分类。为了更清晰明了地展示产品特征属性,需要将最终获取的产品特征词库按照其描述方面的不同进行分类,以方便后期的实证研究。目前分类的方法主要有人工分类、聚类算法等。
2021年5月,通过八爪鱼软件在合肥市房天下网站上进行数据采集。在房天下在售或待开盘的新楼盘中,按照分层抽样的方法,共爬取38个新楼盘的在线评论9 266条(表1)。之后将每个楼盘的评论数据进行汇总,进行数据预处理工作。
表1 分层抽取合肥市楼盘样本
从清洗后的数据集中,随机抽取110条关于恒大水晶国际广场的在线评论数据,人工进行标注、归并与分类,并且按词频排序去除低频词和高频非特征词,建立特征种子词库。并以提取出的种子词为基准,通过哈工大同义词林对种子词库进行扩展。
采用Word2vec工具中的Skip-gram模型进行模型训练。首先使用inport指令调用gensim库、Word2vec模型和os库具将预处理后的名词及名词短语集合训练成词向量。
训练完成后,计算候选词库和种子词库中各个单词之间的余弦相似度,并将相似度大的候选词加入种子词库中,形成产品特征词典。完成后词语的相似度计算后,发现有很大一部分与种子词相似度高的词语并不能代表商品的属性或者特征,需要将其处理与剔除。如“交通”这个属性,与其相似度高的如“成熟、远、性价比、有点”,显然对于这些词语,需要处理与剔除,最终形成房地产产品特征词库(表2)。
由于最后得到的产品特征词库所含的单词数量已经较小,本文主要采用了人工分类的方法进行产品特征分类。最终筛选出“区位”“户型”“装修”“配套设施”“物业质量”“绿化环境”“交通”“学区”共8个代表消费者显著偏好的房地产特征属性,见表2。
表2 房地产产品特征词库
依据前文筛选出“区位”“户型”“装修”“生活配套”“物业质量”“绿化环境”“交通”“学区”共8个代表消费者显著偏好的楼盘特征来进行房地产特征价格模型构建。
1)区位。区位特征表征的是一个地区经济和社会发展水平。本文采用楼盘距本辖区政府的直线距离来量化区位因素。
2)户型。户型的表征种类较多,住宅的面积和功能间数都是从不同的角度对房屋居住的舒适度进行的评价。由于一个楼盘往往拥有多种户型,本文选取楼盘的最大户型和最小户型分别进行量化。
3)装修。主要是指房屋的装修程度,通常分为毛坯、简装、精装和豪装4个等级。由于本次研究对象均为新楼盘,装修基本为毛坯房,故将“装修”特征变量剔除。
4)生活配套。主要考察小区生活便利程度。本文主要采用以小区为中心,半径为1 km的范围内是否有超市、餐饮、医院、银行,每项计1分,共4分。
5)物业质量。一般来说,物业费越高则意味着物业质量,小区的环境和管理也会越完善。本文主要选择物业费来量化物业质量。
6)绿化环境。绿化率越高则意味着建筑密度越低,小区内绿化等自然景观环境条件就会更好。本文主要选择绿化率来表征。
7)学区。学区所占有的优质教育资源具有明显的溢价效应。本文主要采用以小区为中心,半径为1 km的范围内是否有幼儿园、小学、中学,每项计1分,共3分。
8)交通。考虑到合肥市第一条地铁线路已经于2016年开始运营,本文主要采用楼盘500 m范围内公交线路条数和楼盘到最近地铁站的直线距离来量化交通的便利性。
通过八爪鱼爬虫软件在房天下平台对合肥市2021年5月在售新楼盘数据进行收集。由于本次研究对象均为新楼盘,楼盘装修基本为毛坯房,故将“装修”特征变量剔除。针对“区位”“户型”“生活配套”“物业质量”“绿化环境”“交通”“学区”7个房地产特征选取了9个特征变量。为了保证数据的真实性和准确性,将重复样本剔除并对极端值进行了缩尾处理,最终共收集148个楼盘交易数据。所有变量的说明与描述性统计见表3。
表3 变量的描述性统计
特征价格模型常用的函数形式有线性、半对数和全对数形式。对于模型函数形式的选择并没有统一的标准。基于国内外已有文献研究,半对数形式在变量单位差异性、量化解释变量的影响、异方差最小化等方面优于线性形式和全对数形式[50-51],因此本文主要采用Stata软件进行实证研究,半对数形式的回归结果见表4。
模型的调整后的R2=0.578 7,F-statics=21.061 8,整体的拟合度较好。经多重共线性检验结果表明,所有变量的方差膨胀因子VIF最大仅为1.87,说明解释变量之间相对独立,不存在严重的多重共线性问题。从White检验和BP检验结果可以看出,模型不存在异方差问题。因此,该模型基本满足了同方差性和独立性假设,具有良好的拟合度和较高的解释能力。
从回归结果看出,在显著性10%的水平下,9个变量中有8个进入了模型,分别是“区位”“最大户型”“最小户型”“生活配套”“物业费”“绿化率”“学区”“地铁距离”。“公交线路”的显著性为0.339 8,未通过显著性检验。究其原因,公交线路越多的地方,噪声污染可能越严重,在上下班高峰期也会造成交通堵塞。同时公交出行所花费的时间具有较高的不确定性,与地铁、私家车和共享单车等存在较强的替代性[52],故“公交线路”对住宅价格的影响被弱化。因此基于用户关注的合肥市新楼盘特征价格模型为
ln(住宅价格)=8.495 2-0.001 8(区位)+0.001 1(最大户型)+0.003 3(最小户型)+0.020 1(生活配套)+0.118 9(物业费)+0.719 7(绿化率)+0.047 5(学区)-0.009 9(地铁距离)。
表4 模型回归结果
在保持其他特征不变的条件下,最大户型和最小户型面积的回归系数均为正数,楼盘住宅价格会随着住宅面积的增加而增加。楼盘物业费、绿化率、生活配套和学区的回归系数也显著为正,说明小区物业质量越高,绿化环境越好,生活配套和教育配套越完善,楼盘住宅价格也越高;区位和地铁距离的回归系数显著为负表明楼盘距离辖区政府和地铁站越近,楼盘住宅价格越高。从经济学和常识的角度来看这些特征变量的回归系数符号均与预期相符,说明舒适的居住环境和便利的配套设施会更加受到购房者的青睐,对住宅价格也有显著的增值作用。
传统的特征价格模型中,特征变量的选择往往是参照其他学者的研究经验和主观认识直接设定,缺少严谨规范的选择过程,容易造成重要特征缺失或多重共线性等问题,从而影响模型的精确度,也不能反映购房者的真实偏好。本文利用基于同义词林与词向量的产品特征提取及词库构建方法,通过挖掘房地产网络平台在线用户评论中隐含的购房者情感倾向,构建体现用户关注的房地产特征价格模型,并以合肥市148组新楼盘数据为样本进行实证研究。结果显示,该模型能够合理地避免自变量的多重共线性,也能够合理评估房地产特征属性的隐含价格,具有良好的拟合度和较高的解释能力。伴随着新消费趋势的延展以及新一代消费群体的崛起,可以预见,通过网络在线用户评论来表达自己的意见和观点将成为一种流行的方式。深度挖掘这些信息不仅能够为消费者购房决策和开发商建设满足广大购房者需求的小区提供依据,也可以为政府进行公共资源优化配置提供决策参考。