马妍
西安市近年来已成为各大网络平台上的网红城市,西安市旅发委正在修改完善《关于加快民宿发展的三年行动计划》,明确支持民宿业发展。本文从统计学角度出发,采用文本挖掘方法进一步分析数据,将评论特征作为民宿业评价指标体系的二级指标,整理得到相应4个一级指标,同时对特征词进行同义词合并,归纳得到相应的三级指标,创新了指标的选取来源,构建的民宿业评价指标体系更具合理性和完整性。
近年来,我国居民消费水平不断升级,旅游业已进入综合发展阶段,以共享经济平台为支撑的民宿业正逐渐占据着传统住宿业的市场份额。与此同时,行业快速发展也带来了一系列安全和管理等方面的问题。由相关数据可知,目前还未出台民宿行业相关管理法律法规,行业进入标准较低,很多人在缺乏前期准备的情况下进入民宿行业,这使得少部分民宿卫生不达标、安全性存在隐患与风险等。
全球经济正处于增长困境中,新经济这种新型经济发展形态越来越受到关注。直至今日,由于通信技术和互联网技术在全球范围内快速发展,新经济正改变着人们的生活习惯和生活方式,为世界经济发展带来动力。共享经济,是指资源拥有者以获取一定报酬为目的,在网络共享平台上将物品或服务使用权转让给他人,提高资源配置效率的一种经济行为。目前,共享经济已渗透进日常生活的多个领域,一部分传统产业发展受到冲击,主要体现在经营模式上,其中民宿业已从传统电话预定方式转变为通过各大民宿共享平台进行网络预定的模式,民宿业规模逐年扩大。
随着居民消费水平升级,旅游不再局限于跟团游这种传统出行形式,像自助游、探险游和静态旅游等个性化新型旅游方式逐渐被游客所青睐。同样,在旅行中越来越多的游客不满足于传统酒店住宿形式,希望体验到有温度有特色的住宿。民宿逐渐走进大众视野,大众消费习惯正潜移默化地被社会趋势改变,整个民宿业正加速向前发展。目前,为明确支持民宿发展,西安市旅发委正在修改完善《关于加快民宿发展的三年行动计划》,并启动《西安市民宿发展规划(2018-2022)》的编制,明确民宿发展总体目标和空间布局,打造不同特色、主题、档次且有效衔接、互为补充的西安特色民宿。
本文以西安市民宿业在线评论数据为研究对象,应用大数据文本挖掘技术,从民宿业在线评论文本内容中提取影响民宿业发展的重要指标,基于词云图、情感语义图、LDA模型和同义词合并,建立西安市民宿业综合评价指标体系。
数据来源
本文数据来源于小猪短租平台。小猪短租于2012年成立,平台主要为用户提供民宿短期租赁服务,经过八年时间的发展已成为我国共享住宿业的代表企业。小猪短租平台是一个专业的民宿网站平台,有完善的服务售后体系,近年来正快速成长,数据量有保证,其在线点评具有良好的代表性。
数据采集
本文采用网络爬虫这种目前比较主流的方法,利用Python语言抓取数据,构建西安市民宿业评论数据库。一般的爬虫方法都是通过寻找网址规律模拟,向浏览器发送request请求,需要分析所有通信流程才能得到目标网址中的数据。通过上述流程获取小猪短租网站中的西安市民宿业线上评论内容,共8200条。评论内容包括民宿名称、总评分、地址、配备设施、房客姓名、评论时间、房客评论。
数据预处理
使用网络爬虫技术得到格式为csv的民宿业文本评论原始数据,由于原始数据中包含大量重复、冗余的无效数据而不能直接进行分析,若使用未经清洗的原始数据进行后续分析,产生的结果会不准确,出现这种结果的原因是因为其中存在无效数据。本文选择Excel软件使用筛选功能和查找功能对无效评论进行清洗。原始数据中访客评论共有8200条,经过清洗后的数据为8177条。
基于可视化技术的特征分析
通常,我们更愿意处理由多个词汇组合而成的文本,而不是由句子组合而成的,因此,需要进一步处理非结构化文本评论。本文使用Python语言中的nltk模块和jieba程序包均可对文本进行分词处理。由Python对民宿业文本评论按照上述过程进行分词处理,然后统计民宿业评论分词结果中的前50个高频词,发现出现频率最高的三个词分别为“房东”“房间”“方便”,对应的频数为4308、3390、2728。
情感語义图是一个有向图,可以表示两个物件之间的关系,它包含着许多结点和弧,一个结点表示一个概念或者事件,一个弧连接着两个结点表示结点之间存在的关系网络,因此,使用语义分析能够直观发现特征词之间的关系,尤其关注情感语义图的中心结点,进一步分析民宿业在线评论特征。本文通过ROST CM6软件对西安市民宿业在线评论进行社会网络语义分析。语义关系频数表和语义关系图可知,房东、房间、方便、干净是重要的中心节点,特征词与这两个节点越接近,它们之间的联系就越紧密,具体分析的内容如下:
1.以“房间”为节点,距离较近的关键词有“方便”“位置”“交通”“整洁”“干净”“舒服”“温馨”“体验”。说明民宿的地理位置、交通便利程度、卫生情况、装修环境和体验感是房客选择时考虑的关键因素。
2.相对于民宿而言,房东是民宿中比较重要的角色。以“房东”为节点,关键词有“姐姐”“热情”“满意”“贴心”“问题”。其中,与“满意”关联频数为393,与“问题”关联频数为253,说明房东为女性居多且服务态度热情,对于民宿的环境和房东提供的服务,大部分房客持满意态度,但是仍存在着一些问题需要解决。
3.“设施”“卫生”和“问题”三个节点出现的频率也比较高,说明设施设备配备情况、和卫生情况备受关注,且在入住过程中可能伴随着些许问题。可以将它们作为二级词汇,它们也反映了民宿业发展的影响因素。
基于LDA主题模型的特征分析
在对文本评论进行可视化分析后,我们需要更进一步挖掘民宿业文本评论中的语义,而语义挖掘的工具就是主题模型。LDA主题模型在众多主题模型中更为有效方便,此方法假定每个文档对应一个不同的主题,并且每个主题与多个不同的词相对应,然后根据每个文档找到相应的主题分布,再依据每个主题找到里面所对应的词。
根据以上的 LDA 主题模型的原理可以进行实际分析,本文利用Python中的gensim程序包进行主题模型分析,首先对民宿业在线评论数据进行文本预处理建立向量空间模型,然后使用gensim程序包对民宿业评论内容建立LDA主题模型。
一行表示一个主题,每个主题为了方便展示只输出了权重最高的前8个特征词,每个特征词后的数字表示该特征词所占权重。第二行的主题可以概括为房客对民宿“设备要素”方面的描述,其中权重最高的特征词“热水”后的0.431就是该词条相对于该主题的权重。根据民宿业评论LDA建模结果可以看出房客主要关注的方面有:设施设备、地理位置、交通情况、周边情况、卫生情况、房东服务、价格等。
综合以上三种方法可以看出基于可视化分析中词云图和情感语义图提取到同样的评论特征,为交通情况、设施设备、卫生情况、装修风格、服务态度和总体评价。对文本评论建立LDA模型所得的主题,相比于可视化分析结果,新增三个文本特征,分别为价格、安全、装修风格。整理上述分析结果,提取到9个民宿业的在线评论特征,分别为交通情况、周边情况、装修风格、设施设备、服务态度、卫生情况、总体评价、价格、安全。
本文使用Word2vector模型中的Skip-gram模型和K-means聚类方法对同义词语进行汇总,得到西安市民宿业評价指标体系,如表所示。
国内多数学者建立民宿业评价指标体系,一般只含有两级指标,并未细分二级指标得到相应的三级指标。本文建立的西安市民宿业评价指标体系细分到三级指标,能够看出西安市民宿与其他地区民宿的具体区别,与其他学者建立的各地民宿业指标体系对比后发现西安市民宿业房客更关注民宿周边环境,尤其是商业中心和餐饮服务。指标体系中二级指标“装修风格”也是其他指标体系中从未出现的,说明西安市民宿装修风格更加多元化,有日系、北欧、现代等多种风格,是西安市民宿特色之一。
(渭南师范学院 数学与统计学院)