罗文琦 杨晓霞
摘 要:用户画像通过收集用户的社会属性、消费习惯、偏好体征等维度的特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户信息全貌。本文利用网络游记及评论数据,使用文本情感分析、关键词提取算法等方法,构建了包含用户基本信息、用户偏好信息、用户情境信息、用户情感感知4个维度的用户画像,并构建了与用户画像耦合的景点画像,刻画用户对于旅游的兴趣偏好。用户画像为旅游企业分析用户心理、完善景区服务提供辅助。本文以成都市著名旅游景点为例,将用户画像与景点画像耦合对用户的兴趣偏好进行了分析。
关键词:用户画像;景点画像;智慧旅游;成都市
中图分类号:F426.61;TP311.13 文献标识码:A
基金项目:国家自然科学基金项目“上下文感知的旅游信息智能推荐方法”(41771444)。
随着时代的发展,“互联网+”的模式逐渐应用于各个领域,互联网与旅游业的深度融合,使得用户可以在线进行旅游信息搜索以及旅游服务的查询与订购,企业利用用户数据实现精准营销,为用户提供更个性化、更精准的使用体验。用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好体征等维度的数据,对用户或产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。
目前用户画像已经广泛地应用于电子商务、图书馆应用、旅游等领域[1-3]。学者利用调查问卷、评论、游记等数据构建旅游领域画像。单晓红等以在线评论数据为基础,从用户信息属性、酒店信息属性和用户评价信息属性3个维度构建用户画像模型,完成对酒店用户特征的完整刻画[4]。刘海鸥等基于用户基本属性数据、用户行为属性数据以及用户情境属性数据建立游客的用户画像概念模型,提出了基于用户画像的旅游情境化推荐模型[5]。崔春生等构建用户画像模型,分析用户相似度并结合用户情境,进行个性化推荐[6]。国外学者目前较多利用用户发布的照片信息对其行为进行刻画,Wang Z等基于发布照片的位置服务信息以及用户在旅游平台的行为信息,构建用户与项目的异质关系模型[7]。Lyu D等基于地理标记照片获取用户视觉信息、访问顺序信息构建用户旅行位置矩阵[8]。李雅美等从游记中提取地域、时间、主题、类型的特征标签,根据用户兴趣标签找到相似用户群[9]。
旅游领域用户画像为旅游企业分析用户心理,完善景区服务提供辅助。然而,用户画像在旅游领域的应用还处于初级阶段,用户决策易受多种因素影响,需要考虑用户、景点、情境之间的相互关系,存在信息获取隐性、数据稀疏和用户冷启动等问题。本文针对以上問题,以用户游记为数据基础设计了以用户基本信息、用户偏好信息、用户情境信息、用户情感感知4个维度组成的用户画像,利用景点画像与用户画像建立的耦合关系,分析隐含的用户心理,并以成都市景点为例对用户进行了个性化偏好分析。
本文构建了包含4个维度的用户画像,同时建立研究区域的景点画像,旅游领域用户画像概念模型如图1所示。
(一)用户画像四维度
用户基本属性是指用户的基础信息类,这些属性对用户类型进行了初步的区分和归类。利用标签的方法存储用户ID、年龄、出行天数、出行方式、同行人员以及人均消费等信息。
用户偏好是用户在考量商品和服务的时候所做出的理性的具有倾向性的选择,是用户认知、心理感受及经济学权衡的综合结果。本文使用jieba工具对游记文本进行处理,并添加自定义词典,文本分析结果结合景点画像中的景点分类获得用户对景点类型、游览方式等偏好。
本文还提出用户情境信息维度,用户所处情境不同,对景点的偏好和体验也会存在差异。用户情境是指用户所处的自然环境,如季节、月份、温度等;用户的社会经济情境,如社交网络以及用户的消费习惯、经济情况。在用户画像中构建用户情境信息,有助于景区针对变化的情境要素做出相应决策。
(二)景点画像模型
同时设定景点资源分类标签,分为地文景观(1)、水域风光(2)、生物景观(3)、天象与气候景观(4)、遗址遗迹(5)、建筑与设施(6)、旅游商品(7)、人文活动(8)八大类;建立景点内容分类标签,为游览鉴赏型(A)、知识型(B)、体验型(C)和康乐型(D),成都市部分旅游资源分类情况如表1所示。
(三)旅游领域用户画像与景点画像的耦合
本文建立的旅游领域用户画像由用户画像和景点画像两部分构成,景点作为旅游行为的载体,其相关信息与用户行为、情感存在一定的耦合关系。本文将景点的分类信息映射到用户偏好维度,分析用户在景点类型、游览方式上所表现的用户偏好。同时景点六要素评分结果反映了以景点为中心的内部及周边设施的建设完善度和用户满意度。利用画像之间的耦合关系,能更好地分析用户行为与景点的联系,为分析用户偏好、改善景点环境提供理论支持。
(一)数据来源及预处理
本文将成都作为实验区域,利用网络爬虫工具,爬取了携程网站上成都市4 317条游记数据以及29个景点的8 820条评论数据。对游记及评论预处理保留了2 970条游记数据和20个热门景点的7 680条评论数据。成都作为美食娱乐之都,同时拥有自然风光与人文景观,游玩方式以美食和摄影为主。出行天数多在2~5天之内,有游记1 964条,占比65.9%。出行月份主要集中在2月、7月、10月等节假日和寒暑假时期。同行人员反映出多以亲子、朋友出行为主,其占比63%。人均消费则在700~4 000元不等,消费水平受到出行方式、用户经济水平等影响。
(二)景点评论TF-IDF计算结果
本文利用TF-IDF算法对处理后的20个热门景点评论得到其旅游六要素的得分,部分实验结果如表2所示。
(三)游记文本情感分析结果
本文选择游览景点大于5个的三名游客(甲、乙、丙)作为研究对象,三名游客的年龄、职业均不相同。利用Python中的SnowNLP库进行情感分析,对三名用户的游记内容进行赋值(0~1),如表3所示。
用户甲访问的景点有春熙路、青城山、武侯祠、宽窄巷子、锦里,该用户在住宿类的评分最低,结合景点住宿类得分,青城山景区的住宿服务需要加强。用户乙访问的景点有大熊猫繁育研究基地、大慈寺、春熙路、宽窄巷子、文殊院,该用户在交通类的分值较低,该用户游览的景点主要集中在成都二环以内,然而大熊猫繁育研究基地与市区有一定的距离。用户丙访问的景点为春熙路、天府广场、人民公园、宽窄巷子、武侯祠、文殊院、都江堰、青城山,其评分结果表现的综合体验较好,但在景区游览方面体验感较差,春熙路、天府广场等由于其主要发展的是以购物、娱乐为主导的旅游商品类和人文活动类景点,在游览性体验方面发展较缓。同时,三名用户的出行时间分别为2月、7月和10月,旅游出行旺季存在交通拥堵、景区接待人数达到峰值等情境,对用户的旅游体验造成一定程度的负面影响。用户甲与用户乙在景点的选择上大多为室外鉴赏型景点,寒冷与炎热的天气会使得用户在室外进行旅游活动时体感较差,从而影响旅游情感。相比之下,用户丙在10月出行,该月份温度宜人所以整体波动较小,旅游六要素体验评分较高。
目前,国内用户画像的研究多采用问卷调查或简单的统计分析,本文将文本分析和信息挖掘技术应用于用户画像的研究,刻画用户兴趣偏好,分析用户的旅游情感,丰富了游客画像的研究方法及工具。与以往的研究相比,本文建立了景点画像,丰富了用户画像的内涵,同时在旅游用户画像中加入了景点情境及用户情境信息。从旅游企业的角度,画像反映了游客对旅游六要素的感受,为景区建设提供建议;在游客角度,画像涉及的情境信息可根据景区环境为用户推荐合适的景区。
[1] 王凌霄,沈卓,李艳.社会化问答社区用户画像构建[J].情报理论与实践,2018(1):129-134.
[2] 许鹏程,毕强,张晗,等.数据驱动下数字图书馆用户画像模型构建[J].图书情报工作,2019(3):30-37.
[3] 孙振强,罗永龙,郑孝遥,等.一种融合用户情感与相似度的智能旅游路径推荐方法[J].计算机科学,2021(增刊1):226-230.
[4] 单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究:以携程酒店为例[J].情报理论与实践,2018(4):99-104.
[5] 刘海鸥,孙晶晶,苏妍嫄,等.基于用户画像的旅游情境化推荐服务研究[J].情报理论与实践,2018(10):87-92.
[6] 崔春生,王雪,李文龙.情境环境下基于用户画像的旅游产品推荐算法研究[J].数学的实践与认识,2019(20):122-131.
[7] WANG Z , XIAO W , Y LI, et al. LHRM: A LBS Based Heterogeneous Relations Model for User Cold Start Recommendation in Online Travel Platform[J]. Springer, Cham, 2020(11): 479-490.
[8] D LYU,L CHEN,Z XU, et al. Weighted multi-information constrained matrix factorization for personalized travel location recommendation based on geo-tagged photos[J]. Applied Intelligence,2020(3):924-938.
[9] 李雅美,王昌棟.基于标签的个性化旅游推荐[J].中国科学技术大学学报,2017(7):547-555.