基于人性化用户特征的在线酒店推荐技术研究

2019-04-01 13:11:54王婧虹李银胜
计算机应用与软件 2019年2期
关键词:人性化准确率协同

王婧虹 李银胜

(复旦大学软件学院 上海 201203)

0 引 言

我国的酒店市场空间巨大,尤其是随着经济水平和生活质量的不断提升,人们出行频率大幅提高,对酒店服务的需求扩大,酒店种类变得丰富且数量激增。因此,为用户提供精准有效的酒店推荐服务尤为重要。

目前国内外均提出并实施了很多推荐系统,以方便用户挑选酒店。但已有的推荐系统大多存在数据稀疏、冷启动以及对用户行为缺乏理解的缺点,没有挖掘用户人性化数据,确定其兴趣所在,推荐其真正感兴趣的酒店资源。以下结合用户场景介绍目前酒店推荐存在的问题。

总所周知,李彦宏、马云、马化腾分别为BAT创始人,均为中国著名男性企业家,如表1所示,因此对酒店的硬性需求基本一致。

表1 共同特征

若三位到达上海,需入住酒店时,按传统推荐方法,均会推荐上海万豪虹桥大酒店,因其离虹桥机场近、地理位置优越、商务风格、环境安静、设施齐全,较好满足三位基本要求。酒店特征描述如表2所示。

表2 酒店特征

针对李彦宏,专注保守(性格),崇尚极简主义(观念),为其推荐经典的商务酒店即可,上海万豪虹桥大酒店乃不二之选;但针对马云,不像其他二位本身家庭条件优渥(环境)且拥有IT技术背景(知识),他创业历程艰辛坎坷(经历),且相对年龄较大(生理),年轻时不懈拼搏如今事业有成的他相当注重养生,喜爱太极(观念)。因此在满足基本需求的前提下,结合人性化特征,给马云推荐环境静谧,拥有可散步健身的大块草坪的上海西郊宾馆更为合适,符合其养生之道;针对马化腾,典型的广东潮汕人(环境),钟爱广式美食(观念),对于率性的他(性格),身处外地能很方便地品尝到家乡味道,定是人生幸事。因此在满足基本需求的前提下,结合人性化特征,给马化腾推荐周边就有“潮汕食府”的上海虹桥新华联索菲特大酒店更为合适,符合其饮食文化。上述三位人性化特征如表3所示。传统推荐与人性化推荐结果对比情况如表4所示。

表3 人性化特征

续表3

表4 推荐对比

由此可见,客户选择酒店,其实是选择一个短期的生活圈[10],仅仅满足其对硬件设施的需求是远远不够的[13],更需从多方面考虑其人性化特性,让客户体会到被推荐的酒店处处都在为其着想,宾至如归[12]。

因此,本文提出了一种基于人性化用户特征的在线酒店推荐方法。剖析、获取用户人性化特征形成酒店用户模型,结合特征匹配与协同过滤方法为用户推荐其感兴趣的酒店。并于课题项目“酒店管理营运博弈沙盘”进行实验,得出准确率、召回率、运行效率等综合表现最佳的推荐方式,且在一定程度上解决冷启动和数据稀疏的问题。

1 相关工作

目前大部分酒店推荐系统基于用户浏览和购买历史进行兴趣度分析,着力于采集电子商务网站中的大量注册、交易、评价等用户数据,和Web服务器中的日志数据、用户购物信息,但用户的人性化特性鲜为关注。

文献[1]采集用户已访问的酒店资源集合以及在线提交的资源要求等信息。根据用户于酒店网站上的在线行为,抽象出浏览用户特征并构建信息库,形成用户模块。分析用户兴趣特征和产品特征的相似性,利用聚类方法,挖掘出与用户兴趣相关的酒店产品。量化用户兴趣特征和产品特征,匹配算法简单明了,但产品特征需一一列举,且不易量化的特性均被忽略。文献[2-3]采集用户酒店评论信息,得到用户偏好和酒店评价数据。根据用户输入对酒店的要求(如城市,出游类型等信息,及对房间、食物、位置、服务、设备等的偏好),来构建用户模型。文献[2]认为群体用户的整体评价往往会忽略推荐用户某方面的特定需求。因此先为评论提取偏好,根据有相同或相似偏好的用户评价来形成推荐列表。协同过滤的思想,存在冷启动、数据稀疏问题。文献[3]提出线下评估方法,线下提取酒店用户评论并进行处理得到项目特征矩阵,结合协同过滤,加快推荐速度,一定程度上优化冷启动问题但无法彻底解决,且需要不断更新离线资源。文献[4]采集用户内部数据(如国籍、性别、年龄等)和外部数据(如设备、社交媒体、时间、环境等)。通过对用户内外部信息数据进行语义特征提取等处理,并进行情感分析、行为分析、偏好分析,来构建用户模型。文献[5]采集用户基本信息和网站操作信息数据,根据用户基本信息(性别、年龄、职业等)、用户偏好信息及用户操作行为(学习记录、收藏夹等)来构建模型。文献[6]采集用户浏览网站时的眼动追踪数据和鼠标追踪数据,来得到用户偏好,再做基于内容的推荐。

综上,目前已有的推荐系统大多存在数据稀疏、冷启动以及对用户行为缺乏理解的问题。几乎没有挖掘用户人性化数据,确定其兴趣所在,推荐其真正感兴趣的酒店资源。因此,本文结合用户人性化特征,更准确、高效地为用户推荐酒店。

2 预备知识

2.1 用户建模与推荐技术

国内外相关研究机构与学者在用户建模以及推荐技术领域取得了大量的研究成果:目前广泛采用用户行为分析观察法来获取用户喜好信息,通过获取到的用户喜好信息建立用户模型[8]。一般通过基于知识的推荐技术来直接启发用户主动提供偏好和需求,进而通过用户偏好结构以及关联规则和样例以及评论属性来建立用户轮廓模型[9];基于内容的推荐技术主要从用户表示喜爱或者正面反馈的内容来获取用户偏好,进而通过基于关键词的向量空间模型、基于内容的标签网络以及潜在的主题模型等技术来构建用户轮廓模型;基于协同过滤的推荐技术通过获取到的用户偏好模型,运用余弦相似度、皮尔逊相似度等方法找到其相似用户[11],再为其推荐相似用户喜爱的产品,以取得较高的推荐成效。然而这些方法所采取的用户数据相对较为单一,往往只是用户某个维度的体现,从而导致在推荐上的人性化效果不足。

2.2 人性化用户模型

人性化用户模型由作者所在课题组李银胜[22]、沈剑平[19]等人提出,亦称数字灵魂模型Cyber-Anima。Cyber-Anima模型旨在反映个体的内生特征概念,这些内生特征会对个体行为产生重大影响。该模型对用户人性化特征进行数字处理,为探索用户欲望和推理用户意图提供了全新的视角。个体内生特征可从用户输入、互联网资源、应用系统、便携式设备等处获取的信息进行关联、相互转换,不断更新、完善。因此,Cyber-Anima对于身处网络世界的个体来说是与生俱来的,在使用过程中无需再收集各种用户相关数据。所以,若结合人性化用户模型,可解决传统协同过滤方法的冷启动和数据稀疏问题[22]。

表5 六大维度内容

人性化模型采用基于本体的表示法,将六个维度中的属性作为本体的概念对和关系,从而结构化、语义化地描述用户[14]。在构建过程中,通过确定本体的顶层概念,即用户模型的六个维度,然后按照六个维度的具体定义,将其子维度表示成相应的子概念。用户模型维度可以表示为D∷=C×R,其中C表示概念集,R表示关系集。其中关系是概念之间的联系,本文在构建人性化个体模型本体时主要运用的几种关系类型[14]如表6所示。

表6 概念间关系类型

2.3 语义特征提取

构建用户模型时涉及到语义特征提取技术,用户信息中往往包含大量文本信息。文本的特征项的选取即为从文本中抽取具有代表性的词来表示文本信息的特征[19]。文本信息通常使用向量空间模型(VSM)来表示,每个文档表示为一个特征向量V=(t1w1,t2w2,…,tnwn),其中ti为词条项,wi为权值。

如果某个词或短语在一个文本中出现的频率TF(term-frequency)高,在其他文本中出现的频率低,则认为该词或短语具有良好的区别能力[21]。IDF(Inverse Document Frequency)指逆向文件频率,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。

结合TF与IDF,TF-IDF计算方法如下所示:

(1)

式中:tfi为词i在训练集中的词频,N为训练集文本数,ni未出现词i的文本数目。

3 基于人性化用户特征的酒店推荐

3.1 整体架构

本文依托于所在实验室提出的私有云浏览器“彩云阁”,在这里每个个体都拥有自己的Cyber-Anima模型[22],本文将其应用到酒店推荐领域,提取出与酒店选择相关的用户特征,形成人性化酒店用户模型。综合用户特征与酒店特征匹配结果和协同过滤方法所得结果,可得酒店推荐候选集。如图1所示。

图1 整体架构

3.2 酒店模型

针对酒店可量化的参数,如星级、房型、房价、设施、设备、服务等,进行归一化处理,可得酒店特征参数表,如表7所示。

表7 酒店特征参数

酒店特征矩阵如下所示:

H(f)=(H11,H12,…,H1j,H21,…,H2j,…,Hij)

(2)

式中:Hij表示第i家酒店的第j个特征。两个酒店间相关性可通过余弦相似度得到,如下所示:

(3)

3.3 用户模型

与酒店特征一一对应,结合用户基本信息、输入信息及人性化信息可得用户偏好矩阵U(f),如下所示:

U(f)=(U1,U2,…,Uj)

(4)

式中:Uj表示用户u对第j个 特征的偏好。

为了更好地发掘用户之间的潜在联系,更进一步解决数据稀疏性问题,本文采用用户-用户矩阵对用户进行建模,并通过余弦相似度计算它们之间的相似度,如下式所示:

(5)

紧接着,用户u就可以通过n个相似的用户(u1,u2,…,un)和他们间的相似度(sim_u1,sim_u2,…,sim_un)表示。

3.4 推荐算法

将会影响酒店选择人性化特征引入到用户建模过程中,得到人性化酒店用户模型,再通过协同过滤的思想进行推荐。因此,称其为基于人性化特征的协同过滤(Collaborative Filtering Based on Humanized Features),简称HF-CF。

在为酒店和用户分别建模后,可计算用户u对酒店i的期望评分pr(u,i),如下式所示:

pr(u,i)=r(v,j)×sim_u(u,v)×sim_h(i,j)

(6)

式中:r(v,j)表示用户v对酒店j的评分,sim_u(u,v)为用户u和用户v之间的相似度,sim_h(i,j)为酒店i和酒店j之间的相似度。

最后,根据期望评分可筛选出Top-N家酒店作为推荐候选集。

4 实 验

4.1 评价指标

本文采用针对推荐方法常用的准确率、召回率和F1-Score三个指标来分析推荐效果[20]。其中,准确率是指被推荐的列表中用户真正感兴趣的项目所占比例,反映了准确推荐的能力;召回率是指用户感兴趣的列表中被推荐项目的所占比例,反映了全面推荐的能力;F1-Score综合准确率和召回率,反映推荐服务的综合评价。推荐结果的列联表如表8所示。

表8 列联表

因此,评价指标准确率、召回率、F1-Score可通过以下公式计算:

(7)

(8)

(9)

以上三大指标的值范围均0-1,值越大表示推荐效果越好。但准确率和召回率相互影响,一般来说,若要达到高准确率,必须舍弃一些召回率,反之亦然。因此,准确率和召回率需要平衡,即让F1_Score值达到最佳。

4.2 实验平台及数据

本文以“酒店管理营运博弈沙盘”为实验平台,该沙盘是由所在实验室研发并已被数十家酒店管理院校使用的电子学习软件,旨在帮助学生更形象生动、直观快速地了解并掌握酒店管理营运知识。根据用户需求与偏好分配酒店是该软件核心功能之一,因此,一个准确高效的建模和推荐方法非常重要。

沙盘中酒店数据和用户数据,初期从各大酒店预订网站历史订单、评价中抓取、处理、分析后所得。在投入使用后,不断地产生新的订单数据,且各院校师生会注入当地酒店数据与自身信息及偏好数据。整个数据库可供所有用户共享,真实性、有效性较高,并不断更新、维护。

本文获取沙盘数据库中1 382条用户数据、967条酒店数据和15 377条订单数据进行实验。

4.3 基线算法

个性化推荐系统的推荐算法主要有基于内容的推荐、基于协同过滤的推荐、基于知识的推荐、基于效用的推荐和混合推荐等[18]。在酒店推荐领域,由于酒店各项指标十分明确,有不少直接使用特征参数匹配的方法。本文采用特征参数匹配方法与基于协同过滤的推荐方法作为基线算法。

特征参数匹配方法FM(Features Matching):将服务项特征与用户偏好进行一一匹配,往往可以达到较高的准确率。但前期服务项数据与用户偏好信息的获取相当复杂,且数据量达到一定范围时,计算效率急剧下降,扩展性较差。

基于协同过滤的推荐方法CF(Collaborative Filtering):主要是通过对未评分项进行评分预测来实现,又可分为基于用户的协同过滤与基于项目的协同过滤[15]。它只依赖用户行为,不需要对内容进行深入了解,适用范围广,可以用来推荐复杂项目,能起到意想不到的推荐结果[16]。但前期需要大量的用户行为数据,即冷启动问题[17];且用户量与项目量常常较为庞大,两者间存在用户行为关系的较为有限,即数据稀疏问题。本文运用人性化用户模型,可较好地解决这两个问题。

4.4 实验结果与分析

通过相关数据采集、处理,酒店建模,用户建模,基于协同过滤计算,可得出推荐结果。其中,用户模型中用n个相似用户及相似度表示用户u。当用户模型参数n取不同值时,推荐效果如表9所示。

表9 用户模型参数n不同时推荐效果

当n小于或等于6时,随着数值增大,各项指标都逐渐升高;n大于6后,各项指标上升空间极为有限。结合推荐效率,取n为6时的推荐效果与基线算法对比。根据三大指标统计结果如表10所示。

表10 实验结果比较

可以看出,本文提出的方法整体推荐效果良好,召回率和F1-Score值均比两种基线算法的高。尽管准确率相比特征参数匹配方法较低一点,但可扩展性和推荐效率更为客观。

5 结 语

本文分析了现有酒店推荐系统的现状,其主要缺点在于只对用户表象信息进行提取,缺乏全方面深入挖掘用户的人性化特征,如知识、性格、观念等。因此,本文提出一种基于人性化特征的酒店推荐方法,更加精准地分析用户的真实意图,提高个性化推荐的效果。以基于协同过滤的推荐算法作为基线算法,结合用户人性化特征,计算出推荐结果,并通过实验验证了该方法的可行性和有效性。

接下来仍有诸多工作需要继续,更多与酒店相关的业务知识和市场情况有待深入学习并分析,让研究更符合现实;更多人性化特征需要不断探索发掘,来完善人性化用户模型,让推理和推荐逻辑更严谨;此外,可引入更先进的推荐算法,提高准确率和推荐效率。

猜你喜欢
人性化准确率协同
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
蜀道难:车与路的协同进化
科学大众(2020年23期)2021-01-18 03:09:08
人性化
幽默大师(2019年6期)2019-06-06 08:41:38
“四化”协同才有出路
汽车观察(2019年2期)2019-03-15 06:00:50
高速公路车牌识别标识站准确率验证法
加入人性化考量令体验更佳 TDG Audio IWLCR-66 & IWS-210
三医联动 协同创新
中国卫生(2016年5期)2016-11-12 13:25:26
“扶不扶”的人性化选择
公民与法治(2016年2期)2016-05-17 04:08:33