尹书华,傅城州
(华南师范大学 a.旅游管理学院;b.计算机学院,广东 广州 510631)
【旅游业研究】
基于百科大数据的旅游景点推荐系统应用研究*
尹书华a,傅城州b
(华南师范大学 a.旅游管理学院;b.计算机学院,广东 广州 510631)
随着互联网和大数据技术的发展,旅游信息化已经成为一个热点研究问题。在旅游信息系统中,如何挖掘用户的旅游兴趣,为用户提供精准的景点推荐成为旅游信息系统重要的功能。基于旅游景点百科大数据,通过利用计算机技术分析和挖掘景点之间的相似关系,对用户进行个性化旅游景点推荐。介绍了目前推荐系统在旅游业的具体应用,并结合旅游行业的特点,提出利用文本余弦相似度计算方法,定量分析景点之间的相似程度,实现旅游信息化系统的推荐技术,为大数据时代下的旅游行业发展提供借鉴,推动旅游产业信息化发展。
百科大数据;旅游景点;推荐系统;旅游信息化
互联网技术的快速发展,虽然给人们带来丰富的信息资源和便利,同时也产生“信息过载”的问题,旅游者在缺乏相关知识和充裕的时间下,很难对海量信息做出恰当评估和准确选择[1]。例如,当旅游者选定某个城市作为旅游目的地时,通过网络搜索会显示出大量关于该地的旅游信息,在这些海量的信息中,他们很难选择和制定适合自己的旅游景点和路线,网络应用不能够根据旅游者的需求和景点喜好自动提供旅游计划。因此,从用户角度来说,如何通过技术方案解决“信息过载”和“信息迷失”的问题是一个非常重要的研究课题。
推荐系统(RS)被认为是解决信息过载的有效工具[2-4],并且能够为用户提供所需产品信息建议的软件工具和技术手段[4]58,最初应用于电子商务网站并根据用户的喜好提供相应的项目和产品信息(如电影、书籍、新闻、网页等)[2]320。近几年,推荐系统已经成为一个热门的研究领域,并越来越多地应用于电子旅游业,不仅可以为用户提供个性化的旅游路线,而且可以根据旅游者所处的位置进行实时更新,提供酒店、景点、商场、交通、路线等多种形式的推荐,并通过互联网和智能手机客户端为旅游者提供服务[5]。
本文的研究目的是根据用户的兴趣和爱好为用户提供其可能感兴趣的旅游景点,利用1 482 388个专业词汇对32 075个旅游百科大数据信息进行分词,运用计算机方法度量景点之间的相似度,从而为用户推荐旅游景点。
推荐系统从本质上来讲是对信息进行过滤,通过间接测算用户的需求和限制条件,过滤大量无用的冗余的数据,并帮用户准确地筛选出有用的信息[6]。根据推荐算法的不同,主要分为协同过滤推荐、基于内容的推荐、基于知识的推荐、基于用户特征的推荐、基于关联规则的推荐和混合推荐算法。如在旅行和旅游业中两个最成功的案例是Triplehop的Trip Matcher(应用于www.ski-europe.com)和Vacation Coach的专家咨询平台MePrint (应用于www.travelocity.com)。这两个推荐系统都采用了基于内容的推荐算法,并试图模仿传统旅游代理商与用户互动和提出相关的旅游建议[7]。目前,旅游推荐系统按推荐功能主要包括旅游景点推荐、旅游路线推荐、旅游服务推荐和基于社会网络的推荐等。
1.1 旅游景点
目前为用户提供旅游景点推荐主要有两种类型,一种是热门旅游景点推荐,通常是一些著名的和具有代表性的旅游景点,如去北京可能计划去故宫和长城,去悉尼计划去海上歌剧院,去巴黎计划去埃菲尔铁塔。另一种是个性化旅游景点推荐,主要根据用户的历史信息和偏好进行推荐[8]。个性化旅游景点推荐的主要目的有:一是从众多景点中发现热门且用户偏好的景点,二是对用户可能感兴趣的陌生景点做出评价,三是根据游客出行的时间推荐适宜游览的旅游景点[9]。景点推荐内容主要包括景区的地理位置、类型等级、门票价格、开放时间及社会文化等因素[10]。
1.2 旅游路线
旅游路线推荐是为用户提供一条或者多条符合用户兴趣并适宜游览的旅游路线。旅游路线的推荐包括整个出行计划和在某一个旅游景点的最佳游览方式。比如旅游者在选定旅游目的地之后,想知道自己如何安排旅游路线才能够在最短时间内游览更多的或者自己感兴趣的旅游景点,或在某一景区的最适宜的游览路线。旅游路线推荐的基本属性主要包括用户特征(如性别、年龄)、单体还是团队、群体出行方式(家庭、朋友、情侣)、计划天数、交通方式、出行的起始地点和终止地点、预期花费、游客兴趣点等[11-13]。
1.3 旅游服务
旅游服务的推荐旨在为用户提供一个最优的解决方案,通过将餐饮、酒店、交通、购物、游览和娱乐等各种旅游服务信息进行组合,为用户提供个性化的推荐服务。如酒店住宿的推荐内容包括酒店设施、顾客评价、房间类型、可预订房间、入住/退房时间、价格和酒店等级等;餐厅的推荐内容包括餐厅的地理位置、营业时间、消费评价、菜式和价格等[14]。
1.4 社会网络
社会网络已经成为用户获取信息和交流的重要平台,在一些推荐系统中引入社会网络服务,允许用户分享他们的旅游照片和评论感受,并与其他用户进行互动,以帮助游客做出决策。有些推荐系统会直接应用社交网络服务,有些推荐系统会用第三方的信息平台而做出推荐[10]118,例如VISTI系统采用情感分析技术对Twitter和Facebook中用户某一个给定的景点做出正面的还是负面的评论,评价完成后的系统页面会显示绿色或红色,便于其他用户判断景点的受欢迎程度[3]7370。
20世纪90年代中期第一篇协同过滤论文的发表,标志着推荐系统成为一个新的研究领域[15]。企业界和学术界做了大量的工作,致力于研究和开发新的推荐系统,为人们提供方便。推荐系统在电子旅游领域的广泛应用和大量的学术研究表明,旅游推荐系统已经成为一个热门的研究领域。目前对旅游景点推荐系统的研究主要分为3类:一是基于用户地理位置的数据进行分析(包括GPS轨迹、带有地理标记的照片分析、将“地点”作为一种上下文感知),二是基于用户的社交网络进行推荐,三是对用户的特点和评价进行推荐。
Yuxia Huang和Ling Bian提出一个在陌生城市利用贝叶斯和层次分析法的智能推荐系统,通过旅游网站搜集相关景点信息,分析顾客对这些景点属性的偏好,达到旅游景点推荐的目的[16];Horozov等在传统的协同过滤推荐技术的基础上,提出增强的基于用户地理位置为关键技术的协同过滤方案,为旅游者推荐旅游景点[17];Yu Zheng和Xing Xie从人类的行为与旅游相关的喜好角度,根据用户所产生的GPS轨迹向旅游者推荐热门旅游景点与个性化旅游景点[18];Baltrunas等提出一个基于用户兴趣点(points of interest,POI)的上下文感知的移动推荐系统,包括天气、时间、地理位置及周边景点在内,作为一种情境进行推荐,指出基于上下文感知的推荐系统比非基于上下文感知的移动推荐系统更有效[19-21]。其次,根据用户的社交网络进行景点推荐,如刘艳和潘善亮指出人们在现实生活中选择旅游景点有时会询问朋友、亲人,因此根据社交网络中用户偏好、好友信任及流行景点及景点的适宜游玩时间等信息,提出基于LBSN好友关系的旅游景点推荐[9]118。最后,根据用户的特点和评价进行景点推荐,如令狐红英和姜季春指出传统的旅游网站多是以文字和图片的方式向游客展示景点信息,不能够满足现代消费者的多种需要,因此根据旅游者的消费特征和偏好,利用改进版的贝叶斯分类算法进行旅游信息的智能化旅游景点推荐[22];另有学者通过游客在旅游网站对景点的评价,对用户进行景点推荐[23]。虽然上述研究都取得一定的成果,但仍存在一定的缺陷,缺乏对旅游景点之间的信息分析和比较,鲜有学者从旅游百科数据的角度进行旅游景点推荐,因此本文在前人研究的基础上提出基于旅游百科大数据的景点推荐系统,并借鉴应用于旅游业中比较成熟的推荐算法——基于内容的推荐,通过景点相似度的计算为用户推荐其可能感兴趣的旅游景点。
3.1 景点信息标签提取
在景点百科信息数据中,其蕴含的词汇信息,对该景点的特点具有很强的代表作用。为了能够提取景点的重要信息,我们需要对景点的百科数据进行归纳标注。本文通过抓取2007-2016年约30万篇学术论文,并提取学术文献中关键词作为标签集。如图1所示,在实验过程中,我们抓取了公开发表的中文学术文献,通过整理和去重处理,提取了1 482 388个专业词汇。这些词汇来源于学术文献的关键词,因此具有很强的专业性。
资料来源:作者绘制。图1 文献关键词标签集
3.2 景点信息相似度计算
本文定义,对景点进行标签提取后,若两个景点之间的共同标签越多,它们的相似度就越大。假设对景点A提取的标签集记为LA={la1,la2,…,lam},对景点B提取的标签集记为LB={lb1, lb2,…, lbn},LC表示他们的共同标签集,则LC={lc1, lc2,…, lcp}。
利用文本相似度计算方法,对景点之间的相似度进行计算,本文采用常用的余弦相似度方法进行计算[24]。假设景点A和景点B之间的相似度为Sim(A,B)∈[0,1],其中lak和lbk表示景点A和景点B之间共同标签的个数,则它们的相似度为:
下面,举例说明余弦相似度计算方法,并说明公式中数据的来源:
假设,景点A的百科描述为:在山西太原市南,原名白云寺,建于明初,万历年间增修。又因山西太原城北门外有禅院曰十方院,故通称此寺为南十方院。
景点B的百科描述为:山西晋城佛山景区位于古郊乡,六泉乡一带,北至壶关县鹅屋乡,明初重修。主峰离晋城陵川县城35千米。
如表1和表2所示,观察A和B的标签提取结果,有“山西”为共同标签,数量分别为2和1,又有“明初”为共同标签,数量均为1。
表1 对A进行标签提取
数据来源:作者计算。
表2 对B进行标签提取
数来源:作者计算。
结合相似度计算公式,则计算此两景点的相似度为:
注:分子为景点A与景点B相同标签的数量乘积之和,分母为景点A和景点B分别求平方和,然后求两者平方根的乘积。
3.3 实验结果
本文实验采用来自真实旅游网站的百科数据,包含全国32 075个景点信息(数据来源:http://scholat.com/portaldownloadFile.html?fileId=5364),该数据集的信息已经为精细分词的旅游百科文本,分词结果包括词性标注结果。为适应本文实验,我们将百科数据重新整理,利用前文描述实现的更为专业的论文关键词标签提取方法,重新对该数据集进行分词。具体的处理流程如图2所示。
资料来源:作者绘制。图2 景点推荐系统流程
在实验过程中,我们对景点百科资料进行标签提取,并统计各个标签词汇的个数,利用余弦相似度公式进行两两计算景点之间的相似度。图3为编号53的景点“广武屯兵”的标签提取结果,图4为编号79的景点“大同龙山”的标签提取结果,图中“#”后面的字母表示词性,本文的实验结果与词性无关,在这里不做讨论(见图3和图4)。
根据公式:
资料来源:作者绘制。 资料来源:作者绘制。图3 编号53景点标签 图4 编号79景点标签
景点A编号景点B编号相似度景点A编号景点B编号相似度景点A编号景点B编号相似度2514500.9961994460.4243424290.360341880.9672432670.42372430.360141540.8161742980.42324410.3591303240.8164104140.4231742190.359221770.80049510.4224144490.3592654400.7192192980.4211993450.3582413160.6472192370.4171993690.35891640.6091994180.416941560.3583554510.5722914200.4162183690.3584144230.5721742370.4142163200.3581181660.5151654050.4131411990.358701660.5142674360.4132112150.358
数据来源:作者计算。
注:连线的粗细表示景点之间相似度的程度 资料来源:作者绘制。图5 部分景点相似关系图谱
3.4 实验分析
通过实验,我们得到大量的景点相似数据,从大数据的结果查出,相似度的数值结果蕴含着景点之间的相似程度定量的信息。通过比较相似度的数值,能够为旅游信息系统提供精准的景点推荐技术支持。
我们以编号414的“晋城陵川南吉祥寺”和编号423的“晋城陵川北吉祥寺”为例,观察实验结果,发现它们的相似度达到0.572,说明该两个景点之间的百科信息较为相似。
如图6和图7所示,通过查阅编号414的“晋城陵川南吉祥寺”和编号423的“晋城陵川北吉祥寺”的百科信息,发现该两个景点都是位于山西晋城的古寺,并且景点的历史信息和景点特征大致相似,因此当旅游信息系统检测到游客在搜索或者了解“晋城陵川南吉祥寺”景点的相关信息时,推荐系统可以智能感知,该游客对“晋城陵川北吉祥寺”有潜在的兴趣,实验结果表明本文提出的推荐系统具有比较高的精确度。
资料来源:作者绘制。 资料来源:作者绘制。图6 景点A百科数据 图7 景点B百科数据
随着旅游业的蓬勃发展与计算机技术的不断进步,推荐系统已越来越多地应用于电子旅游业,并日益受到人们的青睐。国外著名的在线旅游网站,如Expedia,Priceline,Travel Zoo等,和国内大型的旅游网站,如携程网、去哪儿网、酷讯网等,都采用了推荐系统技术。但与国外相比,我国旅游网站的推荐技术略显不足,以中美两国在旅游电子商务网站中具有行业代表性的携程网与Expedia内容进行比较发现,Expedia已采用较为成熟的推荐系统,推出的服务内容更加全面化和人性化,甚至会根据用户的需求推荐相关的旅游服务,如旅游景点、住宿餐饮、娱乐购物和最佳的旅游路线等个性化服务[25],相比之下,这些个性化的服务推荐正是我国在线旅游网站所欠缺的内容。虽然携程网在景点介绍、旅游路线、酒店住宿、旅游产品、美食特色等方面做了一些推荐服务,但是这些服务往往是把自身作为一个旅游信息交流平台,让用户自行选择,对用户的偏好而做出的景点推荐不够完善[21],而旅游景点的信息和类型往往影响着旅游者对该景点的吸引程度。因此,旅游景点的推荐在旅游网站的应用尤为重要。
基于此,本文将旅游百科大数据引入智能旅游推荐系统,通过文本相似度的算法,比较两个景点的相似度,从而为用户提供旅游景点的推荐服务。研究实验结果表明,提出的推荐系统具有比较好的推荐结果,能够精准地为用户挖掘旅游景点的潜在兴趣,在理论和实践方面都具有一定的研究意义。在理论方面,充分考虑了景点百科信息决定着用户对该景点的兴趣程度,通过对理论深入研究而实现的推荐系统,为旅游产业信息化的决策做出了现实应用的指导。在实践上,随着互联网和智能手机服务终端的发展,可以为在线旅游网站或其他旅游信息系统提供技术支持。但与其他推荐系统相比,旅游推荐系统有自身的复杂性和特殊性,在旅游决策方面受到多种因素的影响。因此,在今后的研究当中,我们应引入更加丰富的参数,考虑更加复杂的因素,设计更加精准的推荐方法,以适应大数据时代旅游信息化的发展。
[1] CASTILLO L, ARMENGOL E, ONAINDA E, et al. Samap : an user-oriented adaptive system for planning tourist visits[J]. Expert systems with applications, 2008, 34(2):1318-1332.
[2] GAVALAS D, KONSTANTOPOULOS C, MASTAKAS K, et al. Mobile recommender systems in tourism[J]. Journal of net-work and computer applications, 2014, 39(1): 319-333.
[3] BORRAS J, MORENO A, VALLS A. Intelligent tourism recommender systems: a survey[J]. Expert systems with applications, 2014, 41(16): 7370-7389.
[4] RICCI F, ROKACH L, SHAPIRA B. Introduction to recommender systems handbook[M]. Springer US, 2011.
[5] LI D, JIA Z Y, WANG J H,et al. Smart tourism management and intelligent recommendation technology [J].China management informationization,2013, 16(7): 80- 81. [李丁, 贾志洋, 汪际和,等. 智慧旅游管理与智能推荐技术[J].中国管理信息化, 2013, 16(7): 80-81.]
[6] NOGUERA J M, BARRANCO M J, SEGURA R J, et al. A mobile 3D-GIS hybrid recommender system for tourism[J]. Infor-mation Sciences, 2012, 215(18): 37-52.
[7] RICCI F. Travel recommender systems [J]. IEEE intelligent systems, 2002, 17(6): 55-57.
[8] HU Q N. Travelogue based tourist attractions recommending, trip and route planning system[D].Hangzhou:Zhejiang University,2015.[胡乔楠. 基于旅游文记的旅游景点推荐及行程路线规划系统[D]. 杭州:浙江大学, 2015.]
[9] LIU Y, PAN S L. Personalized travel recommendation technology based on friendship of LBSN [J].Computer engineering and applications, 2015, 51(8):117-122.[刘艳, 潘善亮. 基于LBSN好友关系的个性化景点推荐方法[J]. 计算机工程与应用, 2015, 51(8):117-122.]
[10] QIAO X J, ZHANG L Y. Research on the application of foreign tourism recommendation system in recent ten years [J].Tourism tribune, 2014, 29(8):117-127.[乔向杰, 张凌云. 近十年国外旅游推荐系统的应用研究[J].旅游学刊, 2014, 29(8):117-127.]
[11] CHENG A J, CHEN Y Y, HUANG Y T, et al. Personalized travel recommendation by mining people attributes from commu-nity-contributed photos[C]//Proceedings of the 19th ACM international conference on Multimedia. ACM, 2011: 83-92.
[12] WU P, ZHU J M, ZHU L B, et al. Research on the design of travel route based on the multi-objective programming and intel-ligent optimization algorithm[J].Journal of mathematics in practice and theory, 2016(15):105-114.[吴澎, 朱家明, 朱林波,等. 基于多目标规划和智能优化算法的旅游线路设计研究[J]. 数学的实践与认识, 2016(15):105-114.] [13] WU Q X, ZHOU Y, WEN D Y,et al. Personalized trip itinerary recommendation based on user interest and points of interst popu-larity[J].Journal of computer applications, 2016, 36(6): 1762-1766.[吴清霞, 周娅, 文缔尧, 等. 基于用户兴趣和兴趣点流行度的个性化旅游路线推荐[J]. 计算机应用, 2016, 36(6): 1762-1766.]
[14] GAVALAS D, KASAPAKIS V, KONSTANTOPOULOS C, et al. A survey on mobile tourism recommender sys-tems[C]//Communications and Information Technology (ICCIT), 2013 Third International Conference on. IEEE, 2013: 131-135.
[15] ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE transactions on knowledge and data engineering, 2005, 17(6): 734-749.
[16] HUANG Y, BIAN L. A Bayesian network and analytic hierarchy process based personalized recommendations for tourist at-tractions over the Internet[J]. Expert systems with applications, 2009, 36(1): 933-943.
[17] HOROZOV T, NARASIMHAN N, VASUDEVAN V. Using location for personalized POI recommendations in mobile envi-ronments[C]//International Symposium on Applications and the Internet (SAINT'06). IEEE, 2006: 6 pp.-129.[18] ZHENG Y, XIE X. Learning travel recommendations from user-generated GPS traces[J]. Acm transactions on intelligent systems and technology (TIST), 2011, 2(1): 389-396.
[19] BALTRUNAS L, LUDWIG B, PEER S, et al. Context-aware places of interest recommendations for mobile users[C]// Inter-national Conference, Duxu, Held As. 2011:531-540.
[20] ZHANG W W, ZHAO F, WANG D. On personalized travel recommendation system under context awareness[J].Geospatial information, 2014, 12(2):24-27. [张伟伟, 赵飞, 王敦. 上下文感知下的个性化旅游推荐系统初探[J]. 地理空间信息, 2014, 12(2):24-27.]
[21] HOU X H, WEN Y M. The recommendation of travel destinations based on collaborative filtering[J]. Computing technology and automation,2012, 31(4):116-119.[侯新华, 文益民.基于协同过滤的旅游景点推荐[J]. 计算技术与自动化, 2012, 31(4):116-119.]
[22] LINGHU H Y, JIANG J C. Application of improved Bayesian algorithm in the intelligence recommendation system of traveling information[J]. Journal of Guizhou Normal College, 2012, 28(3):22-26.[令狐红英, 姜季春. 改进的贝叶斯算法在旅游景点推荐中的应用[J]. 贵州师范学院学报,2012, 28(3):22-26.]
[23] LI Q, XU W, JIANG H X. Personalized recommendation for traveling planning based on online word-of-mouth[J]. Management review,2016,28(6):113-118.[李倩, 许伟, 蒋洪迅. 考虑用户口碑的旅游计划个性化推荐方法研究[J]. 管理评论, 2016,28(6):113-118.]
[24] HUANG A. Similarity measures for text document clustering[C]//Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008), Christchurch, New Zealand. 2008: 49-56.
[25] YU Y S. The comparative study of tourism electronic commerce in China and America:a case study of Ctrip and Expedia[J]. Economic & trade update, 2008, 6(2):121-122.[禹有松. 中美旅游电子商务比较研究:以携程和Expedia为例[J]. 时代经贸, 2008, 6(2):121-122.]
[责任编辑: 潘岳风] [责任校对: 连云凯]
Application Research of Tourist Attraction Recommendation System Based on Encyclopedia Big Data
YIN Shuhuaa, FU Chengzhoub
(a.SchoolofTourismManagement;b.SchoolofComputerScience,SouthChinaNormalUniversity,Guangzhou510631,China)
With the development of the Internet and big data technology, tourism information has become a hot research topic. In the tourism information system, how to tap the user's interest and to provide users with accurate attractions recommended which is an important function of the tourism information system. The paper uses the computer technology to analyze and explore the similarities between the attractions for the user personalized travel attractions based on the encyclopedia of tourist attractions data. The paper introduces the current application of the recommended system in the tourism industry, combined with the characteristics of the tourism industry, and proposes the use of the text cosine similarity calculation method to analyze quantitatively the similarity between scenic attractions, to realize the recommended technology of tourism information system, which is to provide reference for the development of tourism industry and promote it under the big data age.
encyclopedia big data; tourist attractions; recommendation system; tourism informatization
广东省应用型科技研发专项资金项目(2016B010124008)
2016-10-10
尹书华(1992- ),女,河北衡水人,华南师范大学旅游管理学院2015级硕士研究生,研究方向为旅游信息化;傅城州(1986- ),男,广东陆丰人,华南师范大学计算机学院2014级博士研究生,研究方向为大数据。
F592.6
A
1674-3784(2017)03-0107-09
[引用格式]YIN S H, FU C Z.Application research of tourist attraction recommendation system based on encyclopedia big data[J].Tourism forum,2017,10(3):107-115.[尹书华,傅城州.基于百科大数据的旅游景点推荐系统应用研究[J].旅游论坛,2017,10(3):107-115.]