融合地理标签数据的个性化信息服务应用研究

2019-11-07 09:28陈氢冯进杰
现代情报 2019年10期
关键词:景点标签聚类

陈氢 冯进杰

摘 要:[目的/意义]社交媒体网站的飞速发展为我们贡献了海量数据,通过对这些数据的进一步挖掘,可以实现个性化服务推荐。[方法/过程]本文利用地理标签中的丰富的元数据信息,结合基于密度的DBSCAN聚类算法和TF-IDF的统计方法,来提取和识别当地的景点区域,然后结合季节来计算景点的热度,最后运用基于混合过滤的推荐算法,为游客实现个性化旅游服务推荐。[结果/结论]通过Flickr网站爬取到的Geo-tagged数据集验证了本文提出方法的有效性。

关键词:地理标签数据;DBSCAN聚类;旅游;个性化服务推荐

DOI:10.3969/j.issn.1008-0821.2019.10.003

〔中图分类号〕G251 〔文献标识码〕A 〔文章编号〕1008-0821(2019)10-0024-08

Abstract:[Purpose/Significance] The rapid development of social media websites has contributed a lot of data to us.Through further mining of these data,we can realized the personalized recommendations service.[Method/Process]This paper used the metadata information in the geo-tagged dataset,combined with the DBSCAN clustering algorithm based on density and the TF-IDF statistical method to extract and identify the local spots,and then calculated the hot of the local spots in combination with the seasons.At last,we used Hybrid filtering algorithm to achieve personalized travel recommend services.[Result/Conclusion]The Geo-tagged dataset from the Flickr website proved the effectiveness of the papers extraction method.

Key words:geo-tagged data;DBSCAN clusters;travel;personalized service recommendation

近年来,伴随着计算机通讯技术的发展,很多传统行业逐渐与移动互联网融合,获得新的发展机遇,旅游行业就是其中之一。随着物资水平的极大提高,旅游已经成为人们的基本生活方式,是消费闲暇时光的最好选择之一。与此同时,随着交通工具的快速发展,出行方式已经开始由传统的跟团旅游逐渐转变为由游客自行主导的自驾游或者自助游,游客也开始更加注重旅游的质量[1]。然而对于自驾游和自助游,还存在着诸多的不便之处,例如面对一个陌生的旅游目的地,游客需要考虑诸多因素,像景点的可玩性,交通的便利性,游玩的时间以及门票的价格等等,这无疑会消耗游客大量的时间和精力来进行决策[2]。同时,庞大的旅游市场也给政府和公共服务部门带来了巨大的压力,面对人山人海的黄金周,如何缓解人流压力,这已然成为现代旅游发展需要突破的瓶颈。

伴随着移动互联网和4G通讯技术的发展,传统旅游行业迎来的新的发展契机。Facebook、Flickr、马蜂窝等社交分享网站的出现,每天可以产生海量的游客照片和旅游攻略,这些照片和旅游攻略中含有丰富的元数据信息,包括地理位置信息、拍摄的时间以及用户的情境等等[3],我们将这种包含地理标注信息的照片称之为地理标签数据。通过对地理标签数据的处理和挖掘,可以提取游客的游玩轨迹和景点停留时间以及游玩时的情境信息,这些地理标签数据为研究游客的行为偏好,以及城市的旅游特征提供了丰富的一手数据。

因此,本文以地理标签数据为研究对象,利用DBSCAN的聚类算法和TF-IDF方法来挖掘和识别景点区域,结合旅游淡旺季来综合计算景点区域的热度,按照旅游时间来建立景点区域数据库,最后使用基于混合过滤推荐算法为用户进行个性化旅游路线推荐,减轻用户的信息困扰和决策压力。

1 相关研究

移动智能终端的普及,使地理标签数据爆炸式涌现在我们面前,这给我们的个性化推荐研究带来海量的数据资源,因为包含地理位置、时间、文本等信息,逐渐成为众多学者研究的热点。国外早就将地理标签数据应用于建立用户旅游偏好模型以及重建游客的旅行轨迹。Pladino S等[4]利用地理標签数据对几个著名的旅游景点的吸引力进行了量化,得出了景点的热度排名;Crandall D等[5]首先提取了地理标签数据中地理位置信息,然后采用基于支持向量机算法来对含有地理位置的的非地理标签照片进行分类,最后结合均值偏移算法来计算当地的景区热点区域和相关排名;Majid A等[6]提出利用照片的时间戳结合互联网资料来获取旅游当地气候,法律,人文等相关上下文消息,构建了基于地理标签数据的个性化推荐模型,Lu X等[7]通过聚类的方式从地理标签数据中提取出热门的旅行路线,并将旅游的持续时间和旅游成本进行综合考虑,帮助游客进行旅游路线的选择。

国内在地理标签数据的研究尚处于初步阶段。朱金悦等[8]利用从Flickr中的地理标签数据,结合核密度的聚类方法对海南省的游客时空行为进行分析;武传表等[9]利用1997-2014年的地理标签数据研究了赴大连市游客的时空行为特征,发现游客的旅游时间季节性和时段性特征明显,而且游客的游玩目的地呈现多样性;马丽君等[10]对江苏省入境及国内游客的空间聚集性进行了分析;杨兴柱等[11]对南京市内部旅游客流空间分布格局进行了实态模拟。国内专家学者大多利用地理标签数据来分析游客的游览轨迹和行为特征,将其应用在个性化推荐方面的研究尚少。因此,本文尝试构建基于地理标签数据的个性化旅游服务模型,首先获取景点的热点区域(Hot of Location,HOL),然后集合旅游的季节来获得景点区域的热度,建立景点区域的数据库,最后结合用户的偏好和旅游情境,为用户实现个性化景点和游玩线路推荐。

2 研究重点与模型建立

2.1 景点区域的提取和识别

目前关于景点区域的提取有多种方法,比较成熟的有基于k均值聚类(K-mean)和基于均值漂移(Mean-shift)的聚类算法,还有基于核密度的聚类方法。然而采用最多还是基于密度的DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法来对景点区域进行聚类[12]。DBSCAN算法的核心思想是将紧密相连的样本点定义为同一类,一般会预先设立1个阈值,样本的密度大于该阈值,则可视为同一类。DBSCAN算法可以在空间数据中发现任何形状的簇,而且可以自动去除离群的数据点,受噪声数据的影响较小,不需要预先设置聚类的个数,在对海量样本数据进行聚类时有较好的效果,因此本文采用DBSCAN算法对地理标签数据进行聚类来提取景点区域。

我们利用DBSCAN算法进行景点聚类时,有两个核心的参数(参数ε和参数MitPts),它们两个是用来描述样本集的紧密程度。其中参数ε用来描述样本领域的阈值,即聚类的半径;参数MitPts用来描述某一个样本的距离为ε的领域中样本个数的阈值(每一类簇中最少的照片数量)[13]。

利用DBSCAN算法进行景点聚类主要流程分为两步:1)扫描每个样本点p,如果p没有被扫描过,则检查p距离为领域中照片的个数,如果MitPts值大于阈值,则p为核心对象,如果MitPts值小于阈值,则视为噪点,舍弃;2)若p为核心对象,将p放入聚类中心簇c中,将p的领域内所有样本点q加入候选集,进行下一步的扫描中。依次遍历所有的点,直至所有样本点都被访问到,具体流程如图1所示。例如取MitPts的阈值为5,红色的点即为核心对象,图2中用绿色箭头连起来的即为景点的区域。

通过DBSCAN算法提取到景点的区域后,景点区域的名称可能与实际名称并不相符。还需要到景点区域进行识别,对聚类后的景点区域进行命名。笔者这里采用TF-IDF的统计方法,TF-IDF算法认为一个词的重要性与其在文档中出现的频率成正比,与其在语料库中出现的频率成反比,利用TF-IDF算法对照片的文本标签进行挖掘,提取文本标签中词频最高的词语作为景点区域的名称。

2.3 景点区域数据库

在确定了景点的区域和景点的热度后,我们在进行景点的个性化服务推荐时还需要考虑游客游玩的天气、季节以及景点的门票价格等其他因素的影响,因为有些景区在某些季节是不对外开放的,为了便于更好地为游客进行个性化服务推荐,我们建立基于本体的数据库。

对于景点L,我们首先要确定有多少用户访问过该景点,然后根据每个用户拍摄的照片进行排序,对于同一个用户的拍摄同一景点区域的照片,我们可以设立1个阈值θ,如果两张照片的时间戳小于阈值θ,则可以记为1次旅程,记用户的旅玩时间为。为了便于后续对用户偏好的分析,本文按照事务型方式来建立数据库,我们将游客的游玩事件记为V=(vu,vl,vt),我们可以利用游玩的时间戳通过互联网获取游客的情境信息,以及游玩天气等基本信息,为了便于分析,本文将游客游玩的时间戳转换成用户游玩的情境,具体记录信息如表1所示。

2.4 个性化服务推荐模型

基于地理标签的游客个性化服务的研究方法就是先通过社交媒体网站上获取到地理标签数据后,我们通过对地理标签进行信息挖掘,发现当地的景点区域,景点区域的热度,同时建立景点的数据库,

3 实验过程与结果分析

3.1 数据的采集和预处理

Flickr是雅虎旗下的一家基于Web2.0的照片分享网站,通过共享照片让用户可以相互交流,上面有全世界网友分享的海量照片,使我们获得地理标签数据的最佳选择之一,并且Flickr网站提供开放的api接口,注册成为其开发者会员,就可以爬取网站上的数据[15]。

Flickr网站提供支持多种语言的api接口工具包,笔者采用目前使用最为成熟的基于Python脚本语言Beejs Python Flickr API工具包对地理标签数据进行采集。根据本文的研究需求,选取文本标签为Wuhan,时间从2008年1月1日到2018年12月31日的所有数据,从数据集中提取用户的id、照片的id、照片的地理位置(经纬度)以及照片的文本标签,照片的拍摄时间等信息,如表2所示,共计得到23 856条记录。

刚从Flickr网站上获取到的地理标签数据并不能直接用于DBSCAN聚類分析,我们要对采集到的数据进行预处理,去除其中部分没有价值的数据。利用数据的清洗可以用来剔除与主题无关的数据信息,如收集到的与景点无关的照片。为了地理标签的质量,我们制定以下清洗规则。

1)对于照片的地理标签与实际图片内容不匹配的照片,经分析后,应该是设备定位功能不准确导致的,由于客户在1天之内的活动范围有限,对于此类数据,我们只能视为无效数据,进行剔除处理。

2)对于景点的同一位置,在同一时间或者短时间内具有多张相同的照片,经分析发现,是因为用户习惯于拍摄多张照片以便于从中筛选出最合适的照片这种行为导致,为了消除大量重复照片对景点区域识别的干扰,我们从时间id和地点id相差不大的照片选取其中1张作为代表,删除其他照片。

3)对于与景点无关的数据,例如个人自拍照、家庭聚会照、事故现场等与景点无关的照片,会干扰景点区域的识别,也只能进行剔除处理。

通过对地理标签数据的预处理,最后得到包含有435个用户的18 652张照片,来进行下一步的信息挖掘。

3.2 景点区域提取及热度排名

进行景点区域的聚类时,DBSCAN算法中的聚类半径ε和聚类中心簇范围内照片的数量MitPts影响着景点区域的识别准确与否。为了选择合适的聚类半径和MitPts,本文选取了100个用户的4 523张照片,进行不同权重的对比,具体结果见图4。

[5]Crandall D,Backstrom L.Mapping the Worlds Photos[C]//In Proceedings of the International Conference on World Wide Web(WWW 09)ACM.New York,2009:168-181.

[6]Majid A,Chen L,Chen G,et al.A Context-aware Personalized Travel Recommendation System Based on Geotagged Social Media Data Mining[J].International Journal of Geographical Information Science,2013,27(4):1-23.

[7]Lu X,Wang C.Generating Travel Routes from Geo-Tagged Photos for Trip Planning[C]//In Proceedings of the 18th ACM International Conference on Multimedia.Italy,2010:143-152.

[8]朱金悦,胡涛.基于地理标记照片的游客空间分布特征研究——以海南省为例[J].旅游论坛,2016,9(6):17-22.

[9]武传表,向慧容.基于地理标记照片的赴大连游客时空行为特征研究[J].辽宁师范大学学报:自然科学版,2017,40(3):387-394.

[10]马丽君,孙根年.江苏省国际国内旅游的空间聚集性及成因分析[J].商业研究,2009,(2):170-174.

[11]杨兴柱,蒋锴,陆林.南京市游客路径轨迹空间特征研究——以地理标记照片为例[J].经济地理,2014,34(1):181-187.

[12]Schmidt B,Laamanen H.Location-based Mobile Tourist Services-first User Experiences[J].Information and Communication Technologies in Tourist,2003:115-123.

[13]肖政.基于空間数据挖掘的个性化旅游景点推荐系统研究[D].武汉:华中师范大学,2016.

[14]Lee I,Cai G.Exploration of Geo-tagged Photos Through Data Mining Approaches[J].International Journal Expert Systems with Applications,41:397-405.

[15]王楠.基于地理标签的旅游信息服务研究[D].西安:陕西师范大学,2016.

[16]百度百科“信息熵”词条[EB/OL].https://baike.baidu.com/item/信息熵,2018-10-08.

[17]陈氢,冯进杰.多维情境融合的移动情境感知服务系统构建研究[J].情报理论与实践,2018,41(8):115-119,160.

[18]王楠.基于地理标签的旅游信息服务研究[D].西安:陕西师范大学,2016.

[19]Majid A.基于地理标签的社会媒体数据挖掘的智能旅游推荐研究[D].杭州:浙江大学,2012.

(责任编辑:孙国雷)

猜你喜欢
景点标签聚类
无惧标签 Alfa Romeo Giulia 200HP
打卡名校景点——那些必去朝圣的大学景点
不害怕撕掉标签的人,都活出了真正的漂亮
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
英格兰十大怪异景点
标签化伤害了谁
没有景点 只是生活
基于多进制查询树的多标签识别方法
一种层次初始的聚类个数自适应的聚类方法研究