基于LBS签到事件的数据挖掘研究

2015-05-30 10:48黄喜发等
软件工程 2015年8期
关键词:数据挖掘社交用户

黄喜发等

摘 要:随着社会信息大爆炸和大量数据的产生,数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发,回顾了基于LBS的数据分析和挖掘现状。通过对Gowalla数据处理与分析,统计签到事件的数据分布规律,分析用户的签到行为,发现Check-in的时间戳具有明显的规律性,体现了人们的工作休闲活动特点,进一步探讨了签到数据在用户的行为习惯分析及兴趣发现等方面的应用。

关键词:数据挖掘;地理位置服务;签到

中图分类号:TP311.52 文献标识码:A

Abstract:Along with the social information explosion as well as the production of large amounts of data,data mining has become prevalent interest.This paper reviews the development and application of check-in data based on LBS.We draw check-in data statistical distribution and analyze users behavior based on Gowalla data processing and analysis.The conclusions based on experiment indicate that the obvious regularity of check-in time stamp reflects individual's work and leisure activities.In addition,the paper has also discussed how to utilize check-in data in the field of user's behavior analysis and interest discovery.

Keywords:data mining;location-based service;check-in

1 引言(Introduction)

近年来,数据挖掘引起了学术界和产业界的极大关注,其主要原因是随着社会发展产生的大量数据,缺乏有效的利用,迫切需要从这些数据中发掘有用的隐含信息和知识。因此,在数据量飞速增长背景下,如何从大量数据中挖掘有用的信息是一个相当热门的研究话题。

目前,国外流行诸多基于Loction-base Service(LBS,基于地理位置服务)服务的应用软件,例如Foursquare、Facebook、Twitter、Gowalla和Brightkite等。国内,也有互联网公司开发基于位置的在线应用,例如,腾讯QQ空间、微信朋友圈和陌陌等。这些软件或者应用程序能够记录用户活动或者事件发生的地理位置信息,通过用户分享将这些信息推送给朋友用户。

2 基于签到数据分析的研究现状(Review onanalysis based on check-in)

Check-in是基于LBS的应用服务,它把分享的信息从虚拟世界延伸到现实,并且提供真正和参与者密切相关的有用信息,这使得LBS展现了其巨大的吸引力和潜在价值[1]。在签到(Check-in)事件的分析应用方面,有研究者在用户价值理论的基础上,融合技术接受模型,探讨了用户价值、感知易用性与服务体验等因素对用户持续使用意愿的影响进行了分析[2]。基于LBS的社交网络用户,是比较愿意分享签到数据和自己的活动情况,并希望能通过签到提高更好的服务体验[3]。北京大学的阴红志通过挖掘时间信息、空间信息以及时空信息,提出了一种结合上下文信息的用户模型和推荐算法,用来改善社会化媒体中的推荐效果和提高用户体验水平[4]。武汉大学的曹劲舟还提出一种基于微博数据的方法,对其签到事件的POI数据更新开展了研究工作[5]。基于位置签到数据还被用于及时准确地获取城市层次性空间知识,有学者提出了一种基于签到属性显著度的差异,从位置签到数据中提取城市分层地标的方法,从位置签到数据中的签到次数、签到用户数和用户影响因子等方面,讨论影响POI显著度的因素[6]。胡庆武提出一种基于社交网络位置签到数据的城市热点探测与商圈挖掘方法,对位置签到数据进行了空间自相关检验,发现武汉市商圈分布与城市规划商圈具有强相关性[7]。还有学者在传统基于社交网络的好友推荐算法的基础上,结合用户的历史行为的GPS地理签到信息,提出用户社交位置距离的概念用于改善推荐效果[8]。

本文针对国外基于LBS的社交网络Gowalla的Check-in数据进行了深度挖掘和分析,探讨了用户的行为习惯及朋友关系发现等问题。

3 基于Gowalla数据的统计分析(Statistical analysis on Gowalla)

本文采用的Gowalla数据集,由斯坦福大学的研究学者从Gowalla网站爬取,并进行了初步整理,数据下载网址:http://snap.stanford.edu/data/loc-gowalla.html,数据以txt文件格式存放。每个基本数据项包含用户ID,签到时间,签到经纬度,签到地点ID等数据项。

3.1 数据预处理

斯坦福大学公开的Gowalla数据集,文件较大,用MATLAB或者Java语言编程读取,存在内存溢出等问题。本文采用SQL语句读取数据记录存入MySQL数据库。首先,在数据读入后,删除极个别可能出现重大误差的数据。其次,根据预处理的数据,编写SQL语句命令进行分类统计,统计的结果导入Excel。然后,根据相关的数据分析结果和规律,可以进行相关的深度挖掘分析。

预处理后的数据,是对原数据的数据项进行了拆分,方便后期处理分析。数据包含字段:用户ID、签到时间、星期、时间点、纬度、经度和地点编号。

3.2 统计用户的Check-in数的概率分布

数据集合的概率分布统计,可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表,根据基本表统计签到的数量及其概率分布,进一步可以得到每个签到次数的分布。

根据数据的分布可以得到散点图如图1所示。

根据平均签到次数对应的人数,可以计算出前面百分比量级的人平均Check-in次数,如图2所示。

3.3 统计用户在不同时段的签到习惯

通过统计用户在每个小时的时间段内的签到次数,如图3所示,可以初步了解用户的签到习惯。

从图4的结果分析,白天签到的地方有一定的聚集时间段,比如说黄昏的时候,签到的人数比较多,即大多数用户选择签到的时间。

签到高峰期在傍晚,可以推断大多数人是在下班时间进行工作签到,而签到低谷在早晨,这与现实生活情况比较吻合,在早上刚起床的时间段内签到人数比较少,随着时间推移,活动的人数逐渐增多,签到数量也在逐渐增大。

当然还可以按照月份统计,如图5和图6根据两年内(按照12个月统计)的签到次数大致可以看出签到次数在9月达到了签到的高峰期,金秋9月天气逐渐转凉,正是出行的绝佳时机,大部分人选择出行,并在出行的过程中签到。

3.4 根据签到的地理位置分析用户习惯

根据签到数据中的地理位置,按照地理的纬度将全球以南北回归线和南北极圈做分割。将签到地点大致分为三个板块,即南北极圈内,回归线到南北极圈之间,南北回归线之间。基本操作是选择签到地点在南极圈和北极圈内的签到用户(即Check-in纬度大于66.5度或者小于-66.5度),具体分布详见表格1。

从表1结果分析,有1%的用户在南北极圈里面进行过签到,2%的用户在南北回归线之间签过,说明这部分人具有探险精神,喜欢旅行与探险,并希望将自己独特的签到地点分享给他人,希望与周围人分享自己的旅行路线。

3.5 根据签到的时间段统计和分析

工作日和双休日的签到情况反映用户的作息规律。在周一到周五的11:00—13:00时间段,即中午午休时间段,分析公共交通场所的签到数据,可以推断出拥堵程度。根据统计的签到分布规律,可以找出的工作地点周围的交通枢纽地带。

因为周末可能有些人不上班,统计工作日比较有代表性。通过对排名的统计,可以推断出在哪些交通枢纽比较拥挤。排名靠前的前三位详见表2。

4 基于统计数据的挖掘与分析(Data mining and analysis on statistical data)

4.1 兴趣相同朋友发现

根据用户的签到地点的地理位置信息,分析地点的现实社会属性,可以发现具有相同兴趣的朋友。例如,在南极有签到信息的用户ID为117874,在2010-09-21T12:53:52Z到达某地(经纬度为-90,-139.266667),记录见下表3。

然后根据签到地点,查询ID为33843的用户在之前去过南极,他同用户117874可能具有诸多相同兴趣爱好,他们交流去南极的心得体会,并可以交朋友,分享经验等。

在他到达南极的时候,可以根据签到时间判断是否有人跟他在同一天签到的,如果有的话,且是同一天到达南极,可以联系另一个人,共同探险,使得在南极这个气候恶劣的地方能找到志趣相投的同伴。

4.2 根据星期来推断工作地点和休闲地点

根据原始数据将签到时间映射到的具体星期值,通过分析每个星期的签到数,结合相应的信息,可以得出一个人基本的活动规律和生活圈子,以ID编号0的用户为例。

可以看到用户0在地点420315(506 Congress Avenue、Austin、TX78701美国)签到最多,然后根据地点编号420315找出所有在此处签到的人。

经过对于之后的数据进行验证,同样在位置420315(506 Congress Avenue、Austin、TX78701美国)签到的人有7、31、52、103749、10290、10300等。

然而10152在420315处只签到了1次,可以判断出,0上班的公司的地点编号为420315,但是用户10152到0的公司交流过,并在公司使用Gowalla签到。

而用户66在420315处签到次数为47次,并且是66签到最多的地方,所以可以初步断定用户66和用户0在同一栋办公楼上班,极有可能就是同事,并且之间认识的可能性很大。

5 结论(Conclusion)

本文通过对签到信息的分析,从数据上得到一些常规的统计信息,例如查看用户签到最多的地方,用户签到的时间、地点、频率的统计,这些基本的统计有助于了解数据的总体分布情况。根据对Check-in的时间戳进行分析,发现签到信息体现了人们的工作和休闲活动的规律特点。从多个用户的共同签到地点,可以推断他们之间可能存在着共同的兴趣和爱好。这些分析结果,可以为将来的用户在指定旅行规划路线时,进行个性化推荐奠定基础。例如,在旅游出发前,查询某旅游地点A信息,根据已有的好友中哪些已经在A签到过,从而进行推荐。还可以根据签到的地点,得出可能的工作地点和家庭地点,从而推荐周边餐厅或休闲场所等一系列信息。

参考文献(References)

[1] 石安.切客盛行,谁将畅享LBS大餐?[J].软件工程师,2010,(11):34-35.

[2] 周永杰.LBS签到服务中隐私关注及影响因素研究[D].大连海事大学,2013:2-9.

[3] 徐国虎,孙凌,许芳.网络用户移动签到服务持续使用意愿研究[J].中南财经政法大学学报,2013,(4):131-138.

[4] 阴红志.社会化媒体中若干时空相关的推荐问题研究[D].北京大学,2014:6-12.

[5] 曹劲舟,武红宇.基于微博位置签到数据的POI更新方法[J].地理空间信息,2013,11(2):15-18.

[6] 王明,等.基于位置签到数据的城市分层地标提取[J].计算机学报,2014,37(123):1-11.

[7] 胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报,2014,(3):314-321.

[8] 刘乾.基于社交网络和地理位置信息的好友推荐方法研究[D].浙江大学,2013:16-21.

作者简介:

黄喜发(1994-),男,本科生.研究领域:Web数据挖掘.

刘兴旺(1991-),男,硕士生.研究领域:机器学习.

孙 媛(1984-),女,硕士,实习研究员.研究领域:计算机辅助语料库分析.

徐 科(1981-),男,博士,讲师.研究领域:机器学习,社交网络.

猜你喜欢
数据挖掘社交用户
社交之城
社交牛人症该怎么治
探讨人工智能与数据挖掘发展趋势
社交距离
你回避社交,真不是因为内向
基于并行计算的大数据挖掘在电网中的应用
关注用户
关注用户
关注用户
一种基于Hadoop的大数据挖掘云服务及应用