黄文彬+徐山川+吴家辉+王军
〔摘要〕基站通信网络数据蕴含着丰富的移动用户行为,从移动用户频繁活动、规律行为以及移动速度3方面建构移动用户行为画像,可以为个性化服务提供更完整丰富的信息。在分析和挖掘某电信运营商3万位移动用户记录的基站数据的基础上,本文采用频繁模式挖掘、构建概率矩阵、计算熵等方法,从用户基站日志中所包含的地理位置信息中构建移动用户行为画像。研究结果表明,该画像模型可显示移动用户的频繁活动规律、周期性行为及出行方式,可作为分析移动用户群体行为及用户间交互行为的基础。
〔关键词〕移动数据;移动行为;移动用户;用户画像;周期性行为;频繁序列
〔Abstract〕Cellular mobile data service logs contains massive mobile user behavior,based on which mobile user behavior profile,including frequent activities,periodic behaviors and user speed,can be built to provide rich information for personalized services.Analyzing 30,000 users station data provided by a telecommunication operator,user profile is built from location sequence by means of frequent pattern mining,probability matrix constructing and entropy calculating.The user profile proposed shows that users frequent behavior patterns,periodic behavior patterns and speed distribution could be an important reference for further research on population mobile behavior analysis and user interaction behavior.
〔Key words〕mobile data;user behavior;mobile user;user profile;periodic behavior;frequent sequences
由于智能手机的普及,人们的生活行为与移动智能设备连接的更紧密,截止到2014年5月,苹果系统与安卓系统为主的智能手机操作系统占据了智能手机市场份额的964%。相对于传统的桌面端,人们可以随时随地通过移动终端设备取得服务,各种与移动终端相结合的新兴商业模式与日俱增,依据用户的地理位置为用户提供基于用户地理位置的服务(LBS)便是一个典型应用,与此同时用户所携带的手持设备由于服务的需求被动的生成了一系列包含网络服务基站信息(如基站ID,基站坐标)、时间信息等内容,并且针对这些数据的分析与挖掘为理解用户多方面的行为模式提供了至关重要的途径。
移动数据与传统桌面端用户日志主要差异在于提供了用户的地理位置变化,许多研究将用户的地理位置按时间排序,采用序列挖掘的算法挖掘用户移动序列的频繁模式[2-6],并且Yava?使用所构建的频繁模式对用户将来的地理位置进行了预测,应用在基站资源的预分配[4]。同时,探讨如何从比较长期的地理位置日志中挖掘周期性的行为也是研究热点之一[-10]。从移动用户数据中构建用户特征属性可作为识别用户重要依据-12],其中Zhu等人除了考虑地理位置频繁序列之外,通过在手机设备中安装专门的位置记录软件收集用户地理位置数据并提出频繁停留地点、频繁移动路径、有意义的地理位置与交通工具4种用户特征来描述用户,构建了更有意义的用户属性]。刘瑜等人提出了利用大数据的方法通过对社交网站签到数据以及其他信息进行了人类移动模式的研究的流程[3]。除了地理位置相关的研究之外,Tseng等人把用户的地理位置序列与对应所使用的服务进行了组合,通过挖掘两者共同出现的频繁模式来预测用户将来的行为[4-15]。此外,Zhu等人把所有的手机所反映的行为考虑在内,通过手机的原始传感器数据与自然语言的词相对应,采用自然语言处理中的方法构建语言模型反映用户行为,并应用于设备被盗检测、移动应用安全等方面[6]。张慷等人则提出了一个整合客户资料、语言行为、移动互联网行为等分析用户画像的总体架构,但在用户属性上缺少细化挖掘分析。由于用户数据多涉及隐私问题,现有的研究多采用模拟数据或是通过在手机端安装软件收集少量用户GPS或基站数据改进用户频繁序列挖掘算法,并且主要着重刻画某些方面的移动用户行为,在国内外的研究中,通过海量通信网络服务基站信息数据建构移动用户画像相对都比较少。
本文采用北京某电信企业记录3万移动用户1个月的移动数据,其中包含用户的通话时间和时长、通话基站坐标、网络请求时间、网络请求基站坐标等记录。笔者利用该数据从频繁活动规律、周期性活动规律、移动速度3个方面建构移动用户画像的行为属性,实证研究结果显示这3个方面能够反映真实用户整体的行为习惯,这对移动用户行为相关研究及移动服务提供商的用户研究提供了重要的参考。
数据集名称数据集描述用户通话日志拨打时间、基站坐标用户网络请求日志请求发起的时间、请求服务类型、基站坐标
该数据是典型的基站记录,只在用户手机与基站通讯时产生的日志,其中用户通话日志共有6百万条记录与网络请求日志共有4亿条记录。相比之下通话日志记录更稀疏,本研究重点采用网络通讯数据分析用户移动行为。本研究的网络日志数据预处理的流程见图1。首先将网络数据拆分成基站坐标数据及网络请求数据;由于用户访问页面的时候通常伴随着图片、脚本、及其他等诸多请求,笔者再利用域名、位置等信息对网络请求数据进行压缩,以提炼出用户真实网络行为;同时,利用国内企业提供的地图API获取每一个基站坐标的具体地址、周围的建筑和场所的名称标签、以及商圈资讯等语义化信息。图1数据预处理流程
通过数据构建用户画像的前提是该用户有足够的通话及网络请求日志记录,这批数据里有些用户1个月中仅仅发起了数十条网络请求,因此必须筛选清除网络请求记录稀疏的用户。本研究将1天按小时分割成24个时段,若用户在某时段中产生了数据请求,则标记该用户在该时段为活跃时段,通过筛选活跃时段至少为8的天数大于20天的用户共计16万用户作为主要的研究对象。
移动用户行为画像的构建
移动属性的画像构建流程见图。笔者从数据中所获取的用户行为坐标并根据用户停留时间的长短分为停留点与移动点。通过停留点的坐标集合建构用户的周期性活动规律和频繁活动规律研究用户的生活习惯。其中周期性活动规律是指该用户在1天中各时段停留地理位置的概率分布,结合基站坐标的语义化信息推断出用户的住家、工作场所、偏好地点以及作息规律。频繁活动规律是指该用户的停留地点之间存在明显的顺序关系,结合基站坐标的语义化信息可推断出用户的活动目的与服务需求。通过移动点的坐标集合建构用户在停留点间的移动路径,通过该两点时间区间的交通路径、时间和速度展现该用户的交通方式以及选择偏好。
图地理位置属性构建流程图
停留点与移动点
本研究采用的数据是电信运营商服务器记录的用户基站服务日志,并非通过GPS记录用户精确地理坐标,由于基站通讯的数据限制,无法细粒度的描述用户的精确坐标与对应时间,该数据只有当用户与基站通讯时的信息记录,笔者利用时间区间区分用户停留坐标为停留点或移动点的定义。假设用户u共有n个基站请求记录,利用时间tsj依序标记该用户的坐标为locj,则该用户位置与时间序列可表示成:
则该Trajuk,m是一个用户移动路径,所记录的移动坐标即为移动点,而ΔT是移动路径的时间区间。本文针对该批数据分析处理设置Δt=5分钟和ΔT=30分钟,并按照以上所定义的概念构建用户的停留坐标、停留时间区间、用户的移动路径以及移动时间区间。图3左图为某用户31天的地理位置展示图,右图为记录该用户的暂留点位置展示图
笔者提取数据中某用户31天位置记录并采用上述的定义进行计算,图3左图显示了该用户整月的停留点和移动点,其中同颜色是指该时间段属于连续位置子序列,白色为信息缺失的部份。图3右图显示将移动点从图上移除后的结果,可见地理位置快速切换的移动数据已经被剔除,且综合观察仍可得到长时间驻留地点的信息。
周期性活动规律计算
为了构建用户在1天中各时段停留地理位置的概率分布,首先笔者将该用户位置时间序列Traju转变成以时间区间表示用户活动序列BTraju,通过用户的停留点数据构建用户在不同的时间区段停留的概率值,以进一步清理在某时间区段中的不可能长时间规律存在的停留点,分析用户的周期性活动规律。假设用户记录的数据总时长个数L下有n个停留区间,按照停留点坐标loci、停留区间的起始时间STi、停留区间的结束时间ETi来表示用户活动序列BTraju为:
其后将获取一个n×d的概率矩阵,其中n为该用户的暂存点坐标个数,d为周期T内的时段个数。本文设置T=4小时、d=48,即以1天为周期、30分钟为时间区段构建概率矩阵,并针对每个时间区段建构最有可能长时间规律驻留的停留点,其方法如下:
输入:用户的地理位置概率矩阵。
输出:该用户各个时段最有可能长时间规律的停留点。
(1)构建用户tj∈d个时段处于各个停留点loci∈n的概率和∑p(loci,tj)。
(2)计算各个时段可能长时间停留坐标的阈值。
a.预先设置用户在某时段处于该位置的概率值τ。
b.针对每个停留点计算,若∑p(loci,tj)<τ,则不认为该时段存在长时间规律的暂留点,此时设置Γtj=-1;否则设置该时段的长时间规律停留点的阈值Γtj=1∑p(loci,tj)。
(3)对各个时段采用阈值列表Γtj获取长时间规律的停留点坐标。
最后通过设置概率阈值获取用户各个时段长时间活动规律停留点的序列,笔者将在本文的节说明本方法的实证结果与示例讨论。
频繁活动规律计算
为了分析用户的频繁活动规律,笔者首先将用户停留点序列STraju转变成用户连续的停留点序列:
S是用户所有停留点的个数,由于笔者是以天为单为进行用户序列分析,因此CSTraju等于每天的子序列DCSTrajuj的组合。
那么,我们可以将用户频繁活动规律的挖掘转化为频繁序列挖掘的问题。我们采用GSP(Generalized Sequential Patterns)[8]算法对每一个用户的停留坐标序列集挖掘其中的频繁停留坐标序列,算法如下。
输入:用户每天的子序列DCSTrajuj∈d
输出:频繁停留坐标序列
(1)设置k=1。
(2)获取长度为k的子序列以及子序列的支持度,并删除支持度小于minSup的子序列。
(3)利用长度为k的频繁序列生成长度为k+1的序列。
(4)k=k+1,跳转到2,直到找不到频繁序列或者不再有新的子序列。
其中,支持度是指在序列集DCSTrajuj∈d中包含长度为的子序列的频次,并且最小支持度是minSup实验参数。在获取频繁序列之后,在从中选择最长频繁序列作为序列挖掘的结果,笔者将在本文的节说明该方法的实证结果与示例讨论。
4移动速度计算
笔者引入了熵]的概念建构用户当时的移动熵用以刻画用户在各个时刻的移动速度,利用用户移动点序列MTraju进行用户移动熵的计算,并根据时间点t在时间范围ΔT内用户出现在不同地点的概率刻画用户的移动速度,其方法如下:
所计算的移动熵说明用户在时间ΔT所变化的基站坐标越多,相应的其移动速度就越大。如果移动熵为0则说明用户没有进行基站的切换。用户的停留时间区间移动熵为0,用户的移动时间区间通过取等时间跨度的时间节点可以获取多个时间点的移动坐标,这些坐标可以构建用户的移动速度图。
3移动用户画像示例
本章节笔者从周期性活动规律、频繁活动规律、用户移动速度3个方面通过4个用户的真实数据的实证结果与示例说明用户的移动行为属性。
周期性活动规律示例
利用节提出的算法建构每个用户的坐标概率矩阵,用户1的坐标概率矩阵见图4,横坐标表示1天48个时间段,纵坐标表示该用户的所有基站坐标。为了包含数据隐私,基站坐标末两码已模糊化处理,图中方块的颜色由浅到深表示该时段在对应坐标的概率逐渐增大。由于基站数据仅能记录用户使用基站的记录,而用户在有Wi-Fi无线网的环境使用的网络请求是没有记录的,因此每个用户都会有数据缺失,即用户在各个时段的概率之和小于1。图4显示该用户在时段1~17(0点至8点30分)使用坐标〈116154xx,40052xx〉基站的概率大,在时段19~44(9点钟至22点钟)使用坐标〈116348xx,39921xx〉基站的概率大,由此推断该用户住家是在基站〈116154xx,40052xx〉的覆盖范围内,利用语义化信息查知该基站位于北京市海淀区温泉镇,而用户办公场所是在基站〈116348xx,39921xx〉的覆盖范围内,并位于北京市西城区万通新世界大厦,同时也可以判断该用户的工作时长大约都在时段19~44之间,且可能因公务需求偶尔住宿在其他地方。利用阈值Γtj删除概率获取该用户的时间规律,通过与基站的语义化信息进行整合,可以清晰的展现用户的活动规律表,其结果如表所示。
随后14点50到15点25之间,用户再次使用交通工具低速移动,从中关村商圈回到北京市朝阳区安贞街道附近区域并之后停止活动。图7左图是用户4按照时间的移动点图
综合上述的周期性活动规律、频繁活动规律、用户移动速度的分析方法并添加坐标语义信息后所获得的用户行为生活习惯和活动规律容易暴露个人隐私或识别出用户个人身份,同时也说明对通信数据进行挖掘分析对用户具有信息安全的疑虑。
4结论
本文利用移动网络基站数据从周期性活动规律、频繁活动规律以及移动速度三方面构建了移动用户的用户画像,结合所提供的可视化视图可以清晰地展现出用户地理位置相关的行为,所获取的属性相互印证和补充,展现了1个用户每天的生活规律和移动情况。由于本文所获取的用户数据时间跨度仅1个月,笔者只以1天为周期的活动规律进行挖掘,但这分析结果已经可以推测出用户的工作方式、住家地点、工作地点、生活规律、出行方式与模式。由于该用户数据存在部分空缺,对用户的微观行为刻画比较有限,未来笔者会将这移动属性与网络访问信息相结合获取更准确更细粒度的用户移动行为和偏好。若能将所有用户的移动用户画像并且支持用户属性检索,便可以快速检索出具有相似特定属性的用户群,便可以针对需求提供用户相应的个人化服务。
参考文献
Idc.Worldwide Quarterly Mobile Phone Tracker.2014.
[2]Lee S C,Paik J,Ok J,et al.Efficient mining of user behaviors by temporal mobile access patterns[J].Intl J.Computer Science Security,2007,7(2):285-291.
[3]Chen T S,Chou Y S,Chen T C.Mining user movement behavior patterns in a mobile service environment[J].Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2012,42(1):87-101.
[4]Yava? G,Katsaros D,Ulusoy ?,et al.A data mining approach for location prediction in mobile environments[J].Data & Knowledge Engineering,2005,54(2):121-146.
[5]曾灿灿.基于数据挖掘的移动行为预测[D].武汉:华中科技大学,2011.
[6]王晓明.基于移动数据的轨迹模式挖掘算法的研究与应用[D].沈阳:东北大学,2013.
Baratchi M,Meratnia N,Havinga P J M.Recognition of periodic behavioral patterns from streaming mobility data[M].Mobile and Ubiquitous Systems:Computing,Networking,and Services.Springer International Publishing,2014:102-115.
[8]Li Z,Ding B,Han J,et al.Mining periodic behaviors for moving objects[C]∥Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2010:1099-1108.
[9]Zhang M,Kao B,Cheung D W,et al.Mining periodic patterns with gap requirement from sequences[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2007,1(2):7.
[0]Ji Y,Zhang C,Zuo Z,et al.Mining user daily behavior based on location history[C]∥Communication Technology(ICCT),2012 IEEE 14th International Conference on.IEEE,2012:881-886.
]Zhu Y,Zhang Y,Shang W,et al.Trajectory enabled service support platform for mobile users behavior pattern mining[C].Mobile and Ubiquitous Systems:Networking & Services,MobiQuitous,2009.MobiQuitous 09.6th Annual International.IEEE,2009:1-10.
[2]薛冉.基于地理位置服务的用户移动属性的构建和比较[D].济南:山东大学,2013.
[3]刘瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型研究[J].武汉大学学报:信息科学版,2014,(6):8.
[4]Lu E H C,Tseng V S,Yu P S.Mining cluster-based temporal mobile sequential patterns in location-based service environments[J].IEEE Transactions on knowledge and data engineering,2011,23(6):914-927.
[5]Tseng V S M,Lin K W C.Mining sequential mobile access patterns efficiently in mobile web systems[C]∥Advanced Information Networking and Applications,2005.AINA 2005.19th International Conference on.IEEE,2005,(2):762-767.
[6]Zhu J,Hu H,Hu S,et al.Mobile behaviometrics:Models and applications[C]∥Communications in China(ICCC),2013 IEEE/CIC International Conference on.IEEE,2013:117-123.
张慷.手机用户画像在大数据平台的实现方案[J].信息通信,2014,(2):266-267.
[8]Srikant R,Agrawal R.Mining sequential patterns:Generalizations and performance improvements[M].Springer Berlin Heidelberg,1996.