基于手势行为的社交网络用户兴趣画像构建及应用

2019-07-08 02:27汪强兵章成志
图书与情报 2019年2期
关键词:个性化推荐社交网络

汪强兵 章成志

摘   要:文章主要通过收集用户的手势行为数据及手势对应的内容挖掘用户兴趣,根据数据构建用户兴趣画像。最后,基于用户兴趣画像对用户进行推荐实验。实验结果表明,基于用户手势行为的兴趣画像构建取得较好的效果。文章研究成果在个性化推荐系统和市场营销领域中具有重要价值,一方面可以为用户提供感兴趣的内容;另一方面提高用户体验,增加用户忠诚度。

关键词:手势行为;兴趣建模;个性化推荐;社交网络

中图分类号:G252   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2019033

Construction and Application of User Interest Profile in Social Networks Based on Gesture Behavior

Abstract This paper mainly studies how to use gesture behavior generated by mobile terminal to mine user interest and build user interest profile. On the basis of this, the interest recommendation effect based on user interest profile is studied. By collecting the user′s gesture behavior data and the corresponding content of gesture, the user′s interest is mined and the user′s interest profile is constructed. Finally, recommendation experiments are conducted based on user interest profile. The results show that the interest profile construction based on user gesture behavior has achieved good results. The results of this study have important value in the field of personalized recommendation system and marketing. On the one hand, it can provide users with interesting content; on the other hand, it can improve user experience and increase user loyalty.

Key words gesture behavior; interest profile; personalized recommendation; social network

1   引言

近年来,随着互联网技术的不断进步,诸如新浪微博、 腾讯微博以及FaceBook等在线社交网络飞速发展,越来越多的用户在社交网络上发布自己的个人微博或者转发、评论其他人的微博。截至2016年底,新浪微博月活跃用户数突破3亿[1],如此巨大的用户群,产生了大规模的用户数据。据估计,新浪微博中每天產生的微博数在1亿条以上[2]。这些丰富的用户生成内容为研究社交网络用户提供了丰富的数据。在微博月活跃用户中,移动端用户数占比达90%[1]。这些用户在移动端上浏览在线社交网络中的内容时,会伴随产生特定的用户手势行为,如“单击”行为表明用户点击屏幕中的内容;“滑动”表明用户快速更换屏幕中的内容;“拖动”表明用户缓慢更换屏幕中的内容。这些手势行为可以反映出用户在浏览过程中的兴趣偏好[3]。

目前,基于用户行为的用户兴趣建模大多集中于PC端,利用移动设备中的用户行为进行用户兴趣建模的研究较少。与此同时,在基于用户行为的兴趣挖掘研究中,大多只采用用户保存、点击、翻页等行为。为此,本文基于移动端微博阅读系统,收集移动设备中的手势行为进行用户兴趣画像构建。最终,基于用户兴趣画像对用户进行微博推荐,研究用户兴趣画像在实际应用中的效果。

2   相关研究概述

基于行为的用户兴趣挖掘是用户兴趣画像构建的重要组成部分。基于行为的用户兴趣挖掘主要是从用户历史行为数据中,挖掘用户兴趣。目前,基于行为的用户兴趣挖掘研究主要集中在PC端和移动设备端上,主要利用用户在PC端和移动端的用户行为数据,挖掘用户兴趣。

(1)基于PC端用户行为的用户兴趣挖掘。用户在PC端的用户行为主要表现为鼠标在页面上的操作,包括鼠标的点击、滚轮的滑动、在页面上的收藏、复制、保存等行为。相关学者基于用户在PC端产生的用户行为与内容挖掘兴趣,主要的行为包括拉动滚动条次数、翻页、点击、保存页面、收藏以及加入书签等[4-13],取得了不错的效果。

针对传统基于行为的用户兴趣挖掘方法的不足,相关学者通过引入更新机制和分类聚类算法改进用户兴趣挖掘的效果。宫玲玲和乔鸿[14]提出了新的用户兴趣模型表示和更新机制,使用过ODP建立新闻领域本体,基于该本体表示用户兴趣模型,其次,作者基于用户浏览行为分析用户对页面的兴趣度,优化用户兴趣模型的表示和更新;邵秀丽等[15]提出了一种基于浏览内容、浏览时间和操作时间,并引入SVM和VSM模型综合构建用户兴趣模型;潘延军[16]提出了用户浏览内容分析为主,用户浏览行为为辅的用户兴趣挖掘过程,通过文本页面的聚类分析,采用二层树状用户兴趣模型表示用户的兴趣;郑薇[17]以高校档案馆用户为研究对象,通过分析用户在档案馆网站上的浏览行为和浏览内容挖掘用户兴趣。

目前在PC端,基于用户行为的用户兴趣挖掘已经得到了充分的研究。研究者根据用户在PC端的点击、双击、滑动鼠标滑轮、收藏、复制以及打印等行为,结合行为对应的文本数据,进行用户兴趣建模。

(2)基于移动端用户行为的用户兴趣挖掘。目前,基于PC端用户行为的用户兴趣模型构建方法得到了充分的研究,同时也取得了显著的成果。随着科学技术的发展,智能手机变成了人们日常生活中不可缺少的一部分。有学者将研究目标从PC端的用户行为转移到了移动端的用户行为。用户在电脑上的操作主要依赖于键盘以及鼠标等设备,而在移动设备中用户主要依靠手指在触摸屏上不同的手势行为来进行相关操作。随着移动设备的大量普及,使得有关学者将注意力转移到研究移动设备中的用户手势行为中。

Morita等[18]研究表明在用户浏览一篇文章的过程中,并不是对文章的每一段的内容都感兴趣,而是可能对文章的某一段或者某几段的内容感兴趣;Song综合比较了移动设备、电脑以及平板电脑之间用户搜索行为的差异,实验研究表明三者在用户搜索模式上存在着巨大的差异[19]。因此,不能将电脑用户搜索行为的研究直接应用于移动设备上。Huang等针对移动端用户行为的捕捉困难,提出通过捕捉用户在移动设备中的观察坐标来获取用户感兴趣的页面位置以及感兴趣的程度[20];Han等[3]分析了用户在移动设备上浏览行为的特点,包括drag、tap、swipe以及pinch-in和pinch-out,并揭示这些手势行为可以反映出用户在移动设备上的浏览偏好。基于上述研究,汪强兵和章成志[21]通过搜集用户在浏览论文过程中产生的手势行为,挖掘用户感兴趣的文本片段,挖掘用户兴趣,而且开发了原型系统并初步验证了该方法的有效性。

在信息检索领域中,移动端的用户手势行为研究取得了不错的进展。Guo等比较了移动设备中的触摸操作和电脑设备中使用鼠标和键盘的操作之间的不同,通过挖掘移动设备的用户行为来提高检索结果的效果[22]。与此同时,Guo使用用户在移动设备的zoom和swipe行为评价网页的相关性,进而提高信息检索结果排序的效果[23];Han等[24]利用移动手势行为来发现与用户关联度最高的文本片段,进而来提高跨设备检索的效果。之后,Han等利用移动设备上的手势行为捕捉用户在浏览过程中感兴趣的子文档,结合协同检索,综合提高用户在跨设备检索的效果[25]。

3   研究思路及关键技术

3.1    研究思路

为研究如何利用手势行为挖掘用户興趣,本文首先开发移动端微博阅读系统,用户在系统中可以关注微博大V用户、浏览、转发、评论微博等操作。系统收集用户在浏览过程中产生的手势行为以及手势行为对应的微博内容。在此基础上,挖掘用户兴趣,构建用户兴趣画像。最终,基于用户兴趣画像进行兴趣推荐。通过对评分结果的分析,评估用户兴趣画像构建的效果(见图1)。

3.2    关键技术描述

(1)微博兴趣度的计算。本文基于用户浏览微博过程中产生的手势行为种类与次数,计算用户对微博内容的兴趣度。对pinch in/out、drag、tap、swipe采用层次分析法来确定各自的权重[22]。不同种类的手势行为对于计算微博兴趣度的权重系数(见表1)。

(2)用户兴趣画像生成。本文将用户浏览的微博提取出来,组成用户浏览的微博集合Di,即

Di=(P1,P2,…,Pi,…,Pn)

其中,Pi表示用户浏览的微博。

然而,用户在浏览过程中,同一关键词可能在不同的微博中出现。如果关键词在不同的微博中出现,则计算该关键词在不同微博中的兴趣度之和,以此作为用户在浏览过程中对该关键词的总兴趣度(计算公式见公式1)。

AllK=[∑][i=1][n]W(Pi(K))                (1)

其中,AllK表示关键词K的总兴趣度。Pi(K)表示包含关键词K的微博。n表示包含关键词K的微博总数,W(Pi(K))为用户对该微博的兴趣度。

综上,本文得到了用户感兴趣的关键词以及对应的兴趣度,选择兴趣度最大的10个关键词用来表示用户在浏览过程中最感兴趣的兴趣词。用户的兴趣画像表示为向量空间模型的形式,具体如下:

{(K1,m1),(K2,m2),…,((Ki,mi),…,(Kn,mn)}

其中,Ki 表示用户兴趣画像中的兴趣词,mi表示用户对兴趣词的兴趣度,i=1,2,…,n。

(3)基于兴趣画像的微博推荐。本文通过计算用户兴趣画像与微博相似度之间的相似度进行兴趣推荐。在本文中用户兴趣画像表示为向量空间模型的形式,即将用户兴趣画像表示关键词加权重的向量形式,表示为X=(x1,x2,…,xn)。对于微博文本我们采用向量空间模型得到微博文本向量,表示为Y=(y1,y2,…,yn),依据公式2计算X与Y的相似度[26]。

sim(X,Y)=          (2)

sim(X,Y)表示用户兴趣画像和微博之间的相似度,其值越高,表明微博与用户兴趣画像越相似,用户对微博越感兴趣。

4   实验与结果分析

4.1    实验设计

本文一共招募27人参加基于手势行为的用户兴趣画像构建实验。本次实验在对用户进行系统简单的介绍后,不对用户进行其他干涉。用户根据自身兴趣及特点,决定自己关注的微博用户和浏览的微博。

(1)注册和登录。用户通过系统的网址,进入移动端微博阅读系统的注册界面,在注册完账号和密码后,即可登录系统,进行后续操作。

(2)浏览。在关注完成后,用户即可点击“微博”链接,进入微博浏览页面。实验人员每天登陆该系统浏览相关微博。

(3)微博推荐。基于用户行为数据构建兴趣画像,并对用户进行兴趣推荐。推荐完成后,用户评估兴趣推荐结果。

(4)实验人员基本信息。本实验一共有27位实验用户,汇总得到实验用户的性别、年龄分布情况(见表2、表3)。

在实验用户性别分布中,男性有15位,女性有12位。其中,70后用户有1位,80后用户有3位,90后实验用户一共有23人。

4.2    实验数据概述

(1)微博数据。本系统使用的微博数据包含6万个微博大V用户的2000多万条微博数据。其中微博大V已经按照新浪微博用户分类标准划分为不同的行业,如影视、音乐、文学、互联网等。

(2)手势行为数据。系统收集获得用户手势行为数据,如用户ID为user1的用户在浏览微博时,发生了drag类型的手势行为,手势行为对应的微博内容为“李大眼的讲座,转给大连的朋友们”。

4.3    微博推荐满意度评价标准

如果推荐的微博符合实验人员的真实兴趣,则实验人员在该微博下点击“满意”;如果该推荐的微博不符合实验人员的真实兴趣,则点击“不满意”(微博的评价标准见表5)。

在完成评价后,本文采用微博推荐满意度指标衡量基于用户兴趣画像的微博推荐效果。微博推荐满意度计算见公式(3)。

α=                                               (3)

α表示微博推荐满意度,Msai表示推荐的微博中用户评价满意的数量,Mall表示向用户推荐的微博总数。

4.4    实验结果及分析

4.4.1  部分用户兴趣画像构建结果

用户ID为user1的兴趣画像中包括“志炫、深圳、南京、DVD、G.E.M、演唱、卡萨丁、YY90007、歌迷、土地”这十个兴趣词,按照兴趣度从高到底的方式进行排序。从兴趣画像中“志炫”“G.E.M”以及“演唱”兴趣词可以了解到该用户对林志炫和邓紫棋比较感兴趣。同時,user1的兴趣画像中包含“深圳”“南京”以及“土地”等常用词,这些词无法反映用户的真实兴趣。用户ID为user2的兴趣画像表示为关键词与权重的集合,用户兴趣画像中的“比赛”“恒大”“足球”等关键词表明,该用户对足球、体育比较感兴趣(见表6)。

4.4.2  推荐结果分析

(1)基于用户兴趣画像的微博推荐结果。在用户实验阶段,一共有27位实验用户参与,每一位用户评价的微博一共有200条。每一位用户在浏览推荐的过程中,根据4.3所设置的微博满意度评价标准,评价系统推荐的微博是否满足自身兴趣。在获得所有用户的反馈数据后,利用公式(3)计算每一位用户对推荐微博的满意度(所有用户的微博推荐满意度计算结果见图2)。

在图2中,横坐标表示参与测评的27位实验用户的用户ID,纵坐标表示计算得到的用户对推荐微博的微博推荐满意度。从图中可以看出,微博推荐满意度最高的用户ID为1,其满意度达到0.81,而最低的用户ID为14,其满意度为0.18。27位实验用户的微博推荐满意度的平均值为0.52。

(2)基于用户基本属性的微博推荐结果。在27位实验用户中,男性用户有15位,女性用户12位。针对男性用户,本实验随机选择7位男性用户作为计算集,通过文中介绍的群体画像构建方法,构建男性用户群体画像,并基于男性群体画像推荐微博。剩下的8位男性用户作为测试集,浏览推荐的微博并对每一条微博进行评价。针对女性用户,本实验随机选择6位女性用户作为计算集,构建女性群体画像,基于该群体画像推荐微博,剩余6位女性用户作为测试集,评价微博推荐的效果。下面分析基于用户兴趣画像中用户基本属性的微博推荐效果。

①男性用户实验结果分析。本实验评价系统推荐微博的人数一共有8位男性用户,每一位用户评价的微博个数为200条。在8位男性用户完成推荐微博评价后,基于公式(3)计算每一个用户对推荐微博的微博推荐满意度(8位男性用户对推荐微博的微博推荐满意度见图3)。

在8位男性用户对推荐微博的微博推荐满意度计算结果中,其中横坐标表示8位男性用户的ID,这里匿名处理;纵坐标表示微博推荐满意度,表示男性用户对推荐微博的效果评价。在图中,微博推荐满意度最低的男性用户位user3,满意度只有0.16;微博推荐满意度最高的男性用户为user7,满意度达到了0.61。8位男性用户的微博推荐平均满意度为0.34,低于基于用户兴趣画像的推荐效果。

②女性用户实验结果分析。这次实验中一共有6位女性用户参加,完成推荐微博的评价后,本节根据公式(3)计算每一位用户对推荐结果的微博推荐满意度(6位女性用户的微博推荐满意度计算结果见图4)。

图4展示了6名女性用户对基于用户基本属性微博推荐的反馈结果,女性用户user4的满意度最高,达到了0.63;女性用户user2的满意度最低,为0.19。6名女性用户微博推荐平均满意度为0.36。

经过实验表明,在男性用户中,微博推荐满意度的均值为0.34。对于女性用户,本文采取和男性用户相同的实验方法,实验结果表明,在女性用户中,微博推荐满意度的均值为0.36。在基于用户兴趣画像的微博推荐的实验中,微博推荐满意度的平均值为0.52。实验结果表明基于用户性别属性的推荐效果要明显低于基于用户兴趣画像的推荐效果。在基于用户性别基本属性的微博推荐过程中,本文首先构建相同属性用户的群体画像,即男性群体画像和女性群体画像,在此基础上向用户推荐微博。由于群体画像不能够较好的反映出特定用户的兴趣特征,这导致在微博推荐过程中推荐满意度较低。

对于用户ID为14的用户,其微博推荐满意度为0.18,即系统向其推荐的200条微博中,用户满意的微博只有36条。经分析,造成该用户微博推荐满意度较低的原因有两个方面:一方面由于在用户兴趣画像构建中,移动端微博阅读系统收集到的该用户的手势行为较少,只有324条,导致基于手势行为挖掘得到的用户兴趣准确度较低,进而影响基于用户兴趣画像的微博推荐效果;另一方面,在计算该用户的用户兴趣画像与微博相似度的过程中,由于本文采取基于向量余弦值的方法,导致在计算相似度时无法考虑语义信息,造成相似度计算结果存在误差。如该用户的用户兴趣画像中,存在“足球”兴趣词,如果微博中只存在“football”“西甲”两个关键词,在不考虑语义的情况下,该微博与用户兴趣画像的相似度为0。这也会导致用户对推荐的微博满意度较低。

5   结语

本文以新浪微博为研究对象,利用在线社交网络中的手势行为进行用户兴趣画像构建。通过收集实验用户的手势行为及微博内容,构建兴趣画像。最终,通过用户实验,研究用户兴趣画像在微博推荐中的应用。实验结果表明,基于用户手势行为的兴趣画像构建取得了较好的效果。目前,随着移动智能设备的快速发展,如智能手机、平板电脑越来越成为生活中不可或缺的一部分。在这些智能设备的人机交互中,手势触摸是最重要的手段之一。用户在与移动智能设备的交互过程中,产生的手势行为能够很好的反映用户在浏览过程中的偏好。本文通过一系列的实验表明,通过用户在移动智能设备上的手势行为,能够较好的挖掘用户兴趣。虽然本研究以在线社交网络中的用户为研究对象,但在其他领域中,如新闻阅读、电商领域中的用户。在这些领域中,用户在浏览相关内容的过程中,都会产生大量的手势行为数据。因此,本文的用户建模方法同样可以应用于新闻阅读、电商领域中用户的兴趣建模中。

本文只利用了用户手势行为发生的种类以及次数挖掘用户兴趣。在以后的研究中,可以考虑不同手势行为的组合,如用户对一段文本反复地上滑以及下拉、多次返回已浏览过的文本等特殊的手势行为组合。这些手势行为组合可以反映出用户在浏览过程中的兴趣偏好;本文在研究用户手势行为过程中,没有考虑手势行为详细的数据,如手势行为发生在屏幕中的位置、手势行为持续的时间、上滑下拉的速度、手势行为的方向等。在以后的研究中可以将手势行为的详细数据加入到用户兴趣挖掘中,如用户在某一段文本的上滑的速度相比于其他文本的速度较慢,这可以反映出用户对该文本具有较高的兴趣度。

参考文献:

[1]  2016年底微博月活跃用户数突破3亿移动端占比达90%[EB/OL].[2017-12-11].http://finance.sina.com.cn/roll/2017-02-23/doc-ifyavwcv8619947.shtml.

[2]  曹国伟:新浪微博每日产生1亿条内容[EB/OL].[2017-12-11].http://www.techweb.com.cn/internet/2012-01-06/1139327.shtml.

[3]  Han S,Hsiao I H,Parra D.A Study of Mobile Information Exploration with Multi-touch Interactions[C].Proceedings of the 2014 International Conference on Social Computing,Behavioral-Cultural Modeling,and Prediction.BESC,2014:64-73.

[4]  张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J].现代图书情报技术,2007(6):52-55.

[5]  李翼鸿.基于浏览日志和浏览行为的用户兴趣模型研究[D].上海:上海交通大学,2008.

[6]  黄倩,谢颖华.一种基于网页浏览行为的用户兴趣度计算方法[J].信息技术,2015(5):184-186.

[7]  许波,张结魁,周军.基于行为分析的用户兴趣建模[J].情报杂志,2009,28(6):166-169.

[8]  杨继萍,王跃,高雪松.个性化流媒体服务中基于行为分析的用户兴趣建模[J].计算机应用与软件,2011,28(8):247-250.

[9]  李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度计算[J].计算机工程与设计,2012,33(3):968-972.

[10]  尹春暉,邓伟.基于用户浏览行为分析的用户兴趣获取[J].计算机技术与发展,2008,18(5):37-39.

[11]  王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151.

[12]  段小斌.基于Web的个性化服务中用户兴趣模型研究[D].桂林:桂林理工大学,2007.

[13]  王霞.基于WEB浏览的用户行为分析系统的研究与设计[D].北京:北京邮电大学,2010.

[14]  宫玲玲,乔鸿.个性化新闻推荐系统中用户兴趣建模研究[J].情报科学,2014(5):127-130.

[15]  邵秀丽,乜聚科,侯乐彩,等.基于综合用户信息的用户兴趣建模研究[J].南开大学学报(自然科学版),2009,42(3):8-15.

[16]  潘延军.基于用户浏览内容的Web用户浏览行为个性化研究[D].天津:天津大学,2005.

[17]  鄭薇.基于WEB挖掘的高校档案馆用户浏览行为个性化研究[J].中国教育信息化,2008(19):17-19.

[18]  Morita M,Shinoda Y.Information Filtering Based on User Behavior Analysis and Best Match Text Retrieval[M].Springer London,1994:272-281.

[19]  Song Y,Ma H,Wang H,et al.Exploring and Exploiting User Search Behavior on Mobile and Tablet Devices to Improve Search Relevance[C].Proceedings of the 2013 International Conference on World Wide Web.WWW,2013:1201-1212.

[20]  Jeff Huang,Abdigani Diriye.Web User Interaction Mining from Touch-Enabled Mobile Devices[C].Proceedings of The 2nd European Workshop on Human-Computer Interaction and Information Retrieval.HCIR,2012.

[21]  汪强兵,章成志.融合内容与用户手势行为的用户兴趣画像构建系统设计与实现[J].现代图书情报技术,2017(2):80-86.

[22]  Guo Q,Jin H,Lagun D,et al.Mining Touch Interaction Data on Mobile Devices to Predict Web Search Result Relevance[C].Proceedings of the 2013 International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2013:153-162.

[23]  Guo Q,Jin H,Lagun D,et al.Towards Estimating Web Search Result Relevance from Touch Interactions on Mobile Devices[C].Proceedings of the 2013 CHI '13 Extended Abstracts on Human Factors in Computing Systems.ACM,2013:1821-1826.

[24]  Han S,Yue Z,He D.Understanding and Supporting Cross-Device Web Search for Exploratory Tasks with Mobile Touch Interactions[J].ACM Transactions on Information Systems,2015,33(4):1-34.

[25]  Han S,He D,Yue Z,et al.Supporting Cross-Device Web Search with Social Navigation-Based Mobile Touch Interactions[C].Proceedings of the 2015 Conference on User Modeling,Adaptation and Personalization.UMAP,2015:143-155.

[26]  G Salton,A Wong,C.-S Yang.A vector space model for automatic indexing[J].Communications of the ACM.1975.18(11): 613-620.

猜你喜欢
个性化推荐社交网络
基于远程教育的个性化知识服务研究
基于链式存储结构的协同过滤推荐算法设计与实现
个性化推荐系统关键算法探讨
基于协同过滤算法的个性化图书推荐系统研究
文本数据挖掘在电子商务网站个性化推荐中的应用
大数据时代社交网络个人信息安全问题研究
社交网络中的隐私关注及隐私保护研究综述
社交网络自拍文化的心理解读