一种基于数据挖掘的SNS用户兴趣模型

2014-10-15 07:39谢梓琪谢颖华
计算机与现代化 2014年2期
关键词:权值文档页面

谢梓琪,谢颖华

(东华大学信息科学与技术学院,上海 201620)

0 引言

伴随着网络的飞速发展,人与人之间传统的交互方式也随之变化。如雨后春笋般崛起的社交网站已成为人们依赖网络交互的平台,包括风靡全球的Facebook、Twitter以及各种购物网站,它们均彰显着SNS(Social Network Sites,社交网站)的特色[1]。用户在浏览这些网站的同时,为研究者开发网络新产品提供了数据来源。通过分析网络用户的浏览历史和行为特性,不仅可以了解其真正需求,还能够根据不同用户的兴趣开发有针对性、有吸引力的增值业务。由此可见,建立良好的用户兴趣模型对于网站做出正确的运营决策十分必要。

1 用户兴趣模型表示

信息服务发展的趋势是进行个性化主动信息服务。要了解用户行为,有的放矢地提出个性化服务,必须建立能够正确反映用户意图的用户兴趣模型[2]。一般地,用户兴趣模型的表示方法主要有加权关键词模型、语义网络模型和层次概念模型[3]。结合SNS网站固有特点,发现以层次区分的形式能凸显用户在SNS网站上的兴趣分布,而加权关键词模型能表现用户兴趣度差异,因此,选用加权关键词模型和层次概念模型相结合的方法来表示用户兴趣较为合适。

假设用户在某社交网站上有n个兴趣类型,可以用一组兴趣主题词(I1,I2,…,In)表示,由于用户对每一类主题所表现出的兴趣度有所差异,因此可以根据其感兴趣程度的高低赋予一定的权值InterestDegree(Ik),即用户兴趣能够以加权矢量的形式表示如下:{(I1,InterestDegree(I1)),(I2,InterestDegree(I2)),…,(In,InterestDegree(In))}[4]。比如说,人人网中某用户的兴趣为{应用,0.5}、{分享,0.3}、{好友,0.2},则表示其最感兴趣的是应用,然后是分享,最后是好友。其中,兴趣主题为好友的一类中又可以细分为所感兴趣的好友的权重。如需针对感兴趣的好友进行研究,则可以直接从该模型中进行提取,对问题的解决提供了极大的便利。

2 基于数据挖掘的用户兴趣模型

为了得到能够准确反映用户意图的兴趣模型,必须结合社交网站的特点,对用户所浏览的网页集合进行数据挖掘。整个建模过程主要分为3个部分:历史数据获取及预处理、文本聚类分析和兴趣权值计算,如图1所示。

图1 建模流程

2.1 历史数据获取及预处理

如今,因特网上的网页大多都是HTML的形式,它是一种基于标记的语言,网页的正文信息通常是嵌入在标记中的[5]。人们称这类数据为半结构化数据,对它无法像数据库中结构化的数据一样直接进行处理。唯一的方法就是将其转换成结构化的数据,再进行数据挖掘。这就需要以向量空间模型的形式来表示网页,为下一步文本聚类分析打下基础。

向量空间模型包括以下几个基本概念。

定义1 项(term)[6]:所谓项,是指组成文档内容的基本语言单位(字、词、词组、短语等),许多项的集合即构成了文档。换句话说,文档D可以以项集(term list)的形式表示为D(T1,T2,…,Tn),其中Tk是项,且 1≤k≤n。

定义2 项的权重(term weight)[6]:文档 D(T1,T2,…,Tn)中包含有n个项,为了表征项在文档中的重要程度,可以对任意一项Tk赋予一定的权重,即D(T1,W1;T2,W2;…,Tn,Wn),在特征词确定的情况下,亦可简写为D(W1,W2,…,Wn),其中 Wk表征的是项Tk的权重(1≤k≤n)。

定义3 向量空间模型(VSM):对于已知文档D(T1,W1;T2,W2;…,Tn,Wn),因为项 Tk在文档中出现次数可能不止一次,且先后次序不同,分析起来较为复杂。因此,先忽略文档中Tk的先后顺序并且要求各项之间没有重复。此时,T1,T2,…,Tn可以被认为是一个n维的坐标,其坐标值即为其对应的权重W1,W2,…,Wn。至此,D(W1,W2,…,Wn)可看做是向量存在于 n维空间中,称 D(W1,W2,…,Wn)为文档D的向量表示。

由此可见,以向量空间模型的形式来表示HTML文档,必须要提取两个要素,即:项和其权重。利用一定的文本抽取算法能够提取出每一张网页中的项,而其权重则需利用经典的TF-IDF公式进行计算[7],这样才能将半结构化的数据转化为结构化的数据进行挖掘。

2.2 文本聚类分析

将HTML文档集以文本向量空间的形式表示后,就可以利用传统数据挖掘的方法对文本进行进一步处理。一般地,不同网页之间可能存在着一定的相似关系,正所谓“物以类聚”,网页也可以依照其内部隐含的关系进行归类。由此,引出聚类的概念。

所谓聚类分析,就是把一组数据根据其固有的某些属性分割成不同的“簇”(或者说聚集成不同的“类”),使得不同簇间数据相异而同一簇中数据相似。面对未知事物,聚类是一种重要的认知手段,通过把相似的事物进行归类处理,有明显区别的事物分属在不同的类别中,这样处理起来就较为方便。聚类分析是一种同质分组的过程,不用任何先验知识,便可从数据对象中发现有价值的结构[8]。

对于HTML文档进行聚类分析,可将用户的浏览兴趣归纳为几个不同的类别,并提取出兴趣类主题词。由上一节对用户兴趣模型表示的介绍中可以看出,用户兴趣模型主要有两部分组成:用户兴趣主题词、该类兴趣所对应的权值。因此,接下来只需计算兴趣权值(即兴趣度)即可。

2.3 用户兴趣权值计算

由于用户对不同兴趣类的兴趣强度大小表现不同,因此,通常用兴趣权值来区分用户兴趣评级。一般地,用户兴趣信息可以从所浏览的Web页面内容和浏览行为中提取[9],这种隐式获取方式往往比显示获取(即通过主动向用户提问的方式)更具客观性和真实性。由于用户的浏览行为,例如在某页面是否有拖动滑块、是否将其添加至收藏夹、是否点击该页面的链接进入其他页面等行为信息[10]比较难以捕捉,因此,本文主要基于浏览页面内容来研究用户兴趣度。

文本聚类分析过后,用户所浏览的页面便自动归为几个不同的类别,通过对每一兴趣类的页面内容信息进行分析,就可以定量地表示用户对每一类的兴趣浓度。根据数值高低对兴趣类进行排序,那么在今后的个性化主动推荐服务中,系统就知道应该先向用户推荐什么,后推荐什么,以提高服务效率[11]。

传统的用户兴趣度计算方法只是单纯地计算用户在某一兴趣类中的访问频度,即兴趣类页面集的页面总数,访问频度越大,则说明用户兴趣度越高。这种方法是将每张页面都同等看待,并不能突出页面中信息含量的差异[4]。因此,引入“页面兴趣等级”的概念来衡量每张页面所包含的的信息,并将同一兴趣类中的页面等级进行求和,以此来表示用户兴趣权值。

定义4 兴趣等级InterestDegree(Ii):即用户兴趣权值,表示用户对某一兴趣类所感兴趣程度的高低,权值越大,则在个性化推荐服务中应当优先推荐[12]。

定义5 页面总数PageNumber(Ii):即某一兴趣类中所包含的浏览页面总数。本文中,它所表示的是聚簇Ii的页面总数。

定义6 页面兴趣等级PageDegree(dj):它代表了文档页面dj所包含信息量的多少,将问题转换为定量描述页面[13]。一般地,页面兴趣等级由以下公式决定:

其中ViewTimej表示用户对于页面dj的浏览时间,VectorNumberj表示文档页面dj中所包含的特征向量总数,sim(dj,dmean)表示文档dj和聚类页面中心的相似度,为了简化问题,将其取为1。

得到每张页面的兴趣等级后,计算兴趣权值问题就变成了计算每一兴趣类中所包含页面的兴趣等级总和,以页面兴趣等级代替了页面总数,从而真正做到了基于页面内容计算兴趣度,即:

其中,m为该聚簇中的页面总数,即PageNumber(Ii)。式(2)就是兴趣类Ii的兴趣权值计算公式。

3 实验结果与分析

本次实验的数据来源为某用户在人人网上为期3天所浏览的页面集合,约为104个浏览页面,将其标注为001.html~104.html。利用 IE History Monitor工具对用户浏览历史进行捕捉,记录页面浏览时间。为了使每个文档页面都能够以向量空间模型表示,必须遍历每个HTML文档以得到页面的具体信息,利用分词软件和文本抽取算法抽取特征词,并用TF-IDF公式计算出每个特征词的权重。至此,HTML文本页面可完全转化为向量空间模型的形式,如001.html={(游戏,3.5763),(好友,5.3434),(分享,0),…,(相册,2.324),…},如表1所示。

表1 文本页面向量空间模型表示

将HTML文档表示为向量空间模型形式后,两张页面内容是否相近就变成计算两个向量之间的相似度问题,从而为下一步文本聚类做好铺垫。

聚类分析部分利用Cluster 3.0软件对HTML文档集合进行分析处理,便可得到若干页面聚簇(即若干个用户兴趣类)。去除页面总数小于10的聚簇,因为这些聚簇内的页面可能只是用户随意查看的,并不足以反应其兴趣,还可能对研究用户主要的兴趣造成干扰。因此,选择前4个聚簇进行分析,提取兴趣主题词后如表2所示。

表2 提取兴趣主题词后的结果

将每一聚簇的具体页面信息整合至一个Excel文档中,用以记录每一张页面的浏览时间和特征向量数目。由前文所介绍的用户兴趣权值计算公式,利用Java编写程序,自动将Excel中每一兴趣类的数据读入程序中,先计算每一个页面等级,再对簇内全部页面的页面等级进行求和,就可以得到每一类兴趣的兴趣权值。

打开程序,会自动出现一个要求输入样本文件所在位置的界面,待输入位置完毕,点击“Enter”键,便可进入计算界面,如图2所示。

图2 输入样本文件位置界面

从界面左边的下拉式菜单中可以选择兴趣类别,以第一类为例,可将用户第一个类别中的页面浏览时间和特征向量数目导入程序中,点击计算兴趣度,就可以完成计算,如图3所示。

图3 用户兴趣度计算界面(第一类兴趣)

这样,就可以得到第一类兴趣度(即兴趣权值)了,以此类推,以同样的方法计算出其他3类的权值,最后结果如表3所示。

表3 用户兴趣权值结果

表3中,兴趣等级InterestDegree表示了每一个兴趣类的权值,而归一化后的结果表明该类兴趣占所有兴趣的百分比。

图4 用户兴趣模型

至此,用户兴趣模型的整个建模过程已完成,表3中兴趣类的权值直接反应了用户在人人网上的兴趣侧重程度,以加权关键词和层次概念相结合的模型表示如图4所示。其中,中间节点表示的是用户的兴趣类主题和权值,而底层节点表示的是该兴趣类中每一个特征项的权重。

4 相关方法比较

以加权关键词模型和层次概念模型相结合的方法来表示用户兴趣,其优点是其他单一模型无法比拟的。以语义网络模型为例,该网络由若干节点和弧组成,节点表示概念,弧表示与其相连的节点之间的语义关系。这样,复杂的概念及其相互之间的关联关系可以依靠语义网络来体现。在提取用户兴趣时,可以将语义网络化为一组概念集合,通过不断获取用户信息,来丰富该语义网络模型。在此过程中,会有越来越多的加权关键词与概念相关联,它们代表隶属于概念的次级节点。长此以往,用户兴趣的语义网络模型就被建立起来了。

然而,不难发现其中存在着很多的问题。随着用户浏览网页的数量增多,语义网络会变得越来越庞大,以至于无法清晰地辨别用户兴趣主题和隶属于该主题的特征词。再者,用户模型并非一成不变,如需对其进行更新时,整个语义网络都要因此发生较大的变动。相反地,若使用本文中所介绍的两类模型相结合的方法,当用户兴趣改变时,只需在当前兴趣模型中增加节点或删除节点即可[14]。如需研究某个兴趣类的具体信息,可以通过提取以第二层节点作为根节点的数据来分析,不用重新建立深度和广度都较大的模型,为研究提供了方便。可见,易更新、易提取的特点是该模型的优势所在。

5 结束语

信息服务的发展趋势是进行个性化主动服务,而建立能够准确反映用户意图的用户兴趣模型是整个问题的关键。本文采用加权关键词和层次结构相结合的方法表示用户兴趣模型,能够一目了然地看到用户兴趣类型信息和用户兴趣特征词信息。模型具有易更新、易提取的特点,且用户兴趣权值的计算在传统方法上有了改进。将来可利用编程软件将建模的每个部分集合在一起做出一个软件,嵌入到社交网站中去,为用户提供更加友好和实用的服务。

[1]李智琦,陈世颖,杨怡凝.基于数据挖掘的个性化推荐在SNS中的应用[J].电脑知识与技术,2011,7(28):6828-6830.

[2]吴昊.用户网页浏览兴趣模型建模方法的研究[D].北京:北京邮电大学,2010.

[3]王昕光.基于关键词依赖的用户兴趣模型建模方法的研究[D].上海:上海交通大学,2009.

[4]管金才.基于个人网页数据挖掘模型的研究与构建[D].上海:华东师范大学,2007.

[5]张彦,张永奎,安增波,等.基于层次概念的用户兴趣模型研究[J].计算机工程与设计,2008,29(1):181-183.

[6]郑岩.数据仓库与数据挖掘原理及应用[M].北京:清华大学出版社,2011:105-106,177-179.

[7]蒲国林,杨清平,王刚,等.基于语义的个性化用户兴趣模型[J].计算机科学,2008,35(7):181-184.

[8]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中国科学院研究生院,2000.

[9]张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J].现代图书情报技术,2007(6):52-55.

[10]Zhu Zhen,Wang Jing-yan,Chen Mei-lan,et al.User interest modeling based on access behavior and its application in personalized information retrieval[C]//Proceedings of the 3rd International Conference on Information Management,Innovation Management and Industrial Engineering.2010,1:266-270.

[11]徐科,崔志明.基于搜索历史的用户兴趣模型的研究[J].计算机技术与发展,2006,16(5):18-20.

[12]赵银春.用户浏览内容分析与用户兴趣挖掘[D].重庆:重庆大学,2004.

[13]教巍巍.基于Web挖掘的个性化用户兴趣模型的研究[D].长春:东北师范大学,2006.

[14]周晓兰.Web数据挖掘中用户兴趣模型设计[J].湘潭师范学院学报:自然科学版,2009,31(2):55-58.

猜你喜欢
权值文档页面
刷新生活的页面
一种融合时间权值和用户行为序列的电影推荐模型
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
CONTENTS
基于权值动量的RBM加速学习算法研究
基于RI码计算的Word复制文档鉴别
基于多维度特征权值动态更新的用户推荐模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
网站结构在SEO中的研究与应用