左严 白晨
摘 要:当今社会,社交网络越来越普遍,Web用户常常会在多个社交网络进行注册,从而留下大量的个人信息,这就出现了Web应用的个性化领域问题。为了充分利用分布于网络上大量的用户信息集,首先我们考虑的是用户识别的问题,解决了用户识别的问题,我们才能整合并利用这些用户信息。然而用户识别的重点又在于多属性权重的判定,同一属性权重的不同,其相似性的判断结果也会有很大差异。文章通过引入熵值确定用户档案多个公共属性的权重,然后经过相似性度量方法获得最终结果。
关键词:多属性权重判定;用户识别;熵值;相似性度量
中图分类号:TP391 文献标识码:A 文章编号:1006-8937(2015)20-0080-03
1 背景概述
社交网络的迅速普及已经改变了人们的交流方式。目前网络提供可能的方式有很多,例如微博上发布的信息,在天猫,京东上的购买物品,同时这些行为也会在网络上留下大量的用户个人数据信息。一个用户可能会注册多个社交网络或应用的账户进行不同的活动,这些注册信息扩展了该用户的不同的个性化特征。
对于一个单独的商业应用而言,就是尽最大努力收集客户的个人信息来满足客户相应的需求,为了获取用户更多的信息首先面对的问题就是跨应用的用户识别。只有同一用户被识别后才能完成用户信息的整合。本文分析了用户识别的关键问题并给出了基于多属性判定的解决方法。提出了熵值确定公共属性权重,并通过相应的相似性度量寻找相同用户。
2 相关研究
目前用于跨应用用户识别领域的主要思想是比较不同应用的用户档案,每个注册用户有一个用户档案描述自己的个人信息,如果两个用户档案相同或在一定程度上类似,就可看作同一用户。
用户档案是由Vosecky等人提出[1],通过由多个属性字段组成的向量来表示,两个用户的相似性是比较向量里不同字段表示的属性值来计算。但这种方法设计的属性和领域是紧耦合的,从而导致每一次领域的变化或个性化应用的改变都会产生权重的重计算。
Radd等[2]人提出了一种框架,通过判定算法计算两个档案的相似度。如果他们的档案相似度高于预定阀值,则认为是表示同一用户。
这种方法的主要问题是,一般默认所使用的代表用户唯一标识符IFP(Inverse Functional Property)是用户的电子邮件地址,该信息是用户私人的不能被其他人访问获取,因此作者也承认该方法并没有解决用户隐私的问题。
国内关于多属性决策问题也多用于统计学研究上,樊治平等人[3]通过建立主观和客观两个模型,为保证决策权重的最优,线性集成两个模型,并构造相应的模型函数,通过求解该函数最值得出最优权重。但该方法主观模型部分依赖专家权重,在跨应用用户识别上还存在难度。叶娜等人[4]提出的模式无关的用户识别算法则完全舍弃属性权重,实现了无需属性权重依然可以进行用户识别的目的。
3 多属性的相似性度量
用户识别的目的是推断出两个来自不同应用的两个用户档案是否是同一真实世界的实体。我们将用户档案定义为属性值对的向量,如下所示:
其中:
A是用户所有的属性集;
P是属性集对应的属性;
R是属性P的值域。
我们认为用户识别是在一个应用的用户集中找到一个可以匹配另一应用用户Us的用户Ud,在选取比较属性的时候,我们将用户模型分为公共属性部分和个性化属性部分,在比较属性相似度时我们选取公共属性部分进行比较。
但因为不同应用的异构性和语义的差异,例如不同的社交网络有不同的数据表示形式,即使是同一个属性,以生日为例,一些应用程序使用的形式DDMMYY而其他应用使用MMDDYY,所以属性相似度度量之前,用户数据应先进行标准化。此外由于属性值中可能存在近义词或相同意思不同表述的情况,所以在比较之前应该进行统一的语义映射。
两个用户的相似性是由公共属性的相似性决定的,其公式如公式1,式中,分别表示源用户与目标用户的第i个属性,表示该属性的权重。
3.1 属性相似性度量方法
目前用于属性相似性度量的方法多种多样,如Cosin,Euc-
lidean Distance,TF-IDF,simEditDistance,Dice[5]等。对于不同的属性的数据类型必须选择合适的度量方法才能大大增加运算结果的效率和准确率。
如何根据不同的属性数据动态的变换属性相似性度量方法目前依旧没有确定的结果。本文中我们选取Dice系数作为公共属性相似性的度量方法。
3.2 待选用户的筛选
在进行用户识别时,我们要做的是比较源应用的某个用户与目标应用的所有候选用户,但众所周知的是很多大型社交网站注册用户数都是非常庞大的,如Facebook拥有超过7.5亿的活跃用户,逐一比较是不现实的。根据观察,社交网络上用户经常使用相同的昵称或全名以方便互相联系。所以我们在筛选候选用户集时以昵称或全名作为关键字进行。
3.3 多属性用户相似性度量
对于相似性度量我们依据并扩展了Dice系数,Dice系数法的计算方式:两个候选集合X,Y的交集信息的2倍除以X,Y的元素的总和。公式如下:
对于本文中属性值都是字符串的相似性的计算,(2)式可扩展为如下表示:
对于单值属性,我们定义N为一组字符形式的双字母组,他们是字符串S中相邻的双字符。因此公式计算两个单值字符串S1和S2的相似性:共同的双字母组字符个数的2倍除以两个字符串双字母组字符集的总和,而对于多值属性,N是字符串S中的词集,两个多值字符串S1和S2的相似性可以通过两个字符串共同单词数的2倍除以两个字符串单词数的总和。
例如对于单值的字符串Tom和Tomy的相似性,Tom相邻的字母对是{‘To,‘om},而Tomy是{‘To,‘om,‘my}。这两集合共同的字符对是2,所以这两个字符串相似性就是2×2/5=0.8。两个多值属性”red green white”和”blue yellow red”共同词的数目是1,所以相似性是2×1/6=0.33。
4 熵值确定属性权重
多属性权重的确定大致可分为两类:一类是主观赋权法,评价人员根据主观上对各属性的重视程度来决定权系数;另一类是客观赋权法,即根据各属性间的相关关系或各值的变异程度来确定权数。刘业政等人[6]提出的自适应方法结合主客观赋权法,在专家决策的前提下,根据熵权系数计算属性权重,并根据该权重计算新的决策结果与之前结果比较,重复多次后得出最优值。
传统的系统论中的熵越大说明系统越混乱,携带的信息越少,熵越小说明系统越有序,携带的信息越多,当系统可能处于几种不同状态,每种状态出现的概率为Pi(i=1,…,n)时,则系统的熵为:
其中:
Ej表示第j个事件。
本文中我们要根据待选用户各属性的相似度确定该属性的权重,所以熵值越大,信息越混乱,该属性对用户识别的判断就越模糊,其权重应该越小,所以在这里我们对公式(4)做了扩展,将Pi替换成属性相似度指标概率。那么扩展后的公式就变成式(5)。其中表示第i个用户第j个属性的相似度。
(5)
通过扩展后的公式我们计算出待选用户每种属性的熵值,为了确保熵值最小,我们构建扩展熵值Ij:
Ij=1/Ej(6)
通过构建扩展熵值我们确定待选用户的每个公共属性结果,最后我们根据该扩展熵值构建最终权重?棕:
具体过程如下:
构建属性相似度矩阵A,其中A中的元素aij代表候选用户Xi与源用户之间公共属性的相似度。
拆分矩阵A,组成单属性相似度矩阵B,其中B中元素代表候选用户Xi与源用户之间单个公共属性的相似度。
根据矩阵B计算出每种属性熵值Ej,最终得到变种最小熵值Ij。
确定相似性权重?棕j。
带入公式(1),并确定最相似用户。
5 算 例
本节中我们提供了一个来说明如何根据上述方法进行权重判定及用户识别,源用户数据见表1。
根据源用户数据进行标准化后的待选用户数据见表2。
我们先计算待选用户属性相似度矩阵A,以U1为例,通过式(3)我们求得Nickname的相似度:2×3/(4+3)=0.8571,interest属性相似度:2×2/(3+2)=0.8。
完成用户相似度矩阵并拆分后可得四组单属性相似度矩阵:
将单属性相似矩阵中的值带入式(5),求得每一组属性的熵值Ej,其结果为:
E1=0.7722,E2=0.7067,E3=0.5786,E4=0.5749。
再根据式(6)求得:
I1=1.2950,I2=1.4150,I3=1.7283,I4=1.7394。
最后我们根据公式7,求得每一种属性的权重分别是:
得出各属性权重后,依据公式1,得用户相似度矩阵:
通过比较U1的相似度最大,所以我们认定在待选y用户中,与Us成功匹配的是U1,也就是说,U1与Us是同一用户。
6 结 语
本文提出了一种解决用户识别中多属性权重判定的方法,并给出了具体算例。通过相似值计算熵值,通过熵值求得属性权重并得出最终的用户识别结果。
这里需要单纯的使用Dice系数在复杂的多个社交网络中进行用户属性相似度的计算并不是特别准确,所以我们下一步工作的重点就是研究如何动态调整不同类型属性的相似性度量。
参考文献:
[1] Vosecky J,hong D,shen V Y.User Identification Across Multiple Social Networks[A].Proceedings of the 1st International Conference on Networked Digital Technologies:July 28-31,2009. Ostrava,Czech Republic[C].2009.[2]RAAD E,CHBEIR R,DIPANDA A.User Profile Matching in Social Networks[A].Proceedings of the 13th International Conference on Network-Based Information Systems:September 14-16,2010[C].Takayama, Gifu,Japan.IEEE Press,2010.
[3] 樊治平,张全,马建.多属性决策中权重确定的一种集成方法[J].管理科学学报,1998,(3).
[4] 叶娜,赵银亮,边根庆,等.模式无关的社交网络用户识别算法[J].西安交通大学学报,2013,(12).
[5] 张宇,刘宇东,计钊.向量相似度测度方法[J].声学技术,2009,(4):.
[6] 刘业政,徐德鹏,姜元春.多属性群决策中权重自适应调整的方法[J].系统工程与电子技术,2007,(1).