杨瑞仙 刘莉莉 楚晨等
关键词: 社交网络; 好友推荐; 基于内容的好友推荐; 基于社交关系的好友推荐; 混合好友推荐
DOI:10.3969 / j.issn.1008-0821.2023.04.004
〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 04-0028-11
社交网络作为Web2.0时代的典型应用, 已经成为人们重要的社交方式。CNNIC第49 次《中国互联网络发展状况统计报告》显示, 截至2021年12月, 我国网民规模达10.32亿。据Statista研究统计, 截至2022年3月8日, Facebook 每月活跃用户超过28.9亿; 另外, 新浪微博发布的2022年Q1财报显示, 微博日活跃用户达到2.52亿。然而, 由于社交网络信息过载问题, 用户仅凭自己发现志趣相投的好友变得十分困难, 因此社交网络中的好友推荐服务便成为不错的解决方案。好友推荐是社交网络推荐中的关键模块, 一方面扩大了用户的交友范围, 满足用户的交友需求, 帮助用户获取更多的信息资源; 另一方面帮助社交网站提高用户忠诚度, 增加用户的使用频率。因此, 社交网络中的好友推荐研究对于推动社交网络的发展、提升用户的体验具有十分重要的研究意义。基于此, 本文首先界定了好友推荐的概念, 其次详细介绍了好友推荐过程, 然后对目前社交网络中的好友推荐方法进行了归纳, 最后总结了现有研究存在的不足之处, 并提出未来该研究的重点。
1好友推荐概念与过程
推荐系统是联系用户和信息的纽带, 一方面帮助用户发现有价值的信息; 另一方面让信息能够展现在对它感兴趣的用户面前, 从而实现信息消费者和信息生产者的双赢。最初, 推荐系统是对“物”的推荐, 例如对书籍、电影、餐馆等的推荐。进入21 世纪后, 随着社交网络的快速发展, 各种交友网站应运而生, 社交网络上用户的交友需求直线攀升, 从而催生了大量好友推荐的研究成果。本文使用TS = (“user recommendation” OR “friend recom?mendation”)及对应的中文检索式, 分别在WoS 核心库和CNKI 中检索了好友推荐研究相关的期刊、会议等学术文献(检索时间: 2022-07-30)。在检索结果的基础上, 清除不相關文献并进行扩展搜索和延伸阅读后共获得258 篇切题文献。对这些文献进行统计分析, 得到有关“好友推荐” 研究的年代分布图。如图1所示, 21世纪初, 好友推荐研究开始受到学者关注, 之后的10年内增长缓慢,2010年后进入快速增长期, 并持续成为研究热点[11] 。
1.1好友推荐概念界定
好友推荐又称“用户推荐”, 作为推荐系统的应用之一, 主要是联系用户和用户, 根据用户现有的好友、用户的行为记录等给用户推荐新的好友,帮助用户在社交网中找到他们感兴趣的用户, 并添加到自己的联系人列表中, 从而增加整个社交网络的稠密程度和社交网站用户的活跃度[1] 。社交网络中的好友推荐以获取用户个人信息以及好友列表为开端, 经历了概念阶段、娱乐化阶段、社交阶段到现在的混合好友推荐阶段。
1.2好友推荐过程梳理
如图2所示, 通过对现有文献的梳理, 将社交网络中的好友推荐的过程总结为以下4个步骤。具体内容如下所述:
1.2.1提取用户特征信息
提取用户特征信息就是获取用户在社交网络上留下的记录数据, 它主要包括两个部分, 提取用户兴趣特征信息和社会关系特征信息。用户的兴趣特征信息提取方面, 现有研究主要从用户的个人信息[2] 、用户的地理位置、用户发布的文本和图片信息等内容数据中识别用户的兴趣; 用户的社会关系特征信息方面, 主要从用户间的共同好友和互动行为中获取, 如共同好友的数量[3] 和比例, 用户之间发消息、评论、转发和收藏等的互动次数[4] ,共同好友数量越多, 互动频率越高, 成为好友的概率就越大。
1.2.2计算用户相似度相似性度
量用于度量两个实体之间的相似性,是推荐系统的主要组成部分。在好友推荐中, 度量两个用户之间的相似性称为用户相似度计算[5] 。用户相似度计算是指对获取的用户特征数据进行整理、分解、降维等一系列操作, 以提取描述用户的不同特征信息, 比较不同用户的特征信息集合的相似性。在社交网络中, 用户相似度包括用户兴趣相似性和用户社交关系相似性等, 根据用户的特征信息选择合适的相似度算法。目前, 计算用户相似度的算法主要有余弦相似性[12] 、皮尔森相关系数[45] ,以及Jaccard[8] 、欧几里得距离[42] 、JS散度[2] 、Katz指标[9] 等。此外, 也有学者根据提取的用户特征信息的特点自定义合适的用户相似度算法, 如WuB X 等[6] 根据提取的文本信息提出了基于主题的用户兴趣相似度算法。
1.2.3取Top-K 用户进行推荐
Top-K 思想即在给出的一系列推荐选项中, 选取前K 个最相关的推荐选项。在好友推荐中, 即在给出的一系列好友候选项中, 选择前K 个相似度最高的用户作为好友选项推荐给目标用户。
1.2.4评价推荐结果
常用的好友推荐评价指标有3 个, 即准确率(Precision)、召回率(Recall)以及综合准确率和召回率的F1-measure。准确率(Precision)是所有推荐中正确猜测的比率, 数值越大, 表示推荐列表中的结果对用户越有效。召回率(Recall)是推荐列表与目标用户未来真实事件的比率, 该数值越大, 表示算法效果越好。一般来说, 给出的推荐越多, 正确猜测用户兴趣的可能性就越大, 召回率(Recall)增加, 但准确率(Precision)反而降低。为了平均召回率(Recall)和准确率(Precision), 往往还使用标准F1-measure 去衡量。准确率(Precision)、召回率(Recall) 以及F1 -measure 的计算公式分别见式(1) ~(3)。
除了以上3种常用的好友推荐评价指标外, 也有学者使用其他的指标, 比如利用MRR(Mean Re?ciprocal Rank)、MAP(Mean Average Precision)评价推荐结果[10] , MRR 侧重于排名第一的好友排名,MAP考虑了推荐列表中所有好友的排名, 这两个指标弥补了Precision 只关注朋友推荐结果的精确度而对推荐列表中的前K 个好友排名不敏感的缺陷。
2好友推荐方法
社交网络中, 用户的好友分为现实好友和网络好友两种。现实好友来源于现实生活中的社交关系, 如亲人、朋友、同事等, 而网络好友往往是在虚拟网络上与用户有相同爱好品味的人。由于用户的兴趣可以从用户在社交网络中产生的各种内容信息中获取, 即有了基于内容的好友推荐方法; 而社交关系不仅存在于实际生活中, 还存在于网络中,因此可以从社交网络上用户的好友列表以及用户之间的交互行为中, 获取用户在网络上的社交关系,即有了基于社交关系的好友推荐方法。随着好友推荐研究的发展, 单一好友推荐方法开始出现数据稀疏和冷启动等问题, 因而, 融合内容和社交关系的混合好友推荐方法被提出, 即有了混合好友推荐方法。鉴于此, 从社交网络中的好友推荐的研究维度出发, 将好友推荐方法分为3种, 分别为基于内容的好友推荐方法、基于社交关系的好友推荐方法和混合好友推荐方法。
2.1基于内容的好友推荐方法
好友推荐成功与否, 很大程度上取决于对用户当前兴趣的感知能力。基于内容的好友推荐的主旨是根据用户的兴趣相似度进行好友推荐。基于内容的好友推荐方法的性能依赖于有效的数据特征提取,提取用户的内容特征信息即是挖掘用户兴趣的过程,尤其是内容型社交网站的出现, 为探索用户的兴趣依据带来了极大的便利。在该方法中, 可以从用户在社交网络产生的内容中获取特征信息, 因此将内容特征信息总结为3 类, 包括用户的个人信息、用户的地理位置、用户发布的文本和图片信息。为了详尽地获取用户内容特征信息, 本文对这3类特征信息进行了细粒度的划分, 统计情况如表1 所示,详细情况如下:
1) 用户个人信息。用户的个人信息是指用户在社交网络上的认证信息, 包括用户的头像、个性签名、年齡、籍贯、性别、职业、受教育程度等相关内容。张继东等[12] 通过对用户个人信息的采集、分析, 将相似度较高的用户划分到同一社区内, 融合社区划分和用户相似度实现好友推荐。此外, 马汉达等[2] 、龙增艳等[9] 提取用户的认证信息、性别、婚姻状况、地区、生日、年龄、职业、受教育程度等用户的个人信息, 以此构建用户的特征向量, 分别采用欧几里得距离和余弦相似度算法来计算用户相似度。然而, 对于一般类型的社交网站来说, 用户为了保护自身隐私, 并不愿意如实填写个人信息, 因而适用范围较小, 为了避免这种情况,研究往往会结合其他特征信息一起作为衡量指标来实现好友推荐[2] 。
2) 用户的地理位置信息。现在流行的社交网络如Facebook、Twitter, 还有国内的微博等都允许用户共享自己的地理位置和行动轨迹。在现实生活中, 人们去不同的地方可以反映用户的行为和兴趣, 例如, 用户A 和用户B 喜欢去同一家餐厅吃晚饭, 这反映了两个用户在行为和爱好方面具有相似性, 基于位置寻找具有相似行为或爱好的用户进行好友推荐是可靠的。因此, 众多学者通过分析这些位置信息来研究好友推荐问题。比如Zhu J Q等[13] 指出, 如果用户有相似的兴趣并位于同一地点, 他们就更有可能彼此建立互动, 提出了基于邻居的朋友推荐(NBFR)。孙晓晨等[14] 利用用户的签到特性及签到历史记录, 计算用户在各个位置兴趣点的位置权重。此外, 还有学者通过传感器获取位置信息[15] 。但是位置信息往往只是用户所在的位置, 并不能表示用户的兴趣, 需要结合实际情况去分析。
3) 用户发布的文本和图片信息。用户发布的文本信息包括用户曾经评论、转发或者收藏过的文本信息, 通过文本信息识别用户的兴趣需要进行语义特征挖掘, 目前常用的方法是TF-IDF 值计算和主题模型。很多学者利用TF-IDF 将用户的兴趣爱好表示为关键词和关键词权重构成的向量, 并通过余弦定理来计算用户兴趣相似度[4,16] 。而近年来,各种主题模型, 尤其是LDA 主题模型被广泛应用于好友推荐, 如Gong J B 等[17] 将LDA 方法应用到朋友推荐模型中, 生成用户感兴趣的语义主题, 然后计算目标用户和候选朋友之间的主题相似度。此外, 许多研究还采用了改进的LDA 模型[18] 来进行好友推荐, 其中Xin M J 等[19] 为了克服LDA 对文本的长度有要求, 且需要足够多的单词来分析彼此之间联系的局限性, 针对用户评论过短且稀疏的问题,提出了RD-LDA 模型, 该模型提高了用户主题抽取的可靠性。还有学者融入了情感分析[55,26,56] , 以研究用户对文本中表达实体的态度, 提高了识别用户偏好的准确性。
除了文本信息之外, 用户发布的信息中往往包含大量的图片信息, 部分学者认为在用户自身发表的微博信息中, 图像比书面文字更能表现用户的兴趣特点。马汉达等[2] 考虑用户个人信息的同时, 还将用户发表的图像信息作为主要处理对象, 通过对图像识别分类获取用户的兴趣, 达到了较好的好友推荐效果。还有研究表明, 结合用户间的共同兴趣与用户间共同关注物品的心理认知, 会提高好友推荐质量[49] 。
2.2基于社交关系的好友推荐方法
与基于内容的好友推荐方法不同, 基于社交关系的好友推荐主要是通过用户之间的关系强弱来进行好友推荐, 关系越强越容易成为好友。基于社交关系的好友推荐方法主要从两个特征维度进行好友推荐, 分别是用户之间的共同好友和互动行为, 以下将对两个特征信息进行详细介绍, 统计情况如表1 所示。
1) 基于共同好友的社交关系好友推荐。共同的朋友是两个陌生人之间的纽带, 有助于增进两人之间的友谊, 这是因为通过共同的朋友实现信息交互, 可以提高交流的机会, 进而成为新朋友。FOF(朋友的朋友)算法是一种高效的推荐算法, 因为其时间复杂度低而被广泛使用, 其原理是社交网络中两个用户的共同好友越多, 则他们成为朋友的概率越大。例如Facebook 上“你可能认识的人” 的列表就是利用FOF算法通过计算用户之间的共同好友个数来实现的, 计算公式见式(4)。如果达到预先设定的阈值, 就会推荐给目标用户[3] 。然而, 共同好友个数受用户好友总数影响较大, 因此, 通常根据共同好友比例来表示用户间关系的强弱, 计算公式见式(5)。还有学者考虑到社交网络的拓扑结构, 即社交图中的好友是有向的, 将共同好友比例的计算方法分为3 种, 分别是计算出度、计算入度、混合计算。入度(in)表示被关注的用户, 出度(out)表示关注的用户。以出度计算为例[4] , 用户u和用户v 的共同好友比例的计算公式见式(6)。
式(6) 中out(u)表示用户u 关注的用户集合, out(v)表示用户v 关注的用户集合; out(u)∩out(v)表示两个用户集合的交集, out(u)‖out(v)分别表示两个用户集合中好友的数量。基于入度和混合计算方法采用类似的计算过程。
单纯以共同好友的数量来衡量用户间关系的强弱是不够全面的, 还需要考虑其他因素的影响。Xin M J 等[19] 提出共同好友也有拓扑结构, 他们加入共同好友之间的连通分量来提取社交关系特征。还有研究基于关联规则算法来计算用户之间共同好友的数量[3] , 向程冠等[20] 同时考虑关注的“人”和“事” (“人” 主要指被关注的微博用户, “事”主要指被关注的信息), 利用改进后的AprioriTid算法实现好友推荐。现有共同好友的研究大多是将好友搜索控制在一度或者二度内, 杜淑颖等[21] 和夏立新等[16] 分别基于六度分割理论和三度影响力理论, 将好友搜索深度扩展到四度和三度, 在扩大了好友集合的同时, 还在一定程度上有效地解决了数据稀疏问题。
基于共同好友的社交关系好友推荐方法的优点是时间复杂度低、简单高效、易实现, 效果明显。但也存在很明显的缺点, 首先是该算法给用户推荐好友时, 用户必须被足够多的人所关注, 而社交网络中大多数用户自己关注的人数大于自己被关注的人数, 如果用户好友人数不够多, 则无论是为其推荐其他好友或者将其推荐给其他人都会变得很难。其次是该算法只是关注“人” 的因素而忽略了其他因素, 可能会影响所推荐好友的准确性。
2) 基于互动行为的社交关系好友推荐。在现实生活的社交关系中, 朋友之间总是存在互动的,把这一人际关系中的特征应用于互联网中也是适用的, 通过用户之间的互动来衡量用户间关系的强弱, 互动越多, 关系越强, 越容易成为朋友。社交网络中用户之间的互动包括用户间发送消息、评论、点赞、转发和收藏等, 不同社交平台上用户间的互动行为会有些许的区别。大多数学者根据用户之间的互动比例来反映好友关系的强弱, 如吴昊等[4] 根据用户之间互动次数占各自互动总次数的比值来表示互动比例, 但他们对用户之间不同的交互行为取了相同权重, 更进一步地, 徐建民等[22]给不同的交互行为赋予了不同权重。此外, 部分学者分析网络拓扑结构信息, 通过链路预测算法实现好友推荐[9,46] , Lo S C等[23] 提出了一个基于图的好友推荐算法, 通过用户之间发送的消息, 将所有成员联系起来形成消息网络, 算法选择最小消息数衡量成员之间的联系强度。还有学者提出了基于用户间的信任来进行好友推荐[43,47] , 用户之间的评论、转发等交互行为都代表了用户之间的某种信任关系, 当用户愿意接受另外一个用户的好友请求,以及评论或者转发该用户发布的内容时, 就表示用户信任该内容发布者, 交互越强表明用户对该内容发布者具有较强的信任关系[24] 。但用户之间的互动应该是双向的, 如果一方给出很多互动, 另一方却很少回应, 可能是一种骚扰, 而不是正向的互动, 但目前的研究往往忽略了这一点。其次, 用户之间的互动依赖于用户的活跃程度, 在社交网络中存在大量活跃度不高的用户, 他们与其他用户之间没有交互, 这也是该方法面临的挑战之一。最后,如何利用用户之间的行为差异进行个性化的好友推荐也是未来工作的关键问题。
2.3混合好友推薦方法
近年来, 为了弥补单一好友推荐方法存在的局限性, 许多学者尝试结合基于内容的好友推荐与基于社交关系的好友推荐这两种方法, 提出了混合好友推荐方法。比较常用的是分别使用基于内容和基于社交关系的好友推荐方法产生两个推荐模块, 然后使用某种组合方式得到最终推荐结果。混合好友推荐的推荐过程为, 首先计算用户的兴趣相似度和社交关系相似度, 其次将两个数值按照指定的方式进行组合得到一个综合值, 最后根据综合值进行TOP-K 好友推荐。根据组合方式的不同将混合好友推荐分为3种, 分别为并行式混合好友推荐、切换式混合好友推荐和迭代式混合好友推荐。
2.3.1并行式混合好友推荐并行式混合好友推荐
是指同时运行多个不同的好友推荐方法, 得到不同的结果, 最终将这些推荐结果进行整合得到最终的好友推荐结果的过程, 如图3 所示。吴昊等[4] 使用基于社交关系的好友推荐方法, 根据用户的关注和行为信息数据计算共同好友比例和互动比例, 从而得到用户的社交关系相似度; 使用基于内容的好友推荐方法, 提取用户的文本信息特征, 根据余弦相似度得到用户的兴趣相似度, 最终将社交兴趣度和兴趣相似度分别按最大值归一化, 得到最终的评分公式, 实现好友推荐。类似地, 夏立新等[16] 计算用户关系强度和兴趣相似度之后, 根据两个数值进行线性加权, 得到的综合数值进行TOP-K 好友推荐。并行式混合好友推荐的优点是使各个好友推荐方法的优点以直接的方式得到了利用。
2.3.2切换式混合好友推荐
切换式混合好友推荐首先使用第一种推荐方法, 达到切换标准后, 不再使用第一种推荐方法,而是切换为第二种推荐方法的过程, 如图4所示。通过切换好友推荐方法能够避免特定方法存在的问题, 例如, 针对社交关系的好友推荐方法存在的冷启动问题, 龙增艳等[9] 将用户现有好友列表数量设置为切换标准, 当用户好友数量为0 时, 提取用户的个人信息, 采用基于内容的好友推荐方法处理数据, 当用户好友数量大于0 时, 切换基于社交关系的好友推荐方法来处理数据。这种混合方法的好处是, 能够根据用户的特征进行灵活转换, 得到的推荐结果更加合理, 它主要的缺点是, 切换式混合好友推荐方法需要根据实际情况确定切换标准, 增加了推荐的复杂性。
2.3.3迭代式混合好友推荐
迭代式混合好友推荐是先使用第一种好友推荐方法输出粗略的推荐列表, 该列表又被下一种好友推荐方法细化的过程, 如图5 所示。Zhang Z 等[10]将候选人限制为朋友的朋友, 从而降低时间复杂度, 提高推荐结果的准确性, 具体是先基于共同好友的社交关系好友推荐方法对数据集进行处理, 得到一个粗略的推荐结果, 然后在该推荐结果的基础上进行基于用户属性的计算, 得到最终结果。由于迭代过程是将推荐结果由粗到细的特性, 使得该混合方法非常有效, 并能容忍噪声。
3社交网络中好友推荐研究存在的不足及研究展望
3.1现有好友推荐研究存在的不足
不同类型的社交网站其侧重点也不同, 如有些侧重于用户之间的互动, 有些则侧重于文本或图片信息的发布, 因此, 需要提取不同的特征信息并选择合适的相似度算法[44] , 也可以融合多种特征信息来衡量用户相似度。现有的好友推荐研究以用户在社交网络上实际产生的客观数据和行为作为依据进行好友推荐, 具有可信度高、说服力强的特点, 但也存在一定的缺陷, 本文将不足总结为以下几点:
1) 冷启动问题。冷启动问题, 即好友推荐过程中缺乏关于新用户的信息。由于刚进入社交网站, 新用户个人信息与行为信息都是不完善的, 系统不能通过模型分析用户的偏好, 好友推荐系统也就无法利用推荐算法向该用户推荐其可能感兴趣的用户[61] 。解决冷启动问题可以提高社交网络的留存率和用户的使用舒适度。目前, 有相关研究对冷启动问题提出了一些解决办法, 部分研究要求新用户在初次登陆系统时对若干选项进行反馈或者回答若干问题[5] , 当用户度过冷启动期时, 再结合用户的偏好和社交关系来逐渐增强推荐, 但该方法需要用户的积极参与, 还依赖于选项和问题设计的合理程度。还有研究通过混合好友推荐方法来实现对新用户的好友推荐[9],这在一定程度上也能缓解冷启动问题, 然而面对内容和社交关系都是空白的新用户, 该方法也不再有效。更进一步地, 有研究提出基于用户的上下文信息[50],即通过利用额外的信息(如天气、时间、季节等)、基于动态Kmeans算法对用户进行聚类[58] 以及基于神经网络算法[51] 来解决该问题, 但以上方法存在相关信息提取难度大、算法复杂度高、通用性弱等问题。
2) 数据稀疏问题。数据稀疏问题即缺少可用信息。首先, 现实社交网络中的大部分用户之间并无共同好友, 只有少数用户之间存在着一定数量的共同好友。其次, 对于活跃度不高的用户, 他们产生的内容信息少, 且这类用户很少与其他用户产生互动, 这些因素均导致好友推荐过程中存在的数据稀疏问题。混合好友推荐方法是目前主要的解决方法之一, 通过不同方法之间的互补来实现。此外,有研究通过扩展好友搜索深度, 扩大用户潜在好友集合, 在一定程度上克服了数据稀疏性[21,16] , 还有研究通过引入本体库来扩展丰富文本主题, 从而解决内容数据稀疏的问题[59] 。Zarrinkalam F 等[60]根据用户对Twitter 上活跃话题的倾向, 模拟了不活跃用户的兴趣。为了更好地了解用户的需求, 提取用户的特征数据, 好友推荐中存在的数据稀疏问题仍然是一大挑战。
3) 动态变化问题。现有的好友推荐研究集中在如何精确地获取用户静态偏好, 但实际上, 用户的兴趣爱好本身就是一个时间序列型数据[25] , 会随着时间的变化而变化。相关研究对该问题提出的解决方案大多是在计算兴趣相似度时添加了相应的权重[2,26-27] , 即较长时间前的兴趣爱好占较小的权重, 而近期的兴趣爱好所占权重较高, 以此体现出时间因素的影响。但目前该问题的解决方法较为单一, 还需要做更多研究来增加解决方案的多样性和有效性。
4) 信息茧房问题。目前研究为了增强用户的粘性, 在好友推荐过程中会不断重复推荐用户感兴趣的内容来取悦用户, 减少甚至不推荐与用户兴趣和社交关系不相似的用户。这限制了用户好友的多样性, 也降低了用户接受多样化信息的可能性, 从而导致用户在高度同质化的信息中逐渐极端化。当系统只能推荐具有相同兴趣的用户时, 用户被限制为推荐与过去自己兴趣相同的用戶, 例如, 一个游泳爱好者永远不会被推荐给一位没有游过泳的人。这个问题在其他领域也有研究, 通常引入一些随机性来解决, 在信息过滤的背景下, 遗传算法的使用被认为是一种可能的解决方案[28,57] , 基于深度学习的推荐[52,53] 也被作为一种有效的解决方法, 但深度学习目前面临着通用性等挑战。总之, 在好友推荐中, 需要考虑推荐用户的多样性, 给用户提供一系列选项, 而不是一组同类的选项。研究表明,提高推荐的精准度并在推荐过程中兼顾“有趣”和“有益” 度, 将会是“破茧” 的利器[54] 。
5) 用户隐私问题。当前, 好友推荐为了提高推荐质量, 大多都将精力放在了推荐方法的选择上, 忽略了用户隐私问题。一方面, 若用户敏感信息被人恶意利用就可能导致计算机辅助犯罪, 如骚扰、绑架等。出于这种隐私焦虑, 用户在社交平台上会刻意隐藏自己的信息, 使好友推荐精确度降低; 另一方面, 准确的好友推荐需要在社交网络上获取大量的用户社交数据, 而社交数据中就包含关于用户的敏感信息。目前有研究提出了多种基于用户隐私保护的好友推荐, 如将多项式秘密共享用于社交网络从而实现个人简档的保护[31] , 利用同态加密设计基于可验证安全点积协议的安全好友推荐方案[32] , 利用匿名技术和安全的KNN 计算作为运行协议[33] , 以及引入标签伪造技术来隐藏用户在推荐过程中的实际偏好[34] 等。此外, 还有基于密码学的隐私保护方法[35-36] , 以及在严格的隐私概念下基于差分隐私的隐私保护方法[37] 。然而, 目前还需要不断进行改进, 如何在保证高质量好友推荐的同时保护用户隐私问题, 是社交网络的好友推荐中应该重点解决的问题之一。
3.2好友推荐研究展望
通过对现有好友推荐方法的研究, 本文认为除了关注好友推荐方法的选择及其不足的解决方案之外, 社交网络的好友推荐未来还可以从如下几个方面进行研究, 包括增加好友推荐的多维性、提供好友推荐结果的解释、设置用户反馈机制, 以及增强好友推荐系统的可拓展性。
1)推荐的多维性。推荐的多维性指可以从多个不同的维度对用户进行推荐。根據最新社会学的研究发现, 基于社交关系和内容的好友推荐方法可能不是最合适的[29] 。根据这些研究, 用户联系在一起的规则包括习惯或生活方式、态度、兴趣爱好、道德标准、经济水平和社交关系。其中, 兴趣爱好和社交关系是现有好友推荐考虑的主流因素,但也可以合理利用其他规则来提高好友推荐系统的多维性。例如, 生活方式是最直观的, 但由于用户的生活方式难以通过网络行为来捕捉, 所以并未广泛使用。但随着科技的发展, 可以通过传感器去探索用户的生活方式, Wang ZB等[30]就利用传感器丰富的智能手机, 通过衡量用户之间生活方式的相似性进行好友推荐。还可以利用配备有GPS、加速度计、麦克风、摄像头等传感器的穿戴设备, 从传感数据中提取丰富的内容感知信息, 进而发现人们的生活方式, 进行有效推荐。通过不同的维度实现好友推荐不仅能解决现有好友推荐普遍存在的问题, 还能提高推荐质量。
2)提供好友推荐结果的解释。好友推荐除了展示推荐结果外, 还应该展示恰当的理由让用户理解系统会做出这样推荐的原因, 但目前的大多数好友推荐都没有这项功能。研究表明, 提供推荐结果的解释能提高系统的透明度、可检查性、信任、有效性、说服力、效率和满意度[41] , 好的解释可以帮助用户做出更好的决定[58] 。用户无法独自判断与未知的其他用户是否能成为好友, 而简短的解释可以帮助用户决定是否可以根据解释给出的指标与推荐用户建立联系, 这在社交网络的好友推荐中发挥着重要作用。
3)设置好友推荐的用户反馈机制。用户反馈可以协助系统更好地评定好友推荐模型的准确性,如用户可以对推荐结果做出“接受” 或者“拒绝”的反馈。如果用户接受, 证明好友推荐模型相对合理; 如果用户拒绝, 则系统需要对推荐模型进行调整, 提高推荐的精确度[20] 。用户反馈可以带来一些潜在的好处, 如提供了对好友推荐模型的直接洞察, 使好友推荐模型能更准确地反映用户偏好; 能使达到某一准确度所需的训练数据减少; 可以带来更灵活的好友推荐模型, 尤其在用户偏好不稳定的领域作用较大。而现有的好友推荐系统大多缺失用户反馈功能, 这对于好友推荐是不利的。因此, 未来的好友推荐系统可以考虑加入用户反馈, 从而提供高质量的好友推荐。
4)改进好友推荐系统的可拓展性。目前, 好友推荐系统在推荐时不仅要考虑推荐的准确性, 还要保证计算时间尽可能短, 以求准确实时地推荐信息, 即好友推荐系统要具有可拓展性[38] 。如通过扩大吞吐量来改进好友推荐系统的可扩展性, 其中, 吞吐量定义为每秒推荐的数量。好友推荐系统可以通过降维技术来实现可拓展性, 因为降维去除了冗余的特征保留了关键的特征, 可以避免系统过拟合, 从而提高系统的灵活性和吞吐量, 也能提高系统的运行速度。Nilashi M 等[39] 使用了一种降维技术, 奇异值分解(SVD), 在每个项目和用户聚类中找到最相似的项目和用户, 结果表明, 使用聚类和降维技术的方法, 吞吐量明显高于其他方法。
4研究总结
目前, 越来越多的社交网络平台加入了好友推荐的功能, 但当前的好友推荐系统仍需要进一步改进, 使好友推荐可以被更有效、更广泛地应用。在本文中, 首先界定了好友推荐的概念, 梳理了好友推荐的过程; 其次总结了3种社交网络好友推荐方法, 分别是基于内容的好友推荐方法、基于社交关系的好友推荐方法和混合好友推荐方法, 其中, 前两种方法较为单一, 存在局限, 后者能够较好地解决这一问题; 第三, 通过归纳总结, 发现现有好友推荐存在冷启动、数据稀疏、动态变化、信息茧房以及用户隐私问题等研究不足; 最后提出了好友推荐的研究展望, 包括增加好友推荐的多维性, 供好友推荐结果的解释, 设置用户反馈机制, 提高好友推荐系统的可拓展性等。本研究通过对社交网络中好友推荐的概念、过程、方法进行梳理、归纳和总结, 得到了一些有价值的结果和结论, 希望该研究能对社交网络中好友推荐的深入研究和实践推进提供有益的参考。