王全蕊,张浩飞,袁梦宇
(河南科技学院信息工程学院,新乡453003)
随着移动互联网的迅猛发展,导致全球数据量出现爆炸式的增长。人们可以从海量的数据中方便快捷地获取有用信息,同时人们对互联网的依赖程度也在日益加深。2020 年4 月28 日中国互联网络信息中心(CNNIC)发布第45 次《中国互联网络发展状况统计报告》,截至2020 年3 月,我国网民规模达9.04 亿,普及率达64.5%,我国手机网民规模达8.97 亿,互联网普及率超过六成,微信朋友圈、微博、QQ 空间使用率分别为85.1%、42.5%、47.6%[1]。在手机网民们常用的App 中即时通信App 和社交App 仍然占绝对比重,而微博作为社交媒体平台,随着短视频和移动直播的深入布局和服务逐步完善,在推动用户使用率稳步增长的同时使得网络社交平台仍是人们日常赖以交流沟通的主要途径。
在移动社交网络中大学生用户是一个比较特殊的群体,随着他们步入大学校园,开始独立的大学生活,他们的独立意识也在逐渐增强,并且比高中时代有着更多的自由支配时间,因此他们每天都会借助微信、QQ、微博等这些移动社交网络平台丰富自己的课余生活,但是在他们进行在线聊天、刷微博、发动态的时候早已将自己的个人信息甚至是隐私暴露无遗。近几年来,随着网络诈骗、网络暴力、网络谣言等事件逐渐增多,国内许多学者开始关注并研究移动社交网络中用户隐私泄露问题[2-8]。常文英、刘冰采用信息追溯法持续跟踪150 名微博用户的相关活动,并提取用户个人基本特征信息和私密信息进行可信度分析研究得出用户信息泄露的主要方式和途径[9];王水平、朱新峰以借助MapReduce 技术,采用关联规则分析用户单属性隐私、双属性隐私以及多属性隐私之间的关联关系,为社交网络用户制定个性化隐私保护策略提供数据支撑[10];田波等选取6 个典型的移动社交App,通过专家打分形式对移动App 用户隐私泄露风险水平进行评判,并根据构建的用户隐私信息泄露风险评价指标体系分析得出由App 平台原因造成的隐私泄露大于由用户原因造成的隐私泄露[11];郑倩月等人[12]和白伟等人[13]都采用网络问卷调查的方式分析移动社交网络中大学生个人隐私泄露的现状,并给出个人隐私保护的措施和建议;张学波等人运用风险感知理论、信息隐私关注理论构建隐私风险感知分析维度,分析大学生移动社交媒体隐私风险感知的个人因素中受教育程度对隐私风险感知度影响较大[14]。
这些研究成果大都侧重于社交网络用户发布动态或文章内容上的隐私保护和社交网络访问控制方面,而对于移动社交网络中大学生用户个人信息泄露的研究却不多见。目前已有的一些研究基本也都是采用走访调查、网络问卷等形式获取大学生用户的个人数据,并没有体现大数据特性,且后期采用偏定性分析的方法分析用户信息泄露的途径和方式,带有一定的主观性。本文在大数据的背景下,爬取社交网络中用户信息,利用聚类算法识别其中的大学生用户,并同时分析用户信息的真实性,利用信息泄露风险评估模型进行风险分析,得出大学生信息泄露的关键因素,并有针对性的提出预防的措施。
大学生用户作为移动社交网络中一个占较大比重的特殊群体,其特殊性体现在以下几个方面:首先他们在校学习期自由时间非常充裕由此导致他们在各大移动社交网站在线时间较长而且在线时间具有规律性;其次是大学生有着强烈的求知欲和好奇心,因此移动社交网站就是他们获取信息和涉猎知识的一个主要途径,同时也是他们情感寄托和情绪宣泄的主要方式;最后也是最为令人担忧的是这些大学生用户个人信息保护和隐私防范意识非常薄弱,他们在社交网络中的几乎接近真实的注册信息、随意发布包含位置信息和家庭状况信息的动态、不经意流露个人喜好的说说等隐私数据。为了防止大学生用户的个人信息被非法人利用,首先需要识别这些用户身份。
微博是基于用户关系的社交媒体平台,借助该平台完整的描述了用户之间的社交关系、社交活动。由用户之间的关注、被关注关系使得微博中用户构成一个庞大的网络结构,因此可以将该网络结构表示为一个微博信息系统,即WS=
在分析研究微博中大学生用户信息泄露情况,需要先进行大学生用户身份的有效识别。本为采用文献[15]中基于属性依赖关系和对象相关性的自然聚类算法,通过对其改造能使算法适用于识别微博中大学生用户。改造后的自然聚类算法可以依据提取的大学生用户特征,在相似度阈值的控制下,自然地将用户集合中有着相似的自然属性的大学生对象聚为一类。
(1)相关概念
定义1微博用户相似性函数。设WS=
S(ui, uj)表示ui和uj两个微博用户的相似性,显然S(ui,uj)∈(0.5,1]。
其中,C 和D 分别为条件属性集和决策属性集,且C∩D≠Φ,D≠Φ;aa表示用户各个属性的重要度,每个属性的重要度可以表示为a={aa1,aa2,…,aa|A|};
ba表示对象相关因子。
定义2微博用户相似关系模型。设WS=
其中,Sima(ui,uj)表示对象ui和uj关于属性a 的相似度,αa和βa分别表示属性集A 中属性的重要度因子和对象相关因子,thp是设置的相似度阈值。
基于微博用户属性重要性和用户对象之间的相关性定义用于判断算法收敛的目标函数。
定义3目标函数。设WS=
其中,k 表示聚类的数目,nj表示类i 所包含的对象个数,S(uj,ci)表示在类i 中,对象uj与其所在类的中心的相似度。
(2)NCA-ADOC 自然聚类算法
首先确定手工标注n 个大学生用户,根据相似度计算其他微博用户到这些大学生用户的初始相似度,并且如果初始相似度达到一定阈值,则初步认为这些用户是大学生用户,然后在根据自然聚类算法对大学生用户进行聚类,将其分成k 个不同的子集,直至k 个子集不再发生变化为止,算法实现的主要步骤如下所示。
输入:微博系统WS=
输出:大学生用户集合U 的k 个子集,C={C1,C2,…,Ck}。
步骤1 采用手工标注的方式生成微博大学生用户原始集合U;
步骤3 根据公式(2)计算大学生用户集合U 中任意两个用户之间的相似度;
步骤4 从U 中选择两个最不相似的用户,即SA(ui,uj)的值最小,将这两个用户作为初始聚类中心,记为c1=u1和c2=u2,并将这两个点加入初始聚类中心集合C 中,即C∪{c1,c2}。此后继续寻找与C 中相似度小于相似度阈值thp的对象ui,将其加入至C 中,直到条件不成为止,至此得到初始聚类中心C={c1, c2,…, c|c|}以及聚类数目k=|c|;
步骤5 计算集合U 中各个大学生用户到各簇中心的相似度,将大学生用户分配至与之相似度最大的簇中心所在的子集中;
步骤6 根据公式(3)的目标函数计算由步骤5 所生成的所有簇中所有点与其所在簇的中心的相似度之和J1;
步骤7 计算子集中各维度的平均值作为新的簇中心;
步骤8 重复步骤5;
步骤9 计算新生成子集的目标函数J2,若J1=J2,则该算法结束,输出k 个大学生用户子集;否则转至步骤6。
目前关于隐私泄露风险评估的研究大都是根据信息安全风险BS 7799(ISO/IEC17799)评估标准原则,从移动终端、移动网络环境、用户自身以及其他外部威胁等维度上选取相应的指标进行风险评估。本文主要从用户自身主观这个维度出发,研究大学生用户在注册、登录和发布信息时有意或无意地泄露个人隐私信息。
由于大学生用户属性集合上的属性较多,且各个属性对接个人信息泄露的影响程度不同,因此在分析时不能一概而论,而是需要从中选取属性重要度较高的属性进行分析。本文根据属性重要度的定义4,初步计算每个属性的重要度,并从中选取和个人隐私相关度较大的14 个风险指标,如表1 所示。
定义4属性主要度。设WS=
其中,a 是用户属性集合中的一个属性,即a∈A,用户每个属性的重要度可以表示α={αa1,αa2,…,αa|A|},αa∈[0,1],D 为属性集合A 中的决策属性。
由于本文分析信息泄露的主要对象为大学生用户,因此将14 个风险指标即用户属性集合中的教育程度作为决策属性,剩余的12 个属性作为条件属性。
根据由公式(4)初步计算的各个属性的重要度,发现其中5 个属性:性别、地区、是否认证、用户标签、近期发文标签的属性重要度都大于0.5,因此这个5 个属性可以作为接下来进行个人信息泄露分析的5 个维度。因此本文将这个5 个属性作为每个维度的主属性,设置其属性重要度为1,并且根据定义4 再次调整每个维度上各从属性的重要度,如表1 所示。
表1 大学生用户个人信息泄露风险指标及其属性重要度
本文从河南科技学院不同专业不同年级的本科生中选取31 个在新浪微博处于活跃状态且基本信息填写完整的大学生用户为种子用户,根据用户的关注与被关注关系爬取了2020 年2 月2 日到2020 年2 月13日时间段新浪微博上共112852 个用户。爬取到的用户信息包括:用户id、用户名、用户位置、用户性别、微博地址、关注数、粉丝数、微博发文数、第一篇微博发文时间、用户简介、职业信息、教育信息、用户标签。
预处理:将种子用户和爬取的微博用户共112883个用户信息作为原始数据集,对其进行预处理。首先去除“用户id”重复的用户记录;接着去除“教育信息”字段值为空的用户记录;再根据“第一篇微博发文时间”计算用户创建微博账户的年数,去除值大于4 年的用户记录;接着对用户记录中的部分字段的字段值转化为与之对应的数值。
大学生用户聚类:选取了31 个种子用户记录,根据相似度计算原始数据集中其他微博用户记录到这些种子用户记录的初始相似度,并筛选出阈值大于0.6 的共计24376 条记录,该数据集记为Dcu。再以用户的“性别”、“地区”、“关注数”、“粉丝数”、“是否认证”、“微博创建年数”6 个属性作为分类属性,根据自然聚类算法对各个数据集进行聚类并生成不同的聚类集合,基本信息如表2 所示。
表2 不同分类下的聚类结果
借助关联规则挖掘算法可以发现大学生用户的个人信息泄露风险指标中频繁出现的属性集合以及对应的关联规则,这些关联规则能够反映的用户属性集合中各个属性之间隐性关系,尤其是够反映条件属性和决策属性之间的内在联系。
按照8:2 的拆分比例将表2 中的各个数据集数据分为训练集和测试集,并设置最小支持度为40%,借助Apriori 算法求出大学生用户属性集中频繁项集,由此发现其中的关联规则。
首先通过扫描训练集,检测事务数据并生成只含一个属性的频繁项集。以“用户地区”属性为主属性为例,产生的1-项频繁项集如表3 所示。
表3 主属性为“地区”的1-项频繁项集
接着从上述的1-项频繁项集中生成候选2-项频繁项集,然后扫描训练集,找出2-项频繁项集,如此循环,直至无法产生频繁项集为止。最后以“性别”、“地区”、“是否认证”、“近期发文时间段”、“近期发文标签”为主属性产生的最终频繁项集如表4 所示。
表4 各主属性下的最终频繁项集及其支持度
通过对以上各个主属性下的频繁项集分析可知,其中“性别”属性对应频繁项集中不含“教育程度”项,说明在“性别”属性下,频繁项集的各项和“教育程度”一项关联度不大,此处不做分析。除此之外,其他频繁项集中均出现“教育程度”一项,因此最小置信度为50%,可以产生满足最小置信度的所有强关联规则,如表5 所示。
表5 各主属性下的强关联规则的置信度
由以上微博大学生用户聚类结果和基于风险指标产生的关联规则中来看,在各个分类属性下,微博用户个人信息中泄露的信息有所不同,且信息泄露的风险程度也不同。
从用户所处的地区来看,大学生用户泄露的信息主要有:位置、关注数、近期发文标签。大学生用户通常会根据用户所在的地区选择要关注的人,并且由于用户所处位置会呈现一定的地域性,大学生用户在微博上发文时会显示出强烈的地域色彩,例如今年年底爆发的疫情,由此导致用户位置信息通过微博标签或是微博发文中直接被泄露。
从用户是否认证的角度来看,大学生用户泄露的信息主要有:是否认证、关注数。大学生用户更信赖认证的同等教育程度的“同伴”,同时也更愿意关注“同伴”的微博动态,而这种信任是建立在现实世界中相互不认识的基础上,由此导致诈骗事件的产生。
从大学生用户的关注数来看,大学生用户泄露的信息主要有:性别、地区、第一篇微博发文时间、近期发文地区。男性大学生用户比女性大学生用户有着更强的关注度和持久度;因用户所处位置和近期发文位置的不同导致其关注的用户数量也会有所不同,如此次处于疫情地区的用户以及发布疫情情况的用户的关注数将远远高于平时及其他地区;同时创建微博更长时间的大学生用户更容易受到其他大学生的信赖和关注,由此可能引发网络传销事件的发生。
从大学生用户近期发文频次来看,大学生用户泄露的信息主要有:近期发文地区、近期发文标签。大学生受近期疫情的影响,导致大学生用户的近期发文位置高度固定,并且根据这些高度固定的位置信息,可以大致确定出大学生用户的活动轨迹;通过描绘大学生用户活动轨迹,对比微博用户注册地区以及近期发文标签可以确定大学生用户实际所处的地区甚至是位置,从而暴露出大学生用户现实中真实的身份,并由此可能引发网络暴力事件。
本文通过自然聚类算法识别出微博身份是大学生的特殊用户,获取大学生用户的个人信息项作为属性,从中选取与信息泄露相关度较高的风险指标,分析各个指标之间的属性重要度;分别对属性主要度较高的属性进行聚类分析,发现这些大学生用户对象可以从“性别”、“地区”、“关注数”、“粉丝数”、“是否认证”、“微博创建年数”6 个属性维度进行高度的自然聚类;从6个分类属性维度下通过关联规则挖掘发现其中关联规则,由此得出大学生用户个人信息泄露的关键因素和关键传播途径。