刘 妍
基于Facebook用户基本信息隐私曝露研究
刘 妍
本文选取FACEBOOK社交媒体上的100位用户的基本信息进行分群分析。通过实验将用户的资料集分为五群,并将分群结果进行分类讨论。通过对用户基本信息的分析,寻找用户基本信息曝露中的危险因素。给用户提供实质性的建议,为社交媒体的健康发展提供重要的保障。
社交媒体 用户基本信息曝露 隐私保护
计算机、网络等信息技术的快速发展,社交媒体运营商所拥有的数据以指数规模增长。这些微观的数据日益以公开发布的形式成为一种公共产品,但是由于微观数据发布之后数据发布者既无法控制数据用户对数据的使用方式,是否会恶意使用数据。也不了解用户信息曝露的内容是否会对用户自身产生一定的危险。而作为网络应用提供商则希望利用尽可能多的隐私信息获得更多的利益,其他利益相关方也想从中赚取更多的价值,用户信息曝露的内容被多方所持有。因此用户需要将控制隐私的权利把握在自己手中,更好的保证自己的隐私安全。由此可见对隐私问题的深入研究具有重大的现实意义。
社交媒体的出现为用户隐私问题提供了很好的研究环境,它不仅拥有与现实社会极为接近的用户规模,社会关系,复杂结构,行为规律。还拥有比现实社会无法相比的易获取,易分析,易验证等特征。随着人们对于隐私信息越来越重视,用户在进行信息曝露的过程中,在进行安全社交的过程中用户的隐私安全如何能得到有效地保证是现在研究的热点问题。用户量超过一千万的社交媒体高达上百种。例如:Facebook,Twitter,LinkIn,Wechat,Weibo等。并且随着“互联网+”的推广,小众社交媒体产品的不断涌现,社交媒体的来源不明确,使得用户的隐私曝露安全更加没有保障。因此面向隐私保护的社交媒体用户基本信息曝露研究显得尤为重要。
本文选取国内外具有影响力的社交媒体Facebook作为切入点,根据2016年7月26日,Facebook发布的第二季度财报,Facbook的月活跃用户突破17亿,日活跃用户也突破了11亿。庞大的用户活跃量,大量的社交媒体文本,公开的API获取数据方式。本文选取社交媒体用户注册时的基本信息作业研究的数据集。将用户曝露的基本信息曝光程度进行人为定义。
对Facebook用户基本信息进行浏览时,用户的基本信息如表1所示,危险等级依序 1> +0 > 0,是人为设定。
根据用户曝露的基本信息,选取最基本的10个变量作为特征值。分别是工作经历,学历,生活过的地方,联系方式中的邮箱和联系电话,生日,性别,家庭成员,感情状况,用户头像等十个栏位作为研究变量。其中针对工作经历和学历以0为定义量度的起点。以用户曝露的的信息量为准。试图建立一种模型,反应用户在信息曝露的过程中,归纳发布数据可能遭受的攻击类型,所可能给用户带来危害性影响的因素。通过实证研究,以期为用户提供优化策略,减轻用户遭受攻击的可能性,为社交媒体用户长久健康的发展提供基础。
将收集到的100笔用户的数据,运用k-means分群的算法,将其分为五群。将这100位用户的数据,分为五群,五群的数据量分别为14;3;40;8;35。通过对分群结果进行分析可以得出以下结果,如图1所示。
图1 K-mean分群结果
第一群的特征主要表现在工作,教育背景,居住地,生日,家庭成员等信息曝露较多。第二群的特征主要表现在工作,教育背景,家庭成员等信息曝露较多。第三群的特征主要表现在工作和家庭成员信息基本没有曝露,教育背景曝露较少,电话号码少量曝露。第四群的特征主要表现在工作和教育背景曝露较少,家庭成员信息曝露较多。第五群的特征主要表现在工作,教育背景,家庭成员曝露信息较少。
将这五群进行用户信息曝露危险等级定义。由危险到安全等级。第四群为第五级,第一群为第四级,第二群为第三级,第五群为第二级,第三群为第一级即为较安全的信息曝露方式。
本文根据100位用户的数据进行分群分析,可以看出属于第三群和第五群的用户较多,根据我们定义的危险等级,也分别为第一级和第二级的用户人群较多。但是也是有一部分用户处于更高级别的危险等级,用户在进行信息曝露的时候,应该注意第三、四、五群主要集中曝露的信息,例如工作,教育背景,生日,家庭成员等基本信息的泄露。本文仅仅选取100位用户的基本信息进行实证研究,在数据集的研究上具有一定的局限性。同时利用非监督学习方式对于数据进行标记也会产生一定的人为误差同时用户基本信息数据集的选择可能也具有一些不可抵抗的因素。在接下来的研究中,着手进行用户基本信息曝露模型的构建的同时扩充训练数据集的录入。在今后的研究中,不仅仅局限于用户的基本信息曝露,还包括用户的评论,用户的地理位置信息等方面。以期通过这样的方式能为用户的社交提供更加安全的保证。
天津师范大学管理学院)
刘妍(1992-),女,汉族,天津人,研究生在读,研究方向:图书情报管理。