个人博客上关于用户隐私和情绪的数据分析

2018-04-02 17:58

福建质量管理 2018年11期

(天津师范大学管理学院天津 300387)

介绍：目前，我们通过在线社交网站，如微博和豆瓣，以及个人网站上分享了许多个人信息和专业信息。这些网络博客平台在连接人们、分享信息、表达用户的想法和观点方面做出了重大贡献。然而，当用户发布和分享关于他们自己或朋友的信息时，他们不得不面对安全和隐私问题。我们相信，这个问题的严重性在我们分享并通过不同的网络博客平台发布更多的信息后变得至关重要。在这个工作中，我们关注于在网络博客中挖掘用户的个人相关信息。另外，我们假设当人们快乐或悲伤时，人们可能会更多地表达他们的个人信息、兴趣。在线攻击者可以利用这个问题进行推理攻击，从而从个体中推断出私人信息。

准备工作：研究表明，预测个人特征和属性可能是一个严重的隐私问题。我们通过微博数据寻找个人信息，此外，还强调了可能从文本中泄露的潜在信息。微博还收集了用户公开的个人信息，并开发了一种自动分析工具，收集用户的更多信息。但是，这些研究都没有涉及到网络博客中用户情绪和个人信息之间的关系。

研究方法：我们使用使用自然语言处理解析器和命名实体识别器来提取用户的个人信息。我们提取专有名词的词性、标签和数字等。此外，我们通过个人博客提取用户的好恶，通过用户的个人爱好揭示他们的特征。我们使用语言学的特性和同义词来区分用户喜欢或者不喜欢的程度，例如不反感、一般、喜欢、偏爱、无感、不喜欢、厌恶等等，以供用户选择。在情感分析方面，我们在每个博客中捕捉积极和消极的情绪。我们选择用一句话来总结情绪分值，并在一个特定的博客上对多个句子进行综合。我们相信，一个更广泛的分数分布可以让我们更好地提高情绪，而不是把整个博客的情绪建立在一个单词或句子的分数上。我们选择用一句话来总结情绪分值，并在一个特定的博客上对多个句子进行综合。更广泛的分数分布可以让我们更好地判断情绪，而不是把整个博客文章的情绪建立在一个单词或句子的分数上。

我们使用ICWSM 2009的Spinn3r数据集进行评估，在这里，Spinn3r数据集是一个抓取数百万篇博客文章、新闻文章、分类信息和论坛帖子的集合。我们使用Google协议缓冲API来解析和清理数据，以获得网络博客文章的纯文本内容。此外，我们使用Spinn3r API将原始流文件解码成单个有效负载对象，每个有效负载对象对应于一个爬行的网页条目。

评价：我们从Spinn3r数据集中使用了2440个独特的网络博客。对于每个博客，我们分析了情绪评分的经验概率分布函数。此外，我们还计算了情绪评分与其他三个特征之间的皮尔逊相关系数。

正面和负面情绪得分的总和用来捕捉故事的净情感，而情感的绝对值，用来捕捉情绪得分的力量。总结我们的研究结果：

1.情绪与词性标签:Spinn3r数据集显示了网络情绪得分和词性标签之间的弱关联(大约0.193)。我们相信在一个博客里有很多不同的积极和消极的情绪，这样就可以抵消掉。我们观察到绝对情绪强度和词性标签之间的相关性。这验证了我们的假设:当人们快乐时，“积极的情绪”或悲伤的“高消极情绪”，人们可能会谈论更多的个人信息。

2.情绪vs.喜欢/不喜欢：在博客中，人们倾向于更多地谈论自己的(积极的)喜欢而不是(消极的)不喜欢的事情，因为比起不喜欢，喜欢与情绪有更高的正相关。

结论和未来的工作：我们的研究结果表明，用户情感与语言特征之间存在着显著的正相关关系。未来的工作是开发一个分类器，准确地预测个人信息的基础上，我们的分析的特点。同时，我们计划探讨这种个人博客信息是否可以与其他开放系统网络和公共信息相结合，以评估用户的安全风险。

【参考文献】

[1]李勇，徐震.青年报，2009，第19期，125-108

[2]徐静.世界报.第51卷，2013，第10期，105-108

[3]许爱强，史贤俊，曲东才，2013全国学术论文集，北京，307-309

[4]Simon S.Woo,Harsha Manjunatha.Empirical Data Analysis on User Privacy and Sentiment in Personal Blogs

[5]魏来，郑跃.隐私2.0:Web2.0时代的用户隐私保护研究[J].图书与情报，2010(5):60-64.