何湘东 朱亦宁
【 摘 要 】 随着网络的普及,越来越多的人能够在网上自由地发布信息,但这些信息并非总是真实的。网络谣言传播速度快,范围广,如果不加以控制,负面影响巨大。然而,谣言往往难以识别,特别是完全依靠人力,不仅费时且费力。论文旨在总结谣言识别方面已有的文献成果,从特征提取、识别方法构建两个角度,总结分析了当前的主流识别方法,进而对网络谣言进行防范。最后,论文给出了未来的研究方向。
【 关键词 】 网络谣言;特征提取;识别算法
【 中图分类号 】 TP391
【 文献标识码 】 A
Internet Rumors Identification Methods and Its Future
He Xiang-dong 1 Zhu Yi-ning 2
(1.Network and Information Center, Nanjing University JiangsuNanjing 210023;
2.Office of Informatization, Nanjing University JiangsuNanjing 210023)
【 Abstract 】 With the popularity of Internet, an increasing number of people post online information freely. But not all these information is necessarily true. With the rapidity and width of internet rumor circulation, if not being controlled properly, the negative impact is enormous. It is time-consuming and laborious if the rumor identification depends solely on mens efforts. The paper summarizes the results in rumor identification from previous studies. Further, to safeguard against online rumors, both feature extraction and identification method construction are adopted by analyzing the mainstream identification methods. In conclusion, the paper presents possibilities for future studies.
【 Keywords 】 internet rumors;feature extraction;identification algorithm
1 引言
随着微博等社交网络媒体的兴起,网络谣言带来的负面影响越来越受到大家的关注。相较于传统模式,网络谣言在传播范围与影响程度方面有着质的区别。网络谣言既有针对个人的诽谤,也有针对重大事件的捏造,前者对公民的日常生活带来不利影响或者改变,后者则可能动摇社会的稳定和谐。为了应对谣言的威胁,世界各国相继出台各种措施。韩国谣言制造者最高可判刑5年,印度传播谣言最高可判刑3年,美国则有近130项法律法规与规范网络言论有关。法国政府一方面在法律上予以制裁,另一方面也鼓励公众建立辟谣网站,提高人们对谣言的识别能力。我国政府同样在降低谣言对社会影响方面,在不断地做出努力。
然而由于网络谣言的隐蔽性,众多防范与警示措施依旧无法杜绝网络谣言的产生,针对网络谣言的学术研究也没有停止过。为了识别谣言,学者们从多个角度试图找出谣言共性,构建高精度识别模型,努力将谣言的危害程度降至最低。本文将在第二部分总结谣言识别的主要文献,第三部分归纳谣言识别的核心问题,第四部分给出当前的研究空白与不足之处,最后对本文进行总结。
2 谣言识别中的文本属性提取
研究对象的特征提取是谣言识别的关键问题之一,其反映了网络信息的可信程度,是识别谣言的基础。通常关键属性可以归纳为四种,即文本属性、网络用户属性、网络属性、构造属性等。其中前三种属性可以从网络中直接提取,第四种属性需要对原始数据进行计算分析,构造出适合识别算法的属性,这种属性往往包含在前三种之中。
文本属性:文本属性是识别谣言类文章普遍考虑的属性。任何谣言,在文本内容上,都有别于事实。文本属性一般包括谣言发布时间、是否包含URL、文本长度、关键词提取和简单语义分析等。Benevenuto等人[1]发现,URL包含与否是识别谣言的重要特征。除此之外,文本发布时间和地点能有助于快速判断描述内容的真实性,需找信息相关事件的发生源头,有助于算法或其他方法识别结果的准确性。
网络用户属性:网络用户属性包括人口统计数据、网络特征数据和个人情感、信仰等主观因素。人口统计数据包含用户的年龄、性别、住址等;网络特征数据包括用户注册时间、个人网站描述、好友数、粉丝数等;个人情感包括喜怒哀怨、信仰等。Aditi Gupta[2]、Manish Gupta等[3]使用了好友数、粉丝数、是否被网站认证、注册时间作为用户特征。但是,这些属性只能反映用户的静态特征,Victoria[4]则选取了个人信仰、微博观点倾向等作为用户的动态特征。
信息传播特征:信息传播特征是识别谣言的重要特征。对于SNS和微博等不同的网络形式,谣言传播的拓扑结构存在差异,SNS是双向关注类型,而微博允许单向关注。任一奇等[5]认为谣言在微博中具有“由点到面的核裂变传播”特征。一般的信息传播特征包括发布者与转发者之间的关系、被转发微博再加工属性、转发数、转发率等因素。然而,该特征由于仅仅考虑了一些结构上的变化,不包括从评论内容包含的信息有用性或转发者类型上的分析。因此研究中需要对这两方面进行进一步具体的分析,找出其中有效用户与有效评论,再使用信息传播特征,以提高识别算法或其他评估方法有效性的可信度。
3 谣言识别相关方法
近年来,国内外学者从不同角度进一步去研究如何识别谣言,特别是在网络谣言识别与分析方面。国外研究者在这方面起步较早,在该研究领域较为成熟。
谣言的识别离不开语义分析,与传统的自然语言处理(NLP)中情绪分析任务非常相似。Hassan[6]使用监督马尔可夫模型、词性、依赖关系模式来识别Usenet讨论区帖子主题的态度极性。Godbole[7]则基于算法自动生成的正面与负面单词辞典来指定新闻故事的情绪分数。尽管谣言的识别与情绪分析非常接近,但两者之间存在着一些不同。在谣言识别中,信息接收者关注的不仅仅是个人推文的观点,也关注推文中的陈述是否引发争论,因此谣言识别过程是在NLP分析方法的基础上进一步深入探究,识别谣言与非谣言语义上的差异。
谣言识别与分析的相关研究使用了一系列不同的方法来识别网络谣言。Mendoza[8]使用Twitter数据来分析用户在2010年智利地震紧急事件中的行为。该研究分析了转发网络拓补结构并发现谣言的传播模式不同于新闻,谣言受到Twitter社区更多的质疑。Castillo[9]聚焦在如何自动评价一组给定推文的可信程度,他们使用决策树将所收集热门话题的微博分为可信与不可信两类。除了语义分析外,Seo等人[10]提出4种方法选择SNS中相关话题或事件传播过程中的节点,然后在节点处使用logistic分类算法,用以监视谣言是否产生。不同于数据挖掘相关算法的谣言识别,另一类研究试图通过可信度排序找出网络谣言。Takahashi等人[11]通过对特定危机背景下的关键词设定,依据每条twitter可信度的排序,再挑选被转发较多传播范围较广的微博,寻找潜在的谣言候选集,从而为进一步确定谣言做准备Morris等[12]发现,信息接收者仅通过内容很难识别谣言,而信息发布者属性和网络传播属性能显著提高信息接收者的识别率。
尽管国内微博、SNS起步晚于国外,但是国内这方面研究近几年进展较快。Yang等[13]根据新浪微博的特点,在使用传统识别属性的基础上,新加入了事件发生地点、客户端类型属性,同时先通过人工标码识别,获得事件相关的谣言与非谣言数据训练集,而后运用分类算法对测试集进行分析,其识别精度达70%以上。程亮[14]等人使用经过改进的R-BP神经网络,对新浪微博特定事件相关谣言进行检测,算法在运行效率与精度上相对于KNN、传统BP、SVM等都有显著提高。Sun等[15]在以往文献对新浪微博研究的基础上,除了提取标签属性、文本属性、网络用户属性外,新加入了与事件相关的关键词匹配程度、是否包含负面词语、是否包含多媒体等属性,同时使用4种机器学习算法进行分类,新加入的属性显著提高了算法精度。相比于国外研究,国内网络谣言相关研究主要不同点在于微博结构导致的特征选取、中文特点带来的语义分析上的区别等方面。
4 未来研究方向
目前谣言识别与分析领域的研究已经进入高速发展期。本节将根据上述内容,对未来研究方向进行总结。
自然语言处理:谣言识别的一大软肋就是自然语言处理方面没有大的进展。学者们大多通过文本中的静态特征对文本描述内容进行分析,判断其准确性,或者建立关键词词库,将真实信息与研究对象进行比对。然而由于网络信息量十分庞大,同时微博具有字数少、特征分散的特点,使得学者很难发现与真实信息差别很小的谣言或不包含词库关键词的谣言。那么,未来学者可以将研究重点从现有基础上,拓展至微型文本语义分析。
机器学习算法:机器学习算法领域的发展已经非常成熟,而且当下深度学习和人工智能领域又有了新的突破。在处理网络谣言方面,由于网络拓扑结构庞大、信息量大,语言结构复杂等原因,学者们应该从仅使用常用的算法转向使用新的算法,进入大数据处理领域。跟进算法领域的最新研究成果,如果能够实现算法的自我学习与自我辨别,结合网络信息传播特征,自动识别网络拓扑结构中易于发生信息变化的节点,降低人工因素,将会是谣言识别领域的一大飞跃。
从个别事件谣言识别到全网络谣言监控,从个别网站监控到多途径监控:谣言识别领域的文章基本都聚焦于选择是某些重要事件相关的微博或网络传闻。然而,网络上的谣言种类繁多,范围广泛,信息来源路径多样,仅仅研究个体或个别网站不能满足日益蓬勃的网络世界,学者们应该将研究重点从个体谣言识别转为构建个体与整体相结合的识别框架上,以及从个别网站监控扩展至多途径监控。
谣言实时识别:学者文献中的谣言样本都是事后收集而来。然而,只有在谣言产生于传播初期就能够将其识别,才能将谣言的危害降至最低。目前,由于谣言初期具有隐蔽性特征,对谣言的实时监控仍然是具有挑战性的课题。
5 结束语
到目前为止,越来越多的学者已经意识到快速识别网络谣言的理论意义和现实意义。本文从网络谣言领域入手,阐述了网络谣言识别的背景和意义,针对网络谣言识别,回顾总结当前谣言识别领域的主要任务和相关研究成果,同时指出当前研究的不足之处和未来可能的研究方向。然而网络谣言识别是一个非常困难的任务,需要以后学者不断的探索,在自然语言处理和算法创新上做出努力,跳出局限于某个话题或者某件事的谣言识别,以顺应大数据时代的到来。
参考文献
[1] Benevenuto F,Magno G,Rodrigues T,et al.Detecting spammers on twitter[C]//Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010,6: 12.
[2] Gupta A,Kumaraguru P.Credibility ranking of tweets during high impact events[C]// Proceedings of the 1st Workshop on Privacy and Security in Online Social Media. ACM,2012:2-8.
[3] Gupta M, Zhao P, Han J. Evaluating Event Credibility on Twitter[C]// Sustainable Design and Manufacturing. 2012: 153-164.
[4] Rubin V L,Liddy E D. Assessing Credibility of Weblogs[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 2006: 187-190.
[5] 任一奇,王雅蕾,王国华,等. 微博谣言的演化机理研究[J].情报杂志, 2012, 31(5).
[6] Hassan A, Qazvinian V, Radev D. What's with the attitude?: identifying sentences with attitude in online discussions[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1245-1255.
[7] Godbole N, Srinivasaiah M, Skiena S. Large-Scale Sentiment Analysis for News and Blogs[C]// International Conference on Weblogs and Social Media. 2007:219-222.
[8] Mendoza M, Poblete B, Castillo C. Twitter Under Crisis: Can we trust what we RT?[C]// Social Media Analytics, SOMA, KDD workshop. 2010:71-79.
[9] Castillo C, Mendoza M,Poblete B. Information credibility on twitter[C]//Proceedings of the 20th international conference on World wide web. ACM, 2011: 675-684.
[10] Seo E, Mohapatra P,Abdelzaher T. Identifying rumors and their sources in social networks[C]// SPIE Defense, Security,and Sensing. International Society for Optics and Photonics,2012:83891I-83891I-13.
[11] Takahashi T, Igata N. Rumor detection on twitter[C]// Joint, International Conference on Soft Computing and Intelligent Systems. 2012:452-457.
[12] Morris M R,Counts S, Roseway A,et al. Tweeting is believing?:understanding microblog credibility perceptions[C]// Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. ACM,2012:441-450.
[13] Yang F, Liu Y, Yu X, et al. Automatic detection of rumor on Sina Weibo[C]// ACM SIGKDD Workshop on Mining Data Semantics. ACM, 2012:1-7.
[14] 程亮,邱云飞,孙鲁. 微博谣言检测方法研究[J].计算机应用与软件,2013,30(2):226-228.
[15] Sun S, Liu H, He J, et al. Detecting event rumors on sina weibo automatically[C]//Asia-Pacific Web Conference. Springer Berlin Heidelberg, 2013: 120-131.
作者简介:
何湘东(1975-),男,满族,吉林人,毕业于吉林大学,硕士,南京大学网络信息中心信息系统部主任,工程师;主要研究方向和关注领域:高校信息化建设、网络安全。
朱亦宁(1959-),男,汉族,江苏人,毕业于东南大学,学士,南京大学信息化建设与管理办公室主任,副研究员;主要研究方向和关注领域:智慧校园、网络安全与优化。