黄斐一+孙立军+孔繁盛+刘建东
【摘 要】介绍了一种基于大数据基础技术和应用技术进行互联网舆情管控的方法。该方法将互联网舆情管控分为大数据收集、舆情发现、信息源定位3个阶段。当有热点事件发生并在互联网上广泛传播的时候,利用互联网舆情管控的基本方法就可以及时掌握该事件在互联网上的传播情况、判断该事件是否被恶意引导或曲解并找出信息传播的关键节点,为互联网舆情管理单位提供管控依据和有力支撑。
【关键词】互联网舆情 大数据 数据挖掘 自然语言处理
中图分类号:TP393.4 文献标识码:A 文章编号:1006-1010(2014)-13-0019-05
1 从“净网”到互联网舆情
从“净网”说起:为依法严厉打击利用互联网制作传播淫秽色情信息的行为,全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部决定:自2014年4月中旬至11月,在全国范围内统一开展打击网上淫秽色情信息的“扫黄打非净网2014”专项行动。从内容和舆情管控的角度来分析,“净网”不是一个孤立的行动,它的根本目标是防止互联网业务和互联网工具成为不良信息和违规内容的传播渠道。
“净网”行动“净”什么?为了便于讨论,我们将互联网上的信息分为2大类:可信任源内容(Trusted Resource Content,TRC)和用户产生内容(User Generated Content,UGC)。一方面,TRC指由可信任的媒体发布的信息,如人民日报社、新华社等,这类媒体需要具备信息采编、发布的资质,且有非常严格的内容审核制度保证内容的可信、新闻的真实。另一方面,UGC指由互联网用户自写的内容,这些内容可以是文字、图片、音频、视频,并通过论坛、BBS、微博、自制小网站或者其他互联网媒介发布。它们具备一个最显著的特征,即用户自媒体特征。由于这些用户一般没有新闻采编和发布内容的资质,且内容可能未经严格的审核,易造成其内容失真、歪曲,甚至可能是淫秽或其他不良信息。“净网”的主要目标的就是保证UGC内容的合法合规。
让人又爱又恨的UGC:互联网媒体正在成长为继报纸、广播、电视之后的“第四媒体”,除了TRC内容以外,其推动力还包括以UGC形式出现的用户互动。这种互动真正体现了互联网的“互联”、“互通”和“互动”。它一方面促进了互联网的迅猛发展,但另一方面,若恶意用户利用UGC扩散和传播违规内容,将会给社会带来极大的负面影响。
UGC和互联网舆情:互联网舆情的组成元素是网民/公众的互联网UGC,它以互联网为载体,以社会事件为核心,是社会事件的言论、观点、态度、情感的集合体,且有较强影响力和倾向性。由于互联网UGC有着发布随意性、隐蔽性、高传播性、偏差性和易受影响性等特点,互联网舆情并不能等同于社会舆情。但是它代表了很大一部分人群对某一问题、事件的倾向性意见,且这些意见和情绪容易受到影响,甚至引导煽动。互联网舆情分析课题越来越受到重视,研究机构、国家级重要媒体也纷纷成立互联网舆情研究办公室,如人民网舆情监测室、清华舆情研究室等。
2 大数据基础技术和应用技术
维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。IDC报告中指出“大数据技术描述了一种新一代技术和架构,以很经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值”。大数据尚处于行业发展的初期,所以对于大数据是一个数据集还是一个技术集尚有不少的争论。我们认为,它既是一个数据集也是一个技术集,它更是一个场景集。需要从海量非结构化数据中去除噪声获取信息的场景都是大数据的场景;并行计算技术、分布式存储技术、数据挖掘技术等都属于处理海量数据的大数据技术。
大数据的基础技术主要指对数据的计算和存储技术,如分布式计算技术(Mapreduce,Hive等),分布式存储技术(HDFS,HBase等),这些技术用于对海量数据进行计算、存储以及综合管理。但是大数据的场景各种各样,除了基础技术以外,还需要其他技术对各种不同场景下的数据进行进一步处理,我们称之为大数据应用技术。在本文讨论的场景中,互联网舆情数据的处理除了需要借用大数据基础技术和平台外,还需要利用适合本场景的大数据应用技术加以处理,如数据挖掘技术、自然语言处理技术、汉语分词技术等。本文不过多的探讨大数据的基础技术,而着重研究大数据的应用技术。
3 基于大数据的互联网舆情管控
互联网舆情管控是一个非常典型的大数据场景。首先,用户在互联网上产生的UGC数据量大;其次,这些数据的种类繁多,且以半结构化数据和非结构化数据为主,包括文字、图片、数字、音频、视频等;第三,这些数据的价值密度低,需要在海量的信息中去除噪声,找出有用的信息。
基于大数据的互联网舆情管控的理想模式包括了数据采集、舆情发现和信息源定位3个步骤,如图1所示。首先,作为大数据场景,需要有海量的数据作为舆情分析对象,且数据的获取需要具备一定的实时性,否则将无法从中分析出热点舆情。其次,对海量数据的分析处理、发现淹没在噪声中的有价值信息是舆情管控的重要步骤。在这个过程中,我们要发现最新的广泛传播、广泛评论的热点,需要了解网民对热点的基本态度、倾向,并初步判断社会事件在网络传播过程中的真实性、准确性以及判断舆论是否被恶意引导和煽动。第三,若发现互联网舆情有被恶意引导的趋势时,需要准确的找出哪些互联网用户在引导话题和舆论,定位信息扩散的源头和传播的关键节点。
图1 互联网舆情管控的3个步骤
3.1 大数据采集
面向互联网采集的海量信息是大数据分析的对象和基础。由于互联网舆情一般是在线的实时数据,所以需要利用网页爬虫技术[1]将被监控网站、微博的内容全面抓取、存储并索引。这是一种相对比较成熟的技术。它通过定义抓取目标,过滤无关链接确定待抓取的Web页面URL队列,并通过一定的抓取策略从队列中选取下一个需抓取的URL,并重复直到某一条件时停止。抓取策略一般包括广度优先、深度优先和最佳优先3种。由于互联网TRC、UGC有数量大、更新频率快和页面动态等特点,所以在进行互联网舆情数据抓取的过程中需要注意设置抓取对象的优先级,并且需要动态的对URL队列进行更新,以备新页面的产生和旧页面的失效。endprint
作为互联网舆情管控的第一步,大数据采集还需要注意以下几个方面。首先,采集的对象需要全面。从传播范围上说,需要关注传播面广的重要新闻网站、音视频网站,网民参与度高的BBS、论坛、博客、其他社交工具等渠道;从地理位置上说,需关注大中城市、重点区域等地域的相关新闻;从行业角度看,需关注行业主管单位、协会等机构的相关新闻。其次,信息采集要及时,尽量做到第一时间和高频度。对于权威媒体发布的新闻及相关评论,用户参与量大且活跃度高的论坛、BBS、微博或其他自媒体渠道需要第一时间抓取,且尽量提高信息抓取的频度,以便及时了解互联网舆论的变化趋势。
3.2 大数据处理和舆情热点发现
当从互联网上获取了大量的舆情信息之后,我们需要迅速的从海量的数据中挖掘出热点信息。在这个阶段,我们需要利用大数据应用技术,包括信息检索技术、数据挖掘技术和自然语言识别技术。信息检索技术[2]和数据挖掘技术[3]都是对海量信息进行信息查询、挖掘和处理的技术。它们的区别在于信息检索技术着眼于已知信息的查询,而数据挖掘技术侧重于未知信息的发现。
信息检索技术是通过索引的方式从信息集合中找出所需信息的过程。它一般根据一系列的模型进行索引和查询,如神经网络模型、模糊集合模型、向量空间模型等。通过该技术可以对互联网舆情数据进行索引和归类。比如将数据归类为“时政”、“经济”、“娱乐”、“科技”等类别,也可以将数据根据发布者、行业、发布时间等不同的索引和属性进行归类。这些数据的整理和归类是对海量数据初步处理的必要步骤。
数据挖掘技术是从海量数据中通过算法发现并找出隐藏于其中且原先不了解的信息。其常用的方法包括分类、回归分析、聚类、关联规则、特征、变化和偏差分析。这些方法是从数据挖掘的不同角度出发的。比如分类方法是通过分类模型将数据映射到某个给定的类别;回归分析主要面向数据组合和序列的趋势特征,数据间的相关关系;聚类的处理目标是将相似度大的数据放入同一类别中;关联规则是分析数据之间的关联关系;特征重点在于表达某一数据集的总体特点;变化和偏差分析是对分类中的反常样本、无法归类样本进行分析的技术。数据挖掘是在信息检索的基础上对信息的进一步处理。比如新华社新发布一条关于房地产改革的新闻,被抓取和归类到“经济”类,数据挖掘技术就可以在经济类数据中找出这条从未出现过的新闻。
另外,需要注意的是,舆情分析的对象是人类的语言。从大量的语言中分析出语义、情绪则是舆情分析与传统的数据挖掘不同的地方。所以除了利用信息检索和数据挖掘技术外,舆情分析还需要借助另外一个非常重要的技术:自然语言处理[4]。自然语言处理是人工智能研究领域的一个分支,它是人机之间自然语言的互通。它的难点在于自然语言在各个场景下存在歧义和多义性,汉语尤为明显。在汉语中,词与词之间没有明确的分隔标记,古时就有“句读之不知,惑之不解”的困惑,现代汉语也是如此。比如“南京市长江大桥”就可以理解为“南京市——长江大桥”和“南京——市长——江大桥”2个不同的意思。所以我们需要利用中文分词技术[5]对文字进行处理,即借用计算机给中文语句进行断句、分词。在中文分词领域我国已经有了多年的研究经验,有着基于词典的分词方法、基于概率统计的分词方法等诸多分词方案。一些分词算法的准确度能够达到99%。比如ICTCLAS开源项目[6],单机分词速率将近1Mbps,分词准确率达到98.45%。
利用信息检索、数据挖掘和自然语言处理技术,海量的、非结构化的舆情数据则能够得到归类、索引,并找出其中重复出现的关键性词语,并最终归纳成事件。那么,我们有理由认为热点事件、热点舆情的属性或模型的着眼点在于关键词。通过一系列标志性的关键词的集合则可以很好地表达、归纳某一事件,并给事件建模。比如,对党的十八大报告进行分析,文中出现“中国特色社会主义”81次、“改革开放”19次、“科学发展观”15次、“全面建成小康社会”13次,这些关键词及其出现次数组成的向量空间,则是可以映射这一报告或某一热点事件的最简单的模型。我们称之为基于关键词的建模方法。
3.3 信息源定位
当从海量的数据中找出热点信息之后,在对有害信息的扩散进行限制的同时,需要对信息扩散的源头进行定位。不同种类的社交工具和场景下,其信息扩散的模型是不同的。如即时通信工具的信息传播是嵌套式传播,而微博类社交工具的传播模型是嵌套式和叠加式的结合。以微博为例讨论信息源的定位问题。首先,微博博主的属性包括以下几个方面:基本资料、关系网、行为数据、发布内容和评论。其中博主的内容发布、转发、评论是反映其个性、观点、倾向的重要内容。通过分析博主发布的历史内容,可对某一博主进行基于关键词的个性建模。其次,利用模式识别技术[7]对热点舆情的关键词模型和微博博主关键词模型进行匹配,匹配相似度越高的博主就越接近热点传播的源头或关键节点。
4 小结和探讨
互联网发展到今天,它在信息传播和扩散方面起着传统媒体所不具备的作用效率。它正逐渐成为人们自由表达观点的重要场所,也逐渐成为反映社会舆论的重要渠道。但是UGC内容的多样性、发布渠道的复杂性使得未经证实和审核的不实新闻、别有用心的假新闻在互联网上随处可见。更有甚者,一些恶意的互联网用户利用互联网媒体发布、传播、扩散各种有害信息,如淫秽、暴力、极端思想、恐怖主义等。在这种现实场景下,我们就更加需要第一时间了解互联网上广泛传播的热点信息,从而屏蔽不良信息和虚假信息,使得互联网真正成为推动社会发展和信息交互的良性工具。
本文探讨了一个利用大数据基础技术和应用技术处理海量互联网舆情数据的场景。其中大数据基础技术用于平台的构建,为计算和存储提供最基本的功能支撑。大数据应用技术,包括网络爬虫技术、信息检索技术、数据挖掘技术、自然语言处理技术,是用于适配互联网舆情这个大数据场景的应用技术。通过信息获取、舆情发现和信息源定位这3个步骤,我们可以从互联网上抓取数据以供分析,可以从数据中找出热点并发现在热点扩散中起到重要作用的用户和节点,为行业主管部门对互联网舆情的管控提供依据和支撑。endprint
对互联网舆情管控的研究目前尚处于初期阶段,行业内已有的舆情管控解决方案解决了有无的问题,但尚未达到高效和强大的程度。我们希望通过总结和研究为从业者提供一定的启发:在信息获取阶段能够非常全面及时地找到待分析数据;在舆情发现阶段能够准确迅速地从海量数据中找出正在扩散和传播的热点信息;在信息源定位阶段能够找到关键的扩散节点,从而对互联网舆情实现有效的监测和管理。
参考文献:
[1] 周立柱,林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005(9): 1965-1969.
[2] David A, Grossman, Ophir Frieder. 信息检索:算法与启发式方法[M]. 张华平,李恒训,刘治华,译. 北京: 人民邮电出版社, 2010.
[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.
[4] James Allen. 自然语言理解[M]. 刘群,译. 北京: 电子工业出版社, 2005.
[5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011(2): 41-45.
[6] 中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. (2014-06-22). http://ictclas.org/.
[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式识别[M]. Wiley Press, 2001.
作者简介
黄斐一:博士毕业于伦敦大学学院通信工程专业,IEEE会员,CCF会员,现任中国移动互联网基地业务二部高级运营主管,主要职责涵盖公司移动互联网业务的安全管理与技术应用等相关工作,擅长专业领域包括信息安全、移动互联网业务运营、大数据挖掘等。
孙立军:博士毕业于华南理工大学通信与信息系统专业,现任中国移动互联网基地业务二部高级运营主管,主要从事移动互联网业务运营中的信息安全管理工作。
孔繁盛:硕士毕业于南京邮电学院计算机软件专业,现任中国移动互联网基地业务二部副总经理,分管信息安全、互联网业务平台建设和运维等工作。endprint
对互联网舆情管控的研究目前尚处于初期阶段,行业内已有的舆情管控解决方案解决了有无的问题,但尚未达到高效和强大的程度。我们希望通过总结和研究为从业者提供一定的启发:在信息获取阶段能够非常全面及时地找到待分析数据;在舆情发现阶段能够准确迅速地从海量数据中找出正在扩散和传播的热点信息;在信息源定位阶段能够找到关键的扩散节点,从而对互联网舆情实现有效的监测和管理。
参考文献:
[1] 周立柱,林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005(9): 1965-1969.
[2] David A, Grossman, Ophir Frieder. 信息检索:算法与启发式方法[M]. 张华平,李恒训,刘治华,译. 北京: 人民邮电出版社, 2010.
[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.
[4] James Allen. 自然语言理解[M]. 刘群,译. 北京: 电子工业出版社, 2005.
[5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011(2): 41-45.
[6] 中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. (2014-06-22). http://ictclas.org/.
[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式识别[M]. Wiley Press, 2001.
作者简介
黄斐一:博士毕业于伦敦大学学院通信工程专业,IEEE会员,CCF会员,现任中国移动互联网基地业务二部高级运营主管,主要职责涵盖公司移动互联网业务的安全管理与技术应用等相关工作,擅长专业领域包括信息安全、移动互联网业务运营、大数据挖掘等。
孙立军:博士毕业于华南理工大学通信与信息系统专业,现任中国移动互联网基地业务二部高级运营主管,主要从事移动互联网业务运营中的信息安全管理工作。
孔繁盛:硕士毕业于南京邮电学院计算机软件专业,现任中国移动互联网基地业务二部副总经理,分管信息安全、互联网业务平台建设和运维等工作。endprint
对互联网舆情管控的研究目前尚处于初期阶段,行业内已有的舆情管控解决方案解决了有无的问题,但尚未达到高效和强大的程度。我们希望通过总结和研究为从业者提供一定的启发:在信息获取阶段能够非常全面及时地找到待分析数据;在舆情发现阶段能够准确迅速地从海量数据中找出正在扩散和传播的热点信息;在信息源定位阶段能够找到关键的扩散节点,从而对互联网舆情实现有效的监测和管理。
参考文献:
[1] 周立柱,林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005(9): 1965-1969.
[2] David A, Grossman, Ophir Frieder. 信息检索:算法与启发式方法[M]. 张华平,李恒训,刘治华,译. 北京: 人民邮电出版社, 2010.
[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.
[4] James Allen. 自然语言理解[M]. 刘群,译. 北京: 电子工业出版社, 2005.
[5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011(2): 41-45.
[6] 中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. (2014-06-22). http://ictclas.org/.
[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式识别[M]. Wiley Press, 2001.
作者简介
黄斐一:博士毕业于伦敦大学学院通信工程专业,IEEE会员,CCF会员,现任中国移动互联网基地业务二部高级运营主管,主要职责涵盖公司移动互联网业务的安全管理与技术应用等相关工作,擅长专业领域包括信息安全、移动互联网业务运营、大数据挖掘等。
孙立军:博士毕业于华南理工大学通信与信息系统专业,现任中国移动互联网基地业务二部高级运营主管,主要从事移动互联网业务运营中的信息安全管理工作。
孔繁盛:硕士毕业于南京邮电学院计算机软件专业,现任中国移动互联网基地业务二部副总经理,分管信息安全、互联网业务平台建设和运维等工作。endprint