刘小满 王小辉
摘要:针对目前网民普遍关注的由互联网技术快速发展而带来海量网络热点话题和焦点很容易因误导或传播方式不当导致网络群体事件或突发事件问题,以“互联网+”与网络舆情监控分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,设计实现了基于“互联网+”的网络舆情监控系统。该系统主要由舆情数据信息采集子系统、舆情数据信息预处理子系统、舆情监控分析子系统和舆情应用子系统构成,通过各个子系统的协同工作共同完成对网络海量舆情数据和信息进行实时数据采集、舆情识别、舆情预警及引导治理等,稳定社会秩序,为构建和谐社会提供支持手段。
关键词:互联网+;舆情监控与分析;舆情识别
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)31-0037-04
1背景
在这个“人人都是通讯社”的时代,许多社会舆论事件都是始于网络,以BBS,论坛社区,博客,微博为网络舆情信息的主要来源,并产生巨大的社会影响。面对不断发展的互联网、网络舆情传播快、渠道多,网络舆情数据的异构性与复杂性等特点,也导致了难以控制舆情信息的正确性和传播范围,面对热点话题和焦点的大量关注很容易导致网络群体事件或突发事件,要实现高效及时的网络舆情监控变得尤为困难。如何从海量网络舆情中快速、准确发现有价值的信息,协助政府管理部门及时发现网络盥.情、引导舆论方向、稳定社会情绪,成为建设和谐社会亟待解决的课题。
随着我国城市“互联网+”等信息技术的快速发展,已经成为推动网络舆情监控与分析向智能化方向发展的重要动力。在目前网络舆情的监控与分析应对面临诸多困境的背景下,“互联网+”与网络舆情监控与分析的融合发展将会为这些难题的解决提供新的工具和思路。以“互联网+”与网络舆情监控与分析深度融合发展为切入点,将互联网、物联网、大数据以及云计算等新一代信息技术应用到网络舆情监控与分析上,使舆情数据的海量存储与高效并发处理成为可能嘲。因此提出基于“互联网+”的网络舆情监控系统的设计与实现,具有重要的理论和实践意义。
2网络舆情监控相关技术介绍
网络舆情监控系统相关的最关键的技术包括网络信息的分类、分析、识别、跟踪等计算机文本信息处理技术。这里主要对网络爬虫技术和网络信息提取与识别技术进行介绍。
2.1网络爬虫
随着“互联网+”技术的发展,人们可以快速地通过网络来获取大量所需要的信息。但随着互联网信息量的不断增加和扩大,每时每刻都有上千万的网络信息增长量,要从这么复杂的网络信息量中找到自己想要的数据信息几乎变得不现实,而网络爬虫技术的应用正是为了解决这一难题。
在本舆情监控系统中,网络爬虫技术主要进行的是从网络上大量的不断更新的信息数据抓取下来,为舆情监控提供最原始的网络信息,进而用于下一步的分析研究,以压缩的形式将数据存在磁盘上。图1是常见网络爬虫的架构图。目前所有从互联网上快速自动的获取数据信息都用到了网络爬虫技术。其中应用最多的便是各搜索引擎公司的网络蜘蛛程序,此外,爬虫技术还可以用来检测网站链接是否有效等。
2.2舆情信息的提取与识别
舆情信息的提取与识别技术主要对前期搜集来的信息做有效信息的分析,如果提取的是网络新闻数据,则主要从中找出新闻主题的正文信息(标题,内容,时间等),如果提取的是网络论坛数据,则主要从中找出用户的信息(用户ID、权威值,回复用户ID,回复数等),然后将找出的这些关键信息存人设定的信息数据库中。
舆情信息的提取分析采用的是一种基于模板與自动机器识别相结合的信息提取方法。该方法先根据制定好的启发式规则,然后去自动识别网络文本中不同属性舆论信息之间的分隔符,再把它们配置到相应模板中,然后根据模板去识别分析出同一类型的舆论网页信息,最终以话题线索的方式存下来。话题线索是指对一个网络舆论相关数据信息的描述,主要有网页的点击率,回复数,标题与评论等。与传统的信息提取相比,本技术能够快速对多种结构类型的网络舆论网页数据信息进行处理;同时在很大程度上能更好地提高舆论信息的准确率和效率;并且不用修改算法就可以根据用户不同的需求,然后自动的动态提取网络舆论相关数据信息,以便更好地满足研究的需要。具体提取过程如图2所示。
舆情信息的分析识别主要是对提取到的舆论数据信息数据库中的数据信息做内容上和行为上的识别,并比较判断是否为所需要的舆情信息,为后续的更有针对性的舆情数据信息分析提供相应的参考依据。
舆情信息内容上的识别:主要根据舆隋数据信息的文本属性特征,首先进行信息的分类和聚类操作,从内容上去比较识别该数据信息是否属于所需要的舆情数据信息。
舆情信息行为上的识别:根据舆情数据信息的社会传播属性,即网络舆情数据信息的传播会符合社会网络中的很多属性特征,因此可以使用社会网络中的模型来建立舆情数据信息网络,及时的分析显示出舆情网络信息的形成和进一步的发展趋势,同时可以更好地反映相互出网络用户之间的数据信息相互交流等。对于那些经内容上识别后不属于舆情数据信息将会进一步采用行为属性特征进行识别,如果这些网络舆论数据信息符合行为上的属性特征,就可以把这些数据信息也归为所需要的舆情数据信息。
3网络舆情监控系统的功能框架设计
网络舆情信息的监控功能主要有舆论数据信息的采集、数据信息的预处理和分析处理。系统功能应具备判断舆隋数据信息正负面发展的倾向性和趋势、传播方式和途径、能进行人工设置重点监控特定的舆情信息事件的能力,具有所需舆论话题的自动识别跟踪、分析和提取以及统计报告等。根据目前该行业内现行的解决技术手段和方法方案,对舆论监控系统进行更好的更有针对性的整理和归纳,并设计出更好的方案,获取“互联网+”舆情监控分析系统的功能框架设计的需求。
系统可以分为四个主要模块:舆情数据信息的采集子系统、舆情数据信息预处理子系统、舆情监控分析系统和舆情应用系统。如图3所示。
1)舆情信息采集子系统:能够自动抓取和存储网络上相关的舆情数据等信息。
2)舆情信息预处理子系统:主要对所抓取到的舆隋数据信息进行去重、关键词筛选与分析等。
3)舆情监控分析子系统:主要对舆情数据信息进行文本的表示、对存储在数据库里的数
据进行识别分析等,并将识别分析的结果传递到分析库中。
4)舆情web应用系统:实现用户交互功能。
4网络舆情监控系统功能模块的详细设计
舆情监控系统的工作流即数据流主要经历4个环节的处理:首先是根据舆情数据采集子功能模块将采集到的舆情数据抓取到本地;接着对抓取回来的原始数据进行分析识别加工,即删除多余的垃圾数据,并根据指定的相应数据格式对抓取到的舆情数据信息建立索引;然后根据舆情监控系统设置的特定需求对舆情数据进行分析处理等,最后将得到的舆情数据实时地呈现在客户端。如图4所示:
4.1信息采集功能模块设计
舆情数据主要来源于网站、微博、论坛等国内外著名网站,采用API与网页抽取相结合的方法,进行关键词采集、话题语义采集,通过关键词管理、URL管理、过滤词典及分类管理等系统管理配置,实现分类归一管理。将数据存于HBase数据库中,其采集过程如图5所示。通过网络爬虫技术抓取网络舆情数据信息,并根据Dom解析html和提取相应的数据信息;其中在n个slaver机器上分别运行n个获取器和爬虫器,在master机器上运行调度器。
4.2信息预处理功能模块设计
在已抓取的网络舆情数据信息中,除了有效的舆情数据信息外,还掺杂着大量的其他无效数据信息,如:菜单导航、网站版权、友情链接等。与结构化的数据信息相比,不同的是网络舆情数据信息中大多数为非结构化的数据信息,并且数据形式复杂,所以,对这些舆情数据信息不能直接进行分析和加工处理,需要在数据加工处理前先进行信息的清洗除噪预处理,并对数据信息内容以及主要属性特征等进行分析提取,这就是信息预处理子功能模块的主要工作。如图6所示,即为舆情信息预处理子功能模块的工作流程。
4.3舆情分析功能子模块设计
舆情分析功能子模块是舆情监控系统中最主要的一个功能模块,主要采用网络信息文本的分类和聚类等技术,对前期进行过预处理的网络舆情数据进行深入分析和识别挖掘,并以此提供“话题发现”和“热点跟踪”。舆情分析功能子模块的工作流程如图7所示。
舆情监控分析功能子模块作为系统的主要功能模块,主要有最新热点信息话题的发现与分析、热点信息话题的追踪以及社会网络分析等。下面只对主要功能进行描述。
4.3.1热点信息话题的发现与分析
热点话题发现与分析功能是指将舆情数据信息内容划分到不同的话题,并在有需求时产生新的与之对应的话题;热点信息话题的追踪主要对网络用户所感兴趣话题的后续发展进行追踪分析。在此主要使用的是文本聚类分析方法。
4.3.2社会网络分析
社会网络是复杂网络的一种,是复杂网络研究领域中一种特殊的网络,和复杂网络之间的关系是被包容与包容的关系。以微博为例,舆情监控系统所使用的社会网络分析方法是对网络博主发布的数据信息中粉丝数以及关注数的出入度和聚类系数进行计算,分别采用n个Map阶段和一个Reduce阶段,并在分析库存储计算的结果,供客户端进行可視化调用。聚类系数的大小是社会网络分析方法中的一个关键参考指标,它体现的是网络的集团化程度,是一种网络内聚的反映,它是指社会网络中实际存在的边数和可能有的边数之比嘲。对于社会网络分析来说,集团化是一个关键属性特征,它代表网络中的朋友或熟人的凝聚程度,而聚类系数就是反映这集团化属性。
4.4舆情展示预警功能模块设计
该功能模块主要实现系统和管理者之间的各种实时交互操作,将经过系统分析后的结果最终反馈给管理者。该模块所包含的功能有:敏感话题趋势、热点话题排序等。系统交信息互展示,能使管理者对舆情数据信息进行及时分析并掌握舆情信息趋势变化。更重要的是,监控系统还能进行舆情信息的自动警示触发。该警示的目的在于及时进行舆情信息的反馈和采取防患于未然的措施,舆情预警主要包括舆情预警通知和舆情引导。
4.4.1舆情预警通知
通过网络舆情预警机制的动态模型确定不同舆情信息的权重系数,然后依据权重系数大小确定等级高低。根据舆情数据信息等级的高低不同启动相应的处理机制(见图8),预警方式可设置为短信通知、邮件通知、启动报警(播放报警声音)及页面窗口弹出提示,确保舆情信息的发生立即被发现,第一时间做出响应,预防舆隋的扩散传播,有效实施主动性。
4.4.2舆情引导
根据网络舆情数据信息的属性和传播方式判断出舆情数据信息对社会生活产生不利影响时,利用舆情的引导策略和技术,在短期内快速生成应对不利影响的有效解决合力,使得网络舆情信息的发展朝着期望的方向变化,并以此为目的让广大网络民众更快的获知最真实的数据信息,进而寻的社会的稳定发展。舆情引导流程如图9所示。
5结束语
将“互联网+”技术应用于舆隋监控系统实现了云端硬件资源的共享,使得客户不必购买大量硬件设备就可进行数据挖掘,节约了设备的采购及维护费用;同时利用云计算的集群处理能力,完成对云端数据的实时高效挖掘。从系统试运行应用效果来看,既节约了管理成本,又提高了工作效率,实现了网络舆情监控系统的实时性、高效性和全面性,可为维护信息时代社会的稳定性提供技术保障。