张昕 孙江辉
摘 要:为了及时调控和遏制校园内突发的不良网络舆情事件的蔓延,引入最近几年针对网络舆情监测过程中的方法及思路,以加强网络信息的监测管理工作为目的,结合信息采集和舆情监测指标研究,设计了一套校园网舆情监测系统。该校园网舆情监测系统实现了信息采集模块功能及部分分析模块功能,达到了采集信息的效果,对舆情完成了初步分析。
关键词: 校园网舆情; 爬虫系统; 模块设计; 监测系统
中图分类号: TN915.08?34; TP393.07 文献标识码: A 文章编号: 1004?373X(2015)11?0098?05
Design of public opinion monitoring system
ZHANG Xin1, SUN Jiang?hui2
(1. Information Center, Xian University of Posts and Telecommunications, Xian 710061, China;
2. School of Communication and Information Engineering, Xian University of Posts and Telecommunications, Xian 710061, China)
Abstract: To timely control and restraint the spread of the burst and adverse public opinion events in campus network, methods and ideas in recent years for aiming at the monitoring process of network public opinion are introduced to strengthen monitoring and management work of the network information. Combined with information acquisition and index research of public opinion monitoring, campus network public opinion monitoring system is designed. The functions of information acquisition module and part analysis modules were realized, the effect of information acquisition was achieved, and the preliminary analysis of public opinion was completed by campus network public opinion monitoring system.
Keywords: campus network public opinion; crawler system; module design; monitoring system
0 引 言
近年来,高校网络建设伴随着网络技术的发展取得了巨大进步,同时,为了保障在校学生通过网络获取的是安全健康的信息,使得校园网舆情监测越来越受到重视。学生上网的人数已经超过了7 600万,而在校大学生的比率就达到了1[∶]4,在校大学生受到了来自现实生活中敏感问题的最大波及,而部分学生可能会将自身生活中的负面情绪在虚拟的校园平台上散播,导致校园网络充斥着各种情绪[1]。
虽然在当下我国对大型媒体网站舆情信息分析已有不少研究,比如北大方正集团研究的方正智思系统,它可以深入分析舆情信息,并起到正确导向作用。但它主要针对的是政府部门的舆情信息,而针对新兴媒体如校园贴吧和微博校园等现在大学生获得校园知识与信息的主要媒介的舆情监测仅仅处于初级阶段,对舆情的监督分析并不到位,因此进行针对有关校园的舆情监测的研究是有必要的。
1 网络舆情概述及相关指标研究
1.1 网络舆情概述
舆情是指在特定的社会环境中,随着社会发展,民众对社会管理者产生的社会政治态度。它是多数群众关于社会环境中出现的各种现象表达出的观点、态度的总和。网络舆情则是指网络上传播的社会舆论的一种表现形式,是互联网上的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点[2]。校园网舆情信息的主要传播途径是:新闻网站、门户网站等。网络舆情的形成如图1所示。
通过有关校园的网络信息传播包含了大学生对当今社会各个方面很多症状以及许多讨论度高的现象的想法和方向。因此,网络舆论能够最有效、迅速地回应不一样的层次社会舆情现状与发展态势。怎样抓住虚拟网络社会的即时信息,保证校园甚至社会有关方面的茁壮发展,不仅仅要对传统方式重视,更需要在网络的安全方面做出努力。
1.2 相关指标研究
舆情监测系统指标体系的建立有较强的研究价值和应用需求,它恰到好处地将互联网信息的研究知识和应用需求融为一体,使得网络舆情监测手段和系统的架构建设有了更广阔的空间。因此高校等学生基数大的社会空间能够得到更为真实可靠的信息,及时接收来自学生的声音。并且通过辨别和抓取具有引导性、舆论性、热点性的校园网络信息,及时做出预警措施,达到对舆论信息的正确导向,对网络安全的实时引导,从而在苗头上扑灭可能出现的隐患。这种指标的建立同时能够在研究和应用的不同层次上引导舆论信息的监测,并提前发现倾向性的舆情信息,因此构成高校校园网的舆论信息发现、处理、监测以及预警。
舆情监测系统相关指标如表1所示。
2 舆情监测系统设计
2.1 舆情监测系统设计框架
根据信息倾向研究能够知道信息发布者所包含的情绪、立场、想法、意愿等。现在基本使用聚类手段和信息倾向研究手段,针对在校园网中发布的可能带有不良倾向的信息进行分析,分类区别并归纳学生观点。这样可以同时进行话题的进展追踪,研究新出现的主题是否有重复的题目。其次可以及时处理突发事件,从时间,空间上进行主题追踪,预防出现大规模的影响。最终通过需求分析,确定系统模块规划,可以得出校园网舆情监测系统的基础是能够进行信息采集,而目的是达到舆情预警的效果并通过展示界面及时通知决策者,整个监测模块的设计如图2所示。
在整个系统设计中,采集模块、分析模块、预警模块的关系层层递进,采集模块作为基础模块完成整个系统信息的采集工作,将信息储存在文件中;分析模块在采集模块之后进行文本分析,完成舆情的趋势分析和热点话题发现;最后预警展示模块根据前两个模块分析的信息,依据危机度设定进行舆情的预警并通过展示界面传达信息给最终决策者。模块之间的关系如图3所示。
2.2 详细设计
2.2.1 信息采集模块
信息采集模块为整个舆情监测系统的基础模块。本模块的目的是实现对目标空间内的信息采集,选择具有较多采集价值的目标网站,可以减少不必要的爬行过程。采集模块流程图如图4所示。
在整个模块中,首先进行链接分析,Spider主要通过各种Web协议自动采集网络上的相关信息,并将Web页面下载到本地进行分析。信息采集的起点是从一个种子URL集出发,通过Web协议向所需的页面扩展。根据Linkage /Sibling Locality特性,需要选择质量较高的主题URL作为初始种子UR集;然后在页面采集完后,对页面进行解析,从中获取链接及其上下文数据、正文、标题、摘要等信息;接着完成无法解析的页面模块的过滤,无效页面数据的去除;只保留有效的主题词语。最后保存有效文本数据。
通过信息采集,可以进行网络信息管理、舆情趋势调控。而网络爬虫正是网络舆情采集的核心方法。网络爬虫(Web Crawler)实质上是一个HTML页面爬行程序,通过HTML页面对应的URL地址下载HTML页面,从此页面(一般是网站的首页)开始,下载HTML页面的内容,通过分析器,筛选过滤找到这个HTML页面上的其他URL连接,这些URL地址将作为寻找下一批HTML页面的基础,直到将站内所有的HTML页面都遍历完为止[1]。
网络爬虫基本上可以划分为6个部分:URL处理器,Web信息提取器,网页去重检测器,URL提取器,标签信息获取器,数据库,各部分协作从Web上获取信息。网络爬虫的基本结构图如图5所示。
(1) URL处理器。这个部件主要给“待提取的URL”进行排序,并根据一定的策略向Web信息提取器分派URL。URL处理器主要有三个数据来源:初始的种子URL集合;从URL提取器传递过来的新发现的URL集合,它们是从己提取页面中分析得来的;页面的Meta信息、主题以及摘要等信息,来自标签信息获取器,它们主要用来显示从URL提取器中传递过来的URL的重要性,为在队列中进行排序提供依据。
(2) Web信息提取器。这个部件处于系统的底层,主要通过各种Web协议来完成网络数据的采集,如图6所示。一般来说,协议包括HTTP、Gopher、BBS以及FTP等,也有些Web信息提取系统会根据实际需要获取Web Chat、ICQ等特殊网络信息。
(3) 网页去重检测器。Web上存在着大量的镜像页面和重复的页面内容,不进行网页重复内容的检测过滤,将极大地浪费网络带宽和系统的运行效率。在进行重复内容检测时,一般可以采用简单的段落匹配方法或者相对复杂的相似度匹配方法。
(4) URL提取器。对于采集到的页面,通过网页去重检测后,需要分析其中的链接,并对链接进行必要的转换以获取真实的URL,这些任务就是由URL提取器来完成的。首先需要判别页面类型,可在对HTTP应答头的分析中得出,有时也可以通过分析URL中的文件扩展名来判别页面类型。随后,需要分析的HTML标记包括,,
(5) 标签信息获取器。这里所要获取的信息包括已提取页面的Meta信息、作者信息、页面的标题、页面的摘要等。主要目的是在没有对页面内容进行语义信息理解的前提下,尽可能多地分析出HTML标签、结构等的信息,对从页面中提取出的URL质量的好坏给出一个度量,然后再传输到URL处理器,对待提取URL队列进行排序。
(6) 数据库。通过网页去重检测后的页面数据、提取出来的Meta信息、作者信息、主题和摘要等均需存入数据库中,以备使用。例如,进行分析建立索引等。由于Web页面规模庞大,提取的相关数据在存入数据库之前,一般要进行压缩处理。
2.2.2 舆情分析模块
舆情分析模块是在采集模块的基础上,对采集所获得的内容进行分类和分析,对信息初步完成再处理,主要目的是将原网页的数据通过处理转化成数据形式。舆情分析模块的主要目的是通过分析将采集到的信息进行智能处理,最终完成舆情关键信息的获取,它是整个设计的核心部分。舆情分析模块由预处理子模块、分词功能子模块、信息聚类子模块和热点发现子模块组成,如图7所示。
预处理子模块:本模块的目的是在抓取页面时,去除干扰信息,保留有用信息。
分词子模块:本模块通过中文分词技术,对初步获取的信息进行分词,达到电脑自动识别语句含义的效果,然后通过TF*IDF算法完成关键词词频等信息的记录。中文分词指的是将一个汉字序列切分成一个个单独的词,它是文本挖掘的基础,在本文中使用的是MMSEG分词算法,通过这种改进算法,可以提高系统的正确识别率。
信息聚类子模块:本模块的目的是发现某一主题的所有相关信息和相关的用户群,通过文本聚类分析将经过处理的舆情信息按照不同的性质分类成不同的类别,然后经过一定的计算处理判断该主题的舆情构成和公众基本态度。
热点发现子模块:该模块功能是通过关注度算法计算热点关注度,再进行热点统计,判断热点信息类型,最后通过搜索功能进行信息查找,及时进行舆情导向控制。
2.2.3 舆情预警展示模块
舆情预警展示模块的目的是通过舆情预警,及时反馈信息给决策者。本模块首先会对聚类后的舆情信息进行统计,统计元素包括时间、网站、回复和点击数等;再通过直观的图表方式展示到浏览器端页面上。其次预设舆情信息的安全类别有5个类别,由弱至强分别由数字1~5代表;然后对信息关键字的负面词进行加权计算,再将计算结果与安全级别匹配,最后把结果推送给舆情工作人员,从而帮助他们及时发现舆情,及时响应。
预警模块的主要目的是判断当前的主题舆情的倾向性,及时进行舆情预警。通过设定危机等级,判断当前信息倾向性;根据舆情相关指标研究,可以通过科学计算设置危机度等级,当搜索到有害信息,计算出危机度,即可以按照相应危机度的处理方法进行处理,一旦达到舆情危机度等级,立刻反馈给决策者,由决策者决定处理方法。
3 舆情监测系统模块实现
3.1 信息采集模块实现
信息采集模块为整个舆情监测系统的中心模块, 本模块实现了对目标空间内的信息采集,再将采集到的信息保存在有效文本中,为信息分析做铺垫。信息采集模块是整个系统设计的核心模块,无论是分析模块还是预警模块都是在采集模块的基础上完成的;信息采集模块主要用到的就是网络爬虫技术。其内部工作流程图如图8所示。
采集模块和分析模块有很多交融点,在采集模块建设过程中也要规划好分析模块的建设,在学习采集模块所使用的技术手段时可以同时进行下一步的设计工作。最后,校园网舆情监测系统设计的基础也是相关信息的采集。
由于Web文档使用了文本标记语言,利用这个特点,找出Web文档中文本和标签匹配规律,生成其对应的DOM树(Document Object Model)。
InsertDOMNodes(Nodepnode,TNodetree_node)
{
if(pnode.hasCNodes())
{
IHTMLDOMChildrenCollectionallchild=(IHTMLDOMChildrenCollectio
n)pnode.CNodes;
intlength=allchild.length;
for(intj=0;j { Nodechild_node=(Node)allchild.item(i); TNodetempnode=tree_node.Nodes.Add(child_node.nodeName); InsertDOMNodes(child_node,tempnode); } } } //将 domnode 插入 eVipSBrowser_DocumentComplete(objectsender,AxSHDocVw.DWebBrow serEvents2_DocumentCompleteEvente) { DOMTreeView.Nodes.Clear(); IHTMLDocument3HTMLDocument=(IHTMLDocument3)eVIPSBrowser.Docum ent; IHTMLDOMNoderootDomNode=(IHTMLDOMNode)HTMLDocument.documentEl ement; TNoderoot=DOMTView.Nodes.Add("HTML"); InsertDOMNodes(rootDomNode,root); } 通过输入一个目标HTML页面,如图9所示。保存的页面信息如图10所示。 3.2 舆情分析模块实现 舆情分析主要运用中文分词技术,该模块的实现使用基于词典的分词算法MMSEG算法,以正向最大匹配为主,多种消除歧义的规则为辅。通过这种改进算法,可以提高系统的正确识别率。它是中文分词技术的一项改进,中文文本在计算分析时有一个问题是缺少单词的边界,由于单词是一个基本的语义单元,因此有必要识别中文文本的单词让进一步的处理可以进行。而MMSEG算法的目的是开发一个基于最大匹配算法的两种变体的中文单词识别系统,这个系统由一个词典,两种匹配算法以及四种歧义消解规则组成。在一个由1 013个单词组成的样本中,这个系统的正确识别率达到98.41%。 其次,分词完成后,通过TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义。TF*IDF是一种用于信息搜索和信息挖掘的常用加权技术。 TF*IDF单纯使用频率因子并不能保证系统的查询性能。当高频特征项在文档集合中经常出现时,使用它进行查询就会得到集合中的大多数文档,这会影响检索系统的查准率。因此需要引入一个与文档集合有关的因子,加大文档之间的区分度。如果特征项在集合中较少的文档中出现,则相应的文档集因子IDF较大。在文档总数为[N]的集合中,如果包含某特征项的文档数为[n,]相应的文档集因子是:[IDF=log2(Nn)。]
经典的TF*IDF赋权因子在实际应用中取得了一定的效果,但是缺乏理论基础。概率模型则考虑特征项之间、特征项与文档之间的概率相依性,从而选择特征项并修正它们的权重,这样可以大大提高文档内容表达的准确度。在概率模型中,特征项赋权因子定义为出现特征项的相关文档个数除以不相关文档个数,但是系统无法自动确定文档与特征项是否相关,因此无法直接计算特征项的权重。可以在缺少完整的相关信息的情况下估计特征项的赋权因子,在特定情况下,赋权因子为[log2(N-n)n]这就是概率模型IDF,有:
[W=TF*IDF]
TF和IDF参数是在文本检索中最常用的向量权重计算方法。它们刻画了特征项表达文本内容属性的能力。TF词频指的是某一个给定的词语在该文件中出现的次数。TF越大,此特征项在文档集中出现的范围越广,说明它的重要程度越高;IDF反文档频率的主要思想是:如果包含词条的文档越少,IDF越大,并且此特征项在文档中的的分布越集中,说明它在区分该文档内容属性方面的能力越强,且词条具有很好的类别区分能力。
聚类结束后,可以获得关键词的词频数,TF*IDF,和权重。同时获得的词频数,权重等具体数据将可以用于预警模块中具体的指标参数计算,由图11可知,其中“陕西”一词,在文件中出现的次数是1次,权重为0,图12为聚类结果。
4 结 语
通过对校园网络舆情特点的分析,在一些门户网站的信息收集、整理,能够及时发现网络舆情热点。在现有的基础上提出了一套适合校园网络的舆情监控系统,根据现存的舆情指标,将舆论信息的发布、受众倾向、信息扩散度和不同区域作为4大校园网舆情指标,并且实现了信息采集和舆情分析模,从而对网络舆情进行实时监管。
参考文献
[1] 于琨,孙新领.基于信息挖掘的高校网络舆情监测系统开发[J].河南机电高等专科学校学报,2012(1):24?26.
[2] 李舒晨,刘云,李勇,等.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30?33.
[3] 陆瑞.水利工程舆情分析模型及指标体系设计[D].武汉:华中科技大学,2011.
[4] 潘文富,郭友实.网络舆情监测技术研究综述[J].福建电脑,2011(8):39?41.
[5] 谢国强,蓝立新.基于Web的网络爬虫技术研究[J].科教文汇,2008(4):198?199.
[6] 高承实.微博舆情监测指标体系研究[J].情报杂志,2011(9):66?70.
[7] 王粱.浅谈突发公共事件中网络舆情监测指标体系的应用[J].计算机光盘软件与应用,2011(12):46?47.
[8] 任德志.基于网络流量的主机安全防护系统研究与实现[D].长沙:国防科学技术大学,2010.
[9] 战琴.基于AJAX技术的Deep Web爬虫实现方法研究[D].青岛:山东科技大学,2009.
[10] 龚静,李安民.一种改进的k?means中文文本聚类算法[J].湖南工业大学学报,2008(2):52?54.
[11] 钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008(4):49?55.