曾小燕,周统钢
(广东药学院,广州 510006)
舆情监控主要是监测互联网上的国内、国际重大事件,网友通过BBS论坛、博客、新闻跟帖、微博等网络媒体发表的网络舆情言论,通过分析信息特征和发展趋势,形成可供决策使用的数据结果的过程.舆情监控的主要对象是互联网web信息.监控对象具有数据庞大,类别繁多,而且具有非结构化等的自然语言特征.在数据量庞大的情况下,依靠人工对舆情信息进行分析、分类是不可能的,只能通过计算机处理.但由于自然语言的丰富性,包括多层次的歧义(词汇、句法、词义、语用等)[1],目前计算机也很难完美解决问题,这给舆情监控带来困难.舆情分析系统设计难点是如何正确而全面的获取互联网上相关的舆情信息报道.为确保信息的查准率和查全率,对舆情信息挖掘涉及到语义搜索技术、文本挖掘技术、计算机语言学、信息学、心理学、新闻学等相关领域知识.
本文主要探究舆情信息挖掘的技术.从内容上看,可以把网络舆情信息看成一个二值分类问题:有用信息还是无用信息;有用信息分为:正面信息还是负面信息,因此,对舆情信息的挖掘最终回归到对信息的分类问题上.所以,各种文本分类方法都可以用于舆情信息分类.如贝叶斯[2]、决策树[3]、K 邻近(KNN)、神经网络法、本体分类[4]、基于规则的Ripper算法[5],基于统计的支持向量机(SVM)分类方法、Boosting[6]方法、Rough Set[7]方法等.其中,由于贝叶斯方法在分类问题上表现出了很好的性能[8],为此,本文尝试对舆情监控分析也类似采用贝叶斯分类方法.
由于信息量的爆炸式增长,为保持对信息的挖掘分类效果,纵观国内学者有对垃圾邮件分类的研究成果,曾采用了累积反馈学习的简单贝叶斯方法进行垃圾邮件过滤[9],基于舆情分析系统的点,我们考虑采用二次累积反馈学习的简单贝叶斯方法,通过不断累积新的领域规则知识,强化机器对信息的自我学习能力.
我们在对舆情分析系统研究的过程出现过这种典型的案例:系统经过智能查找分析后抓取的信息,居然是虚构的网络小说.其描述的场景和用词等与新闻几近无异,人一眼就能辨认出这是虚构的文学,机器却不能正确识别.因此需要加强机器对基于内容的舆情信息分类.
舆情分析系统的基本工作方式是先从海量信息中获取本领域需要的舆情信息,再从获取的舆情信息中区分出是负面信息还是普通信息.我们需要的就是最终的负面信息和普通信息及数据统计分析结果.这里经过了两次分类过程.第一次分类是将海量信息分为有用信息和无用信息;第二次分类是将有用信息分为负面信息和普通信息.舆情系统分析处理必须经过这两个步骤:
第一步:通过分类函数f1进行第一步判定,判定该项信息是否为本领域需要的舆情信息f1:M→{V,I},其中M为网络信息,V表示有用信息(Valuable),I表示无用信息(Invaluable).
判定方法:将需要处理的文档采用向量空间模型(Vector Space Model,VSM)[10]实现信息向量化,获取文档的词频信息表T(Table).根据词频信息表T对比分类过滤器f1,判定该项信息是否为有用的舆情信息.
第二步:通过分类函数f2进行第二步判定,负面信息还是一般信息:f2:V→{N,G},N表示负面信息(Negative Information),G表示一般信息(General Information).
判定方法:在第一步中已将该文档实现信息向量化,定义文档为 n 维向量{w1,w2,…,wn}信息,其中wi(i=1,2,…,n)表示第i个特征项的权重,特征项为预定的领域正、负面标志特征,通过特征项权重标注网页的“感情色彩”特征信息.
舆情分析系统设计的难点就在于分类函数f的获取.
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类[11].我们的目标就是获取分类函数f,即贝叶斯分类器.
根据贝叶斯分类器的分类原理,结合国内学者的研究[9]和舆情分析系统的实际情况,设计如下模型获取分类函数f:
信息样本直接从大型门户网站的历年新闻报道中选取[12],对样本进行训练学习,获取样本的词频信息表和特征权重信息,生成分类器f1,即具有类似词频信息表的文档即可判定为有用信息V.对样本信息进行正负面判定,此处的正面信息即非负面信息,意即普通信息.分别抽取正、负面的信息样本的词频信息表和特征权重信息,生成正、负信息分类器f2.正、负信息判定即通过该分类器f2判定.图1为分类函数f的获取模型.
图1 分类函数f的获取模型
从大型门户网站的历年新闻报道中选取某一领域内容的学习样本集设为M,对M进行信息向量化处理,生成词频表W,具体信息包括网页样本文件总字数total、特征词语wi出现频率数;通过对mi进行递归统计,生成样本的候选特征词表F,包括P(S)、词语wi的信息增益值,和wi的条件概率P(xi|S),按照频率和增益值从大到小排列.
1)选取一定量的某一领域内容的用于训练学习的信息样本M;
2)通过对文本进行信息向量化,建立文本的词频关系表,引入领域专家经验,对词频关系表进行一定的加权修改;
3)运用简单贝叶斯方法分析学习样本M的词频关系表;
4)生成词频表W,按照词频从大到小排列;
5)生成候选特征词表 F,使用{f1,f2,…,fn}表示特征词表,使用{m1,m2,…,mn}表示特征此表对应的词语wi的信息增益值,按照信息增益值从大到小排列;
6)将词频表W,候选特征词表F,更新保存进分类器f1;
7)获取已标志为“负面”、“正面“的信息的词频表及其信息增益值wi,建立信息的“感情色彩”特征库,生成分类器f2;
8)直接从网上随机抓扒一定量网页信息作为新的训练学习样本Mk,用分类器f1对新的学习样本Mi进行贝叶斯分类,分类为Vk,Ik;
9)用分类器f2对Vk进行贝叶斯分类,将Vk分为 Nk,Gk;
10)经过以上步骤处理,最终将显示“负面”、“正面”、“普通”这三类分类结果.查看分类结果,并提供反馈信息,可及时纠正机器学习效果;
11)反馈信息为出现错误时,判断错误情况,如为无用信息,重复步骤3~10,如为“感情色彩”误判信息,重复步骤7~10,机器对训练学习样本Mk进行二次分析,重点学习分类错误的信息,调整更新词频表Wk和候选特征词表Fk,进一步完善和更新分类器.
用分类器f1对信息进行判断时,系统对信息加入一些特殊属性,如:信息长度,信息来源网站,来源栏目,来源时间等进行加权判断.
1)信息的文本长度大于2000个字符,匹配率降低,文本长度大于4000个字符,直接取消监控.
2)大型门户网站信息的受关注度和信息传播速度远大于其他网站,因此增加来源为大型门户网站信息的权值.
3)现在是web2.0社会,用户直接在网上发表评论的频率越来越高,因此需要增加对博客,论坛,微博,微信等方式发表的信息的权值,通过对诸如转发量,浏览数,点赞量,评论数,置顶等几个指标数的考量确定是否增加相应权值.
4)来源时间越早,信息的权值越低,匹配率越低.信息经过分类器f1判定后,还需要对V信息进行正、负面信息的预判.通过分类器f2分析V为普通信息的概率,需要设置一个临界值判断是否为普通信息还是负面信息.假如信息V是普通信息的概率为Pg,是负面信息的概率为Pn=1-Pg.临界值具有两种形式:
(1)设置临界概率 t,若 Pg>t,则认为是普通信息;(2)设置临界值λ,若,则认为是普通信息;取临界值 λ =1,设 t为 0.5,若 Pg>0.5,则认为是普通信息.
在舆情信息监控系统中,用户需要重点监测负面信息,及时做出正确的应急响应.如果把负面信息误判为正面信息或无用信息,就失去了舆情监控的初衷,比将正面信息或无用信息错判为负面信息更不能被用户接受.根据实际应用情况,需要将λ设为大于1的数值.由于用户对负面信息的关注度较高,如果正面信息和无用信息错判为负面信息,用户可以通过系统的反馈修订机制,手动修正分类器错误,增加舆情监控的准确度.
用于建立学习样本,直接从新浪、腾讯、人民网等大型门户网站抓扒某一领域(本样本选用水利相关)的2010年以前的稿件信息作为学习样本.通过分析样本信息的词频,文档频率等建立初始的该领域知识的分类器信息,根据专家经验对分类器结果的数据进行了加权调整,备份第一次的学习结果.之后再抓扒相同门户网站的2010年到2011年的该领域的信息供机器进行第二次分类学习,备份第二次的学习结果,同时更新第一次的学习结果.再抓扒相同门户网站的2011年到2012年的该领域的信息供机器进行第三次分类学习,备份第三次的学习结果,同时更新第二次的学习结果.经过三次机器学习之后,再抓扒相同门户网站的2012年以后的信息作为实验的检验样本.机器学习的三次样本来源均为相同门户网站的稿件,目的是强化分类器对正确信息特征的学习和掌握.通过对样本的简单贝叶斯累积反馈学习实验,可直接将分类器用于网络信息的分类处理.我们将机器学习产生的分类器直接用于分析中搜获取的搜索信息,查看机器每次训练学习的效果.通过选择不同的时间段进行对比.由于舆情监控的主要目的是监控负面舆情信息,因此对于监控的信息结果预判基本采用“负面信息”,“未知正负”表示.系统运行的结果列表数据如图2所示:
广东省水利领域的相关数据分析结果的每日统计结果数据表如图3所示:
图2 机器分类器对实际信息的分析处理结果示例
图3 广东省水利领域的相关数据分析结果的每日统计结果数据表
本文提出了对舆情信息分类处理使用简单贝叶斯进行累积反馈学习的方法和模型.分析具体的舆情实验结果数据,发现存在错误问题的信息主要集中在论坛和微博这类由普通用户发布的信息上.后期对分类器进行调整的关键是选取合适的权值,在降低论坛和微博的噪音信息的同时还要能保证信息的抓取正确性和完整性.实验结果表明,在简单贝叶斯方法上引入领域专家经验规则进行累积反馈学习,对不断保持和提高分类器的分类效果是必要的.
[1]贾焰,王永恒,杨树强.基于本体论的文本挖掘技术综述[J].计算机应用,2006,26(9):2013 -2015.
[2]张铭锋,李云春.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005(8):14-19.
[3]CARRERAS X,MARQUEZ L.Boosting Trees for Anti-Spam E -mail Filtering[C].Proceedings of Euro Conference Recent Advances in NLP(RANLP-2001),2001:58- 64.
[4]DRUCKER H,WU,D V N VAPNIK.Support Vector Machines for Spam Categorization[J].IEEE Transact ions on Neural Networks,1999,20(5):1048 -1054.
[5]COHEN W .Fast Effective Rule Induct ion,in Machine Learning[C].Proceedings of the 12th International Conference, LakeTaho, California, Mongan Kanfmann,1995:115- 123.
[6]ANDROUTSOPOULOS I,PALIOURAS G,MICELAKIS E.Learning to Filter Unsolicited Commercial E-mail[EB/OL].Technical Report 2004 2,NCSR Demokritos,2004,1.
[7]刘洋、杜孝平.垃圾邮件的智能分析、过滤及Rough集讨论[C].武汉:第十二届中国计算机学会网络与数据通信学术会议,2002.
[8]张一文,齐佳音,方滨兴,等.基于贝叶斯网络建模的非常规危机事件网络舆情预警研究[J].竞争情报,2012,56(2):76-81.
[9]张学农,张立成.累积反馈学习的简单贝叶斯垃圾邮件过滤[J].计算机应用与软件,2008,25(10):209 -211.
[10]朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138 -139.
[11]百度百科.贝叶斯分类器[EB/OL].http://baike.baidu.com/view/1531860.htm.
[12]万常选,邓松,刘喜平,等.Web数据源选择技术[J].软件学报,2013,24(4):781 -797.