王星 何慧
摘 要:计算机和互联网技术的快速发展,在给人类提供极大便利的同时,也给人类社会的政治、经济和文化生活等方面带来了巨大的冲击和负面影响,并由此产生了传统社会没有的、新型的社会问题——网络社会问题。网络社会问题在全世界范围内都是广泛存在的,它的复杂性和多样性等特点解决起来也是一个不小的世界性的难题。因此通过对网络进行监控,对网络舆论导向进行分析,并智能的做出回应,对于正确引导舆论走向是有必要的。本文对网络舆情引导理论和技术方面进行研究,采用基于马尔科夫逻辑网络模型进行舆论引导,通过对已有知识库的学习,推断未知知识库,即需要引导的舆情领域相关引导的参数,达到舆情引导的效果。
关键词:网络舆情引导;协作分类;马尔科夫逻辑网
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)03-
Network Public Opinion Guiding based on Markov Logic Networks
WANG Xing, HE Hui
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: As the rapid development of Internet, the network media has more important influence in many areas, so analysis of network public opinion is critical. The existing network public opinion research uses the network information, retrieval, clustering and other aspects of the underlying technology, but often overlook users comment on the emotional factors tendency. The paper builds a system based on the Markov logic network model to guide public opinion. The system uses the existing knowledge to infer the unknown knowledge, therefore guides the public opinion.
Keywords: Network Public Opinion Guiding; Collective Classification; Markov Logic Network
0 引 言
随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户合作参与”的开放式架构理念。与之相应地,互联网用户则由单纯的“读”网页而开始向“写”网页、和“网络联合共建”发展,另一方面也由被动地接收互联网信息向信息的主动创造方面做出了推进和转变。
在网络中,由于个人身份的匿名化,网民敢于表达与自身利益息息相关或自己所关心的各种公共事务(如决策公信、社会热点、突发事件等)的真实观点。这种个人观点可以依靠网络进行传播,引起效应共鸣,形成网络舆情。
所谓网络舆情,就是通过互联网表达和传播的各种不同情绪、态度和意见交错的总和。目前,网络舆情多以文字的形式出现,主要来源于现实,只是表达和传播舆情的场所或渠道被人们拓展到了互联网上。而网络舆情情感倾向性分析则主要是对网民所表达的情感信息进行分析,并综合所有情感信息得到网民对话题的整体情感倾向,从而为相关部门及时掌握社情民意、做出科学决策提供全面、有效支持。
长期以来,要了解民众对某个社会问题所持的态度如何(正面或者反面、积极或是消极),往往需要借助于专门的咨询调查机构。这些机构仔细收集并阅读关于该类问题的所有民众意见,综合后得到整体反馈。上述的咨询调查过程不仅耗费大量人力,其实现过程也相当缓慢。而利用计算机完成情感倾向的自动分析则能够保证处理的时效性,并且能够汇集全国范围内的民众意见。
目前国内外对网络舆情引导技术研究较少,大部分是进行仿真研究[1-4]。在引导方法方面,大部分是基于政治学以及社会学对舆情的产生,发展,调控进行理论研究。因此,网络舆论引导技术的研究,对政府观察社会事件的发生演变过程,了解民情民意,维护社会稳定有着重要的意义,同时也对国家的持续、稳定、快速发展具有重大的现实作用与价值。
1 马尔科夫逻辑网
马尔科夫逻辑网结合了一阶逻辑和 Markov 网。其基本思想是放宽对一阶知识库的一些硬限制:当一个事件违反知识库中的一个公式,其发生概率小,但未必为 0。一个事件违反的公式越少,发生的概率越大。用公式的权值来表示公式限制强度的大小:权值越高,满足该公式事件的发生概率与不满足该公式事件的发生概率之间的差就越大。基于如上基本思想,马尔科夫逻辑网定义如下[5-6]:
马尔科夫逻辑网 是( , )对的集合, 代表一阶逻辑规则, 是一个实数, 为有限的常数集合,马尔科夫网 可做如下的(1)、(2)定义:
(1) 中每个谓词的每种可能在 中都有一个二元节点,如果所代表的原子公式为真,节点的值就等于1,否则为0。
(2) 中每个规则 的每种可能在 中有一个特征值,为真时等于1,否则等于0,特征值的权重为 对应的 。
直观上看,马尔科夫逻辑网就是其中每个准则都有权重的一阶逻辑知识库,且是构建高阶马尔科夫逻辑网的模板。从概率的视角看,马尔科夫逻辑网提供一种简洁的语言来定义大型 Markov 网,能模块化地与大量知识灵活实现合并[7-9]。而从一阶逻辑的观点来看,马尔科夫逻辑网提供了健全处理不确定性、容许有瑕疵甚至矛盾的知识库,由此降低了过程的脆弱性。有许多统计关系学习领域的重要任务,如集合分类、连接预测、连接聚合、社会网络建模和对象识别,都自然而然地成为运用马尔科夫逻辑网推理和学习的现实范例。
2网络舆情引导框架
基于马尔科夫逻辑网,研究设计了一个网络舆情引导的框架。总体框架分别为信息预处理模块,词语情感分析模块,谓词、子句设计模块,马尔科夫逻辑网结构学习模块,马尔科夫逻辑网推理模块以及实验结果推理验证模块,具体如图1所示。
图1 总体框架
Fig.1 Framework
2.1 数据预处理模块
预处理模块中则可细分为三个子模块,对其内容可做如下描述:
(1)语料预处理。首先,读入论坛待引导语料库中的语料,使用分词工具对其进行处理,就可以得到语料中每个词的编号、名称、原形、词性等属性。然后将预处理结果进行精炼,删去冠词、连词等,从而得到精炼后的分词结果并将其以一定格式输出。
(2)词语情感分析。查阅情感词典,得到每个词的情感值,将每句所包含词的情感值加权求和,从而得到该句的情感;同样地,对每篇文章句子的情感值进一步加权求和,由此将得到该文章对应的情感。
(3)设计模块。根据每个词的属性,可以设计一些基本的谓词,通过情感分析,即可进一步完善谓词以及设计一些子句有待其后模块的加工使用。
经由上述过程模块,就可得到舆情领域的一些数据(Data Base,DB)文件送入后续的结构学习进行处理及使用。
2.2 马尔科夫逻辑网学习模块
预处理的功能完成实现后,就可以得到结构学习所需的谓词文件和数据文件。基于此,则可通过马尔科夫逻辑网的结构学习,学习获得相应的模型。
学习得到的马尔科夫逻辑网络里,包含系统设计谓词的权重,以及自建子句和系统自身学习所得子句的权重。通过设计适当的谓词,可以得到本系统需要的舆情调控方式,文本感情色彩等值的权重,这些则将用于指导显示环境中的舆情调控。
2.3 推断验证模块
由图1可知,验证模块又可分为推断和计算AUC(Area Under the precision-recall Curve,查全率和查准率曲线之间的面积)以及CLL(Conditional Log-Likelihood,条件对数似然值)值两部分。
(1)推断部分,是将学习的结果应用到对其他数据集的各个谓词的推断中,Alchemy支持两种基本类型的推理,分别是Probabilistic 和 MAP/MPE。具体实现则包含四个概率推理算法。推断时,使用的是Alchemy软件包中的Infer可执行文件。
(2)学习得到的事马尔科夫逻辑网,以及要进行推断的测试数据,这里的DB文件,是专门缺少某一谓词的数据集,每个谓词都会输出一个结果文件,以利于下一步计算。
(3)对推理的结果进行准确度衡量,即计算CLL和AUC。
3 实验结果与结论分析
3.1调控效果数据集构建
数据集构建分为两部分,具体地就是,理想状态下,即所有实验条件客观可控的状态;以及部分不可控环境,即接近于真实网络舆情环境的环境。
理想状态下的调控方式简述如下:在实验环境中,拟自搭建论坛平台,选取若干实验者,择取一个主题,实验者将在平台中进行讨论,系统不进行舆论引导,经过固定的时间,评价论坛舆论情况。另一组对比试验,选取与第一组不同的实验者,但择取同样的主题,实验者也在平台中进行讨论,完成调控后,又经过同样固定时间,对引导情况进行评价。若条件允许,可设置多组对比试验,如此即会令试验调控效果更加精准。
在现实网络舆情环境下,研究在不同的论坛选择两个相似或者相同的主题,同样地,将两个主题分别用于试验组与对照组进行试验。一方面,实验组中,研究者选择一个主题,不施调控,经过固定的时间,查看论坛回帖效果。而另一方面的对照组中,研究者首先对实验组的主题进行调控,同时对另一个相似的主题也进行调控,经过相同的时间,分别对实验组与对照组的主题再施以评估,相应地将对照组中两个主题的调控效果也给予综合评估。如果条件允许,可设置多组对比试验,这样会令实验调控效果分析更加准确。实验对比情况如图2所示。
图2对比试验
Fig.2 Experiments comparing
3.2实验流程
系统将设计后的谓词以及自建的若干子句与采集到并经过转化为DB的训练数据集一同送入Alchemy软件进行马尔科夫逻辑网络结构学习,得出结果后,检视结果是否理想,如果不理想,则修改对应的谓词与子句,并重新进行学习;如果结果理想,则将该结果应用于测试数据集进行推断,得出推断结果之后,计算该结果的CLL以及AUC值,其后对该值展开分析,从而评价试验的结果。综上,实验整体流程如图3所示。
图3试验流程
Fig.3 Experiments flow
3.3实验结果
研究将构建的马尔科夫逻辑网应用到测试数据集中,并利用马尔科夫逻辑网的推断功能进行四个谓词的权重推断。最终,则将得到的推断结果进行对比,得出CLL以及AUC的值如图4~图7所示。
图4情感分析CLL值 图5 情感分析AUC值
Fig.4 The CLL of sentiment analysis Fig.5 The AUC of sentiment analysis
图6调控CLL值 图7调控AUC值
Fig.6 The CLL of opinion guidance Fig.7 The AUC of opinion guidance
三组实验的区别为MLN文件中的子句不同。实验1中子句为若干情感分析与调控的子句,实验2中没有子句,实验3中不仅包含实验1中的所有子句,还包含了各谓词间的相互关系。
由推理可知,CLL和AUC的值越大,就表明实验结果越精确。由上图4~图7可以看出,实验1的各项谓词的CLL和AUC值效果最好,实验2的CLL和AUC值最差,实验3的CLL和AUC值效果则介于两者之间。这说明实验1的结果得出的谓词概率分布质量最好,推断的结果准确率较高。而实验3的效果次于实验1,其原因可能在于实验3的子句增多,关系增多导致出现了过拟合,使得泛化的性能不佳;实验2的结果最差,原因则在于其中没有自建的子句,仅依靠系统自身推断学习,从而导致系统学习获得的若干子句效果较差,达不到实际调控的目的。
以上实验分析结果在局部上有一定变化,但是总体来说,基本达到了预测要求。CLL以及AUC的值都在正常要求范围内,即通过对训练集的马尔科夫网络学习,并运用该学习结果对测试集进行推断,基本达到了需要调控的效果。综上所述,实验结果表明,基于语义和马尔科夫逻辑网的模型在网络舆情引导中现实可行,并可取得一定的良好有利效果。
4 结束语
本文主要针对当前对网络舆情引导分析中,很多的研究方法和技术手段都仅限于人工调控,或者对上下文回帖的关联度切合不够,以及当前的研究都处于较浅的层次的问题。为此由上述问题引发,本文即可、尝试对网络舆情引导理论和技术方面进行深入研究,通过基于语义和马尔科夫逻辑网的结构学习,设计并实现了网络舆情倾向性分析系统,从而对网络舆情引导做出较为正确的分析。本文的主要贡献如下:
(1)在解决问题的过程中,引入了马尔科夫逻辑网络与协定分类相结合的研究方式。协定分类可以便捷处理数据与数据之间的关系,适应于舆情域上下文相关这一特性。马尔科夫逻辑网络则提供了一系列结构学习以及推理模型,因而有利于对数据集结果的学习与推理。
(2)基于前文的理论研究,设计并实现了网络舆情引导分析系统。系统首先采集一定的舆情数据以及相应的引导方式作为训练集,供系统进行马尔科夫逻辑网络结构学习,得出学习结果之后,将结果运用于另一未知舆情调控方式数据集进行推断,推断出该测试机舆情域相应的调控结果,最后对实验结果进行分析比对,判断实验效果。 通过实验的验证,验证了模型的优越性,解决了舆情引导的问题。
尽管如此,模型也存在着很多不足的地方,比如模型不够完善,实验效果并不明显,实验规模较小以及跨域迁移较复杂等问题,都有待后续的进一步研究。
参考文献:
[1] 孙晓茜,林思明,刘悦,等. 媒体舆论引导仿真[J]. 智能系统学报,2010(2):106-111.
[2] 杨玲,方勇,张恒,等. 舆论引导的元胞自动机模型研究[J]. 成都信息工程学院学报,2008(1):30-33.
[3] 孟庆涛,王勇胜,刘桂玲,等. 高校网络BBS舆论引导工作的几点思考[J]. 科技信息,2007(4):113.
[4] 孙晓茜,林思明,刘悦,等. 基于Multi-Agent的媒体舆论引导仿真[C]//第五届全国信息检索学术会议论文集,上海:中国中文信息学会信息检索与内容安全专业委员会,2009:10-14.
[5] TASKAR B, ABBEEL P, KOLLER D. Discriminative probabilistic models for relational data[C]// Proceedings of the Annual Conference on Uncertainty in Artificial Intelligence(2002), Alberta, Canada : DARWICHE A, FRIEDMAN N (eds.) ,2002:381-387
[6] DOMINGOS P, SINGLA P. Markov Logic in infinite domains[C]//Proceedings of the Twenty-Third Conference on Uncertainty in Artificial Intelligence. Vancouver, Canada:AUAI Press,2007:368-375.
[7] WANG J, DOMINGOS P. Hybrid Markov Logic Networks[C]//Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, Chicago:AAAI Press:2008.1106-1111.
[8] M Richardson, P Domingos. Markov Logic Networks [D]. Seattle, Washington, USA: Department of Computer Science and Engineering, University of Washington, 2004:118-136
[9] SHAVLIK J W, NATARAJAN S. Speeding up inference in Markov Logic Networks by preprocessing to reduce the size of the resulting grounded network[C]//Proceedings of the Twenty-first International Joint Conference on Artificial Intelligence, Pasadena, CA.:2009:1951-1956.