基于统计学习的网络舆情智能决策系统模型研究

2019-12-05 08:40窦育民
无线互联科技 2019年17期
关键词:网络舆情

窦育民

摘   要:社会不稳定因素造成网络舆情频繁发生。为应对网络舆情处理不及时发酵为公共事件,文章提出了以统计模式学习方法为基础构建的智能决策系统模型。系统由底向上,详细介绍了原始数据采集、清洗方法,数据处理的复杂过程,利用机器学习、大数据技术进行预测、识别和知识挖掘,根据社会需求提供相应的决策服务模式。

关键词:统计学习;网络舆情;智能决策

现代信息网络快速发展,网络言论成为人们发表观点的首选场所。由于现实社会中具有不稳定因素,网络空间往往成为社会心理层面的不满情绪、不满意见表达的载体。当某一导火索事件引发公众关注、参与讨论时,很可能会发酵为公共事件。由于意见领袖的引导,加上受众信息获取的局限性,容易产生共鸣,社会不满情绪的共振现象就产生了。因此,有效治理社會不稳定因素是一项繁琐、复杂且迫切需要解决的工程。

社会不稳定因素在萌芽时期微小,常常被忽略,管理部门若对舆情的苗头判断不准确、反应不敏感,易造成舆情的危害性恶化升级,带来不可预料的后果。应把握社会时代脉搏,利用科技创新方法构建网络大数据、网络舆情智能辅助决策系统,各级政府部门已逐步提上日程。

1    智能决策系统层次划分

智能决策系统由底向上可以分为:原始数据层、数据处理层、知识分析层、智能服务层。基于统计学习的模式识别方法,充分利用海量数据完成预测、分类、识别等任务。首先,通过多种途径获取新闻、评论、微信、微博、视频等作为原始数据。其次,由于原始数据格式、模态不一致,不能直接使用,需要对原始数据进行清洗,异构数据、不同模态数据需要融合处理。因为是基于统计学习的方法,一般还要对数据标定以及划分正负样本,建立数据编码字典。再次,在知识分析层可以实现个性化特征分析、数据关联分析、潜在信息挖掘及知识语义情感分析任务。最后,系统提供的服务模式包括网络舆情引导服务、网络舆情预警服务、网络舆情应急方案服务、事件可视化分析、热点简报、专题跟踪及倾向性分析(见图1),以下具体介绍各个层次。

1.1  原始数据层

原始数据层的数据包括:(1)通过互联网获得的新闻、热点、舆论、评论。(2)通过移动互联网获得的微信、博客、微博、视频等多媒体数据。获取原始数据的方法是利用网上爬虫技术抓取所需数据。开源爬虫工具有Arachnid,crawlzilla,Ex-Crawler,JSpider等,或者用Java,Python工具自己编写。

原始数据是构建模型、制作样本的原始材料,通过对其进行预处理得到模型学习的训练样本。在自然语言处理领域,原始数据是语言学研究的内容,即语料[1-4]。语料是构成语料库的基本单元,现阶段通用做法用文本作为语料,用文本中的上下文关系作为现实世界中语言的上下文关系。

1.2  数据处理层

信息化时代,每天产生复杂、多样的海量数据。对数据进行处理是一项重要的工作,原始数据在使用之前需进行清洗和标准化。原始数据清洗内容如下:(1)根据目标任务,在语料找到感兴趣的内容,其他与任务无关的作为噪声进行清洗、去除,包括对原始文本的标题、摘要、正文等提取关键字,去除杂质词语、符号。(2)对爬取的网页内容,去除广告、标签、HTML,JS等代码和注释,以及其他与主题无关内容。

常用的数据清洗方法可以分为两类:(1)人工去重、对齐、删除和标注等。(2)规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

1.2.1  分词

文本处理分析时,需要最小单位粒度是词或者短语,所以需要对文本进行分词。中文语料文本是句子、文章摘要、段落或者整篇文章组成的一个集合。一般来说,字、词语之间有一定的联系,有上下文语义关系。

1.2.2  词性标注

为了尽量融入更多有用的语言信息,需要给文本中的词、短语打上类别标签,比如名词、动词、形容词等,称为词性标注,是一个经典的序列标注问题。对于有些中文自然语言处理来说,词性标注一般不是非必需的,比如:常见的文本分类就不用关心词性问题,但是类似情感分析、知识推理是需要的。常见的词性标注方法有:基于最大熵的词性标注、基于统计最大概率输出词性和基于隐马尔可夫模型(Hidden Markov Model,HMM)的词性标注。

1.2.3  提取特征

基于统计学习的智能决策模型时,样本数据进行预处理后,需要把分词处理后的词和短语表示成智能算法能够处理的特征向量。常用特征向量表示方法有词袋模型(Bag of Word,BOW)和词向量。

BOW不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合内,按照词语出现的次数进行统计。统计词频只是最基本的方式,TF-IDF是词袋模型的一个经典用法。

词向量是将字、词语转换成向量。常用的词语表示有 One-hot,把每个词表示为一个很长的向量,向量的维度为词表大小,其中,绝大多数元素为0,只有一个维度的值为1。另外,Google团队的Word2Vec,主要包括Skip-Gram模型和连续词袋模型(Continuous Bag of Words,CBOW),以及在样本学习中使用负采样和Hierarchical Softmax方法。Word2Vec词向量可以较好地表达不同词之间的相似和类比关系。同时,还有Doc2Vec,WordRank和FastText等词向量的表示方式。

特征选择在文本处理任务中,特征向量占据首要地位。构造好的特征向量,是要选择合适的、表达能力强的特征。文本特征一般都是词语,具有语义信息,找出一个特征子集,仍然可以保留语义信息。通过特征提取找到的特征子空间,将会丢失部分语义信息,特征选择更多地依赖于经验和专业知识。为了更好反映客观现实,通过迁移学习方法把词向量映射到连续的高维空间,在这个高维空间,意思相近的不同单词具有相近的向量表征。当特征学习好时,也就建立了向量的编码词典。

1.2.4  多源信息融合

多源信息融合主要包含文本、圖像和语音3种模态。多模态情绪识别的核心挑战是如何更好地对模态内部的信息以及模态之间的交互作用进行建模。模态内部的信息挖掘,主要是将各模态信息独立于其他的模态信息进行单独处理,以提取模态内部的有用信息。与之对应的,是模态之间具有交互作用的信息,情绪的表达通常是通过语言、视觉和声学行为之间的相互作用共同完成的,如何准确捕捉三者之间的联系至关重要。

1.2.5  异构数据处理

通过不同的方法得到数据,在进行目标任务的建设过程中,由于不同系统建设和实施数据处理的阶段性、技术性等因素影响,在发展过程中积累了大量采用不同存储方式的原始数据,包括采用的数据存储格式也大不相同,从简单的文件数据库到复杂的网络数据库,从而形成了异构数据源。数据源异构性主要表现在:(1)系统异构。(2)模式异构,即数据源在存储模式上的不同。(3)来源异构,即企业内部数据源和外部数据源之间的异构[5]。

1.3  知识分析层

根据海量数据,利用模式学习的方法完成相关目标任务,包括:个性化特征信息分析、数据特征关联分析、数据潜在信息挖掘、知识语义情感分析。

1.3.1  个性化特征信息

针对个性化特征,精准确定用户兴趣取向。人们在海量数据网络中无法及时找到有效的信息,而模式学习方法可以帮助找到个性化信息,推送能够筛选相对具有有效性和相关性的信息。个性化特征信息有利于受众获取感兴趣的信息内容,减少受众必须亲自在海量信息中筛选有效信息所花费的时间,提高时效性上、空间上的精准。注重用户群体的精准,建立有效的用户反馈机制。

1.3.2  关联分析的方法

关联规则是隐藏在数据项之间的关联或相互关系,根据一个数据项的出现推导出其他数据项的出现。基于关联规则的数据挖掘方法包括两个步骤:首先,从海量原始数据中找出所有的高频项目组合;其次,根据自定义阈值,从这些高频项目组合筛选出关联关系。关联规则挖掘技术已经被广泛应用于互联网大数据行业应用中,以预测客户的需求。

1.3.3  知识语义情感分析

通过特征向量的学习来识别出模态情绪。具体而言,将文本信息输入通过私有的双向长短期记忆网络(Long-Short Term Memory,LSTM)层进行编码,以学习模态内部的变化信息。把整个网络中学习到的多个模态的内部信息和模态之间的交互信息进行融合,以获取最终的情绪信息。模态情绪识别作为多模态情感分析的一个基本任务,结合了语言信息去分析人们所表达的情感,现已成为了一个热点研究课题。

情感分析的任务涉及的主题较多,一般是利用自然语言处理技术识别如评论中正向或者负向的情感等,或者是通过语音分析、写作分析得到情绪判别结果。开始的时候可以用LSTM模型与词向量模型一起,数一数句子中正负向情感词的个数得到。

以上是基于统计的模式学习方法,通过处理原始数据得到特征向量后,作为目标任务的训练样本。根据具体应用需求,选择合适的学习方法训练模型。传统的有监督和无监督等模式学习方法,如SVM,Na?ve Bayes、决策树和K-means,KNN等模型。除了传统的方法,当前研究比较热的深度学习模型在自然语言处理方面良好的表现,比如卷积神经网络、递归神经网络、LSTM,Seq2Seq,ELMO,BERT等新的模型。

1.4  智能服务层

服务层是应用系统的位于整个系统的最上层,根据需求可以提供以下几种服务。

1.4.1  网络舆情引导服务

主流媒体舆情引导力量不足、引导方式单一、社会媒体自身道德素养有限等,使网络舆情更加难以控制。因此,政府应对症下药,尽快增强主流媒体的力量,掌握引导舆情的话语权和主导权,规范主流媒体,端正舆情引导态度,创新舆情引导方式,凝聚舆情引导力量,发挥社会媒体作用。

1.4.2  网络舆情预警服务

按照评估规则进行确定舆情发展状态警告。按照严重程度,将突发性事件的网络监控预警划分为4个等级,分别对应舆情的危机程度:轻量级(蓝色)、中度警级(黄色)、重警级(橙色)和特重警级(红色)。

1.4.3  网络舆情应急方案服务

需要构建一个相对全面的应急预案库,根据可能出现的舆情危机事件制定相应的预控措施;建立灵敏的应急辅助应对系统,根据预警等级选取已设定的相应预案,启动一定级别的应急状态,科学地处理可能演变为舆情危机的舆情信息。

1.4.4  可视化分析和热点简报

数据可视化旨在借助于图形化手段,清晰、有效地表达数据特征及其多个维度的内在联系。通过可视化往往可以直观地发现关键的信息与特征,从而实现对于复杂的数据集的深入洞察。热点简报可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出指定时间段内的热门话题。

1.4.5  专题跟踪及倾向性分析

专题跟踪及倾向性是指对新发表的文章、帖子等进行处理,分析是否与已有相同主题。针对每一话题、对文章发表的每一读者的观点及其倾向性进行分析,并将其进行统计。

2    结语

在社会稳定网络舆情频繁发生的现实背景下,本文详细介绍了以统计模式学习方法构建的智能决策系统一般框架。深度学习方法还未成熟,仍有大量的工作需要研究,但其展现的强大的学习能力和泛化能力表明,随着研究的深入,深度学习将在决策系统的应用会不断完善和增强。

[参考文献]

[1]吴健超.大数据条件下我国政府网络舆情监控研究[D].大连:大连海事大学,2017.

[2]陈丽.政府网络舆情预警机制研究[D].南京:东南大学,2016.

[3]周洋易.大数据背景下网络舆情预警研究[D].武汉:武汉理工大学,2018.

[4]凌洪涛.第01课:中文自然语言处理的完整流程[EB/OL].(2018-06-26)[2019-09-10].https://blog.csdn.net/dongdouzin/article/details/80814037.

[5]佚名.异构数据库、异构数据源、分布式数据库三者的辨析[EB/OL].(2015-01-13)[2019-09-10].https://blog.csdn.net/u011546871/article/details/42672889.

猜你喜欢
网络舆情
新媒体环境下网络舆情预警体系研究
试论高校大学生网络舆情引导方略
网络舆情编辑能力构成因素浅析
数据挖掘技术在网络舆情管理中的研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考