张盛然 赵恩兴
摘 要:随着互联网技术的飞速发展和使用人群的快速增加,越来越多的人群通过互联网来表达自己观点。网络舆情作为社会舆情的网络反映,成为社会舆情的最主要的构成之一。如何对舆情的情感倾向分析,并正确引导舆情,给政府和企业带来了前所未有的挑战。针对网络一些舆情,引入一套基于Python爬虫,设计数据抓取算法。建立情感字典,主要基于Hownet基础情感字典、互联网网络情感字典表情符号情感字典3类。在此基础上进行相关的情感监测与倾向分析,对政府和微博意见主流之间的微分博弈进行Stackelberg 均衡判断同一个话题用户评价的正向积极的比例。最后根据政府是否实施合理管控后对舆情的发展趋势进行对比判断。
关键词:网络舆情;情感字典;微分博弈
一、Python爬虫
建立的舆情数据抓取模型基于其爬虫技术。在垂直领域获得舆情数据或有明确的舆情导向需求时,过滤掉无用的数据并挖掘有价值的舆情信息。网络爬虫是一种从互联网抓取数据信息的自动化程序。对各种异常进行相应处理与应对、错误重试等系列操作,使得爬取能够可持续高效的运行,最后形成一个互联网内容的镜像备份。首先对要爬取数据界面,获取网页的源代码,采用正则表达式提取信息。根据网页节点属性、CSS 选择器或XPath来提取舆情网页信息的库,如 Requests、pyquery、lxml等,高效快速地从中提取网页舆情信息。最终将其保存为 CSV 格式文件。由于 HTTP 协议是无状态的,而服务器端的业务必须是要有状态的。通过获取服器端生成的Cookie,以key/value 保存到制定目录下的文本文件内,添加在请求头部。具体实例选取了微博作为对象,针对微博热门话题、微博热门评论和微博热门用户3部分进行舆情信息抓取,其中针对微博热门话题,设计抓取了用户 ID、用户名、转发数、评论数、点赞量、发表时间、来源设备;针对微博热门评论,设计抓取了评论时间、用户 ID 、用户名、评论内容、用户年龄、用户性别、用户所在地。
二、舆情信息筛选模型
在提取了网民评论的特征向量时,建立特征向量空间的训练集。SVM 具有根据有限样本找到最优解的能力,能够避免神经网络中的局部极值问题而得到全局最优点和高维特征处理能力。选择支持向量机作为区分舆情筛选的分类器。最后利用最佳分类参数所构成的超平面对待所测文本中的特征向量进行判别。特征空间中线性可分,然后再利用线性分类进行求解,即非线性分类是建立在线性分类基础上的。构建SVM支持向量机的过程一共分为5部分。分别为获取语料库、文本分词处理、构建特征向量、算法设计和生成分类器模型。
三、情感字典建立与情感分析
在建立舆情控制模型前,首先需要判断舆情的情感倾向。通常情况下,情感是对外界事物是否满足自己的所需从而产生的态度体验。其核心部分由一系列情感词和情感短语以及它们的情感极性和强度组成。然而,现有的情感词典并不适用于最新的情感分析。用户经常使用非正式的新词,如“好飒”,“ 666 ”等词汇。这些用于传达了丰富的情感信息,对情感分析尤为重要。因此首先针对目前主流的网络讨论平台建立特定的情感词典,主要可以分为正面情感词典、负面情感词典这两类。避免了人工检测和注释等方法的成本高,耗时长的弊端。建立的情感成本字典主要分为 Hownet 基础情感字典、互联网网络情感字典表情符号情感字典、程度副词情感字典和否定词情感字典 5 种。根据董振东教授所建立的知网体系,建立Hownet基础情感字典;互联网飞速发展随之产生了许许多多的网络词汇。这些新兴词汇具有精简且口语化的特点。与传统词汇不同但却体现很强烈的感情色彩,汇集的网络新词主要来源于网站“小鸡词典”,整理出该网站中网络词汇及其词汇释义 3562个,通过将爬取下来的词汇与其释义转化,构建互联网网络情感字典;网络用户倾向于利用表情标记来表达或加强自己的情感表达,因此,通过整理将表情符号的“[]”去除后,提出其中的汉字,并将提取出的汉字与之前构造的情感词典匹配。结果得到正面表情标记 70个,负面表情标记 85个。最后将得到的表情标记分别加入本文的舆情正面情感词典与负面情感词典。
四、基于微分博弈模型的舆情控制方法
在分析舆情传播中,本文主要以重大話题或突发事件来进行研究分析。当话题热度足够时,传播的速度趋势也会较之其他话题更加明显。通常政府在突发事件的应急管理中占据主动地位。政府先采取措施和行为,而微博的舆论主体根据政府的行为和制定的措施与政策来选择自己的舆论策略和期望要求,微博意见主流在做出决策之前,是能够预先了解政府的行为和制定的政策与措施的。由此可知,政府与微博意见主流之间存在一个不完全信息动态博弈,同时,政府能够了解微博意见主流的舆论策略和期望要求。政府和微博意见主流之间的微分博弈存在一个Stackelberg均衡。
五、基于线性加权的舆情等级处理
使用线性加权和法作为网民评论的舆情评价函数,对于每一个舆情目标赋权系数,权系数取决于当下舆情目标的重要性觉得,使用之前对舆情信息模型进行筛选和舆情数据抓取模型进行数据爬取,整理得到数据集后,按各目标的重要性赋予它相应的权系数:一共选取共5个热门话题,输入变量为舆情传播时间(根据发表时间进行计算)、规模量(评论数、点赞数、转发数)、情感得分(由评论计算获得)、评论地区(主流一线城市与其它城市)。通过对这六个变量进行线性加权计算得到舆情综合得分,并进行舆论分级划分。
六、结语
支持向量机具有完善的理论基础,具有鲁棒性好,适应性强和全局优化的优点,被广泛用于小尺寸和高尺寸样本的目标模式识别。SVM 理论提供了一种避免高维空间复杂性的方法,可以直接使用该空间的内积函数(它是一个核函数),然后在线性可分性的情况下使用求解方法直接解决高维空间的决策。相应的高维空间问题。当内核函数已知时,它可以简化解决高维空间问题的难度。同时,支持向量机基于小样本的统计理论,这与机器学习的目的是一致的。本情感分析过程中,发现情感词典是最重要的资源。可以通常对结果和相应的分析产生决定性的影响。但是很难构建一个适合所有领域的通用情绪字典,因为情感词通常只适用于它所适用的领域。因此可以针对不同领域进行情感词典的推广,这当在不同的情况下使用时,修改模型的舆情情感词,可以使情感词可以有相反的表达,从而适应不同的话题领域。
参考文献:
[1]汪兰兰. 基于anaconda环境下的通用微博评论抓取算法. 电子世界,2020,第24期
[2] 李一啸,罗春华. 标签与情感性对政务微博网民参与度的影响研究. 知识管理论坛(网络版),2019,第6期
[3] 陈艺扬,郭子雄,何文. 基于Python的信息采集系统的分析与设计. 精品,2018,第7期
作者简介:张盛然(2001-),男,安徽省亳州市蒙城县人,本科,研究方向:数据挖掘,机器学习。赵恩兴(2001-),男,安徽省合肥市肥东县人,本科,研究方向:数据挖掘,机器学习。
基金项目:宿州学院省级大学生创新创业训练计划项目资助。