■何 静
网络舆情是在一定的社会空间内,围绕各种事件的发生、发展和变化,通过互联网传播的人们对该事件的所有认知、态度、情感和行为反应倾向的集合,包含了网络舆情主体(网民)、客体(诱发舆论的事件)和本体(网民意见、情绪等的集合)三个层面的内容。网络的开放和便利、大众新闻意识的苏醒和提高、网络媒介作用的普及和深化,促进网民获取信息的途径更加多元、网络信息传播方式更加便捷、网民情绪扩散范围更加广泛,往往仅需一个触及点,便会引爆整个民间舆论场。实时监测和分析网络舆情对大量突发和群体性事件的风险具有一定的规避作用。
信息量庞大的互联网环境下无效或有害的信息制约着网络化进程,及时把握、准确判断技术发展及其在舆情工作中的应用,可以科学合理地把握网民对于时事热点的政治意见和文化倾向,有针对性地对网民的社会态度进行引导,形成良好的社会风气。大数据技术和人工智能为网络舆情的研究提供了有效的解决思路,以下是从信源模块(数据获取)、清洗模块(数据处理)、特征模块(数据分析)、预测模块(数据挖掘)、展示模块(数据可视化)五个层面对网络舆情的监测与分析进行相关技术的梳理。
舆情监测是基于全网主流平台(微信公众号、QQ 公众号、微博、视频、新闻网站、论坛社区等)的公开数据,通常可以将这些数据分为主帖数据(标题、正文、作者、网站名称、发布时间、原文出处等)、评论数据(评论内容、评论用户、评论时间等)、转发数据(转发内容、转发用户、转发时间等)、动态数据(发帖数、阅读数、点赞数、转发数、评论数、粉丝数等)及属性数据(账号认证信息、注册时间、账号等级等)。
数据采集与大数据采集的层级并不相同,通常数据采集方式包括Excel、关系型数据库(MySQL)及各类圈选采集工具(后羿采集器、八爪鱼、火车头、WebScraper等),这类基于人工抓取的互联网数据采集方法,更多是一种抽样式的研究模式,受研究人员个体影响较大。大数据采集还包括Python、Java、php 等爬虫框架,爬取的数据量级和效率出现了质的变化。另外,大数据平台也提供通过关键词获取互联网数据的方案,不仅实现了通过技术手段全天候、自动化地获取特定事件的舆情信息,同时尽可能多地保留全面且原始的数据信息,以避免因抽样、研究人员自身原因带来的数据误差,使舆情监测结果更加准确。
实际获取的数据通常是原始的,包含不确定值、异常值、缺失值或不匹配的数据记录。因此,进行舆情信息分析前,必须对原始数据进行处理,其结果质量直接关系到模型效果和最终结论。
通常数据清洗路径分为:预处理阶段(数据导入/数据抽取/数据查看)、缺失值清洗阶段(确定/去除/补全/重取缺失的数据)、格式内容清洗阶段(去除/修改格式和内容错误的数据)、逻辑错误清洗阶段(去除/修改逻辑错误的数据)、非需求数据清洗阶段(删除不需要字段)及关联性验证阶段(验证/调整不同来源的数据),在传统方法中,主要问题是处理结构化数据,可以使用Excel(常用函数、透视表)、SQL(增删改查)等工具,大数据清洗还包括Python、HQL、Hive 等脚本或框架,大数据生态架构Hadoop 则专注于处理文本、视频、音频、Facebook 帖子、日志等半结构化及非结构化数据。进行清洗后的舆情数据,避免了一个网页含有多个链接、同一内容使用不同链接、同一内容多平台发布等情况。
特征模块决定了前期获取和处理后的数据是否能得到有效利用,通过新建特征模块,基于全文匹配、主题匹配或标题匹配,可按照“权重降序”“热度降序”“时间降序”和“时间升序”进行数据浏览。随着网络舆情数据量的增多,难以使用人工分析法获取数据的整体情况,如何围绕舆情大数据进行分析与解释是舆情监测与分析的关键,直接影响着数据分析的质量,也决定了舆情信息的价值。
网络文本分析与自然语言处理是舆情信息分析的核心技术,尽管本质不同,但不同程度上相互交叉。网络文本分析涵盖了信息抽取、信息检索、计算语言学、统计数据分析、机器学习及图论等多学科领域知识,通过提取网络文本,进行分类、聚类、关联分析及语义分析等步骤操作,实现舆情统计、舆情走势、热门公号、网民观点、媒体分布、信息分布、认证类型等多方面的舆情监测功能;自然语言处理将语言学、计算机科学、数学等学科融于一体,以词性标注和命名实体识别描绘网络热词与聚集观点,以舆情信息抽取及知识库生成评估风险与节点预警,实现人与计算机之间用自然语言进行有效通信的各种理论和方法,帮助用户搭建关系提取、内容搜索、内容推荐、对话机器人、情感属性识别、敏感舆情发现等智能框架。
海量舆情数据中通常包含隐藏的规则和知识,可以直接应用到预测。但信息数据海量化,如何挖掘这些知识规则以形成价值信息是个难题。监测信息来源、追踪舆情动态,是信息挖掘的前提条件,在此基础上,通过统计学、人工智能、机器学习等方法输出模型或规则,寻找舆情信息中的未知模式与规律。
数据挖掘常见的模型包括监管学习模型中的决策树算法、神经元网络、svm 算法、贝叶斯算法,非监督学习模型中的K-means 聚类、层级聚类算法、谱聚类算法、神经元网络SOM,以及半监督学习模型中的逻辑推理算法、拉普拉斯svm 算法、分词模型、多角度算法等数据洞察模型。事理图谱对挖掘动态事件信息及逻辑关系、认识客观世界发展规律和助力领域智能应用有着重要意义,基于常识知识库资源构建、统计脚本学习、事件顺承关系抽取、事件因果关系抽取、知识表示学习和网络表示学习描述事件之间的顺承关系、因果关系、条件关系及上下位关系,并以结构化的图形式表示充分刻画网络舆情的演化关系,补充了通用型知识图谱关于事件类型实体的知识缺失,适用于基于事理图谱的知识问答、基于事理图谱的消费意图识别、基于事理图谱的重要新闻判别与推荐、基于事理图谱的知识管理、基于事理图谱的推理与辅助决策等应用场景。
值得注意的是,舆情的预测结果应当具有主动性,网络舆论态势监测预警指数体系(包括整体态势监测指数和风险预警指数两大维度)的构建通过宏观层面的态势感知,以及微观层面的事件风险预警推送,全方位评估网络舆论生态的稳定性、可控性和风险性,可为相关部门采取调控措施提供决策依据。
数据结果的呈现是舆情监测和分析过程的“最后一公里”,直接影响着整个舆情研究的最终效果。网络舆情监测与分析的最终目的是为决策部门提供更加科学、有效的依据,因此,数据的表达和呈现以直观、简洁、清晰为主。
数据分析的可视化展示来自于Office 自带图表、BI 工具(Power BI、Tableau、QlikView)、各类在线可视化平台等,大数据分析的可视化展示还来自Python、基于JS的可视化工具。展示模块宏观上可以表明整个舆情演化的时空状况、热度衰减,微观上也可以分析每一个舆情事件的主体、客体及关联事件,被广泛地应用于屏幕显示和平面制图中。常用的舆情数据可视化方法包括区域空间可视化、颜色可视化、图形可视化、面积及尺寸可视化及抽象概念可视化,呈现折线图、词云图、散点图、热力图、像素图及径向图等展示形式,这些形式可以单独呈现,也可以任意组合,构建成新颖的可视化表征手段。
大多数现有的可视化设计经历了持久的演变、改进和标准化过程,如何更好地呈现舆情事件以增强和放大推理?这需要我们更好地掌握可视化展示方式的优缺点。例如:使用图标法的最常见缺点之一是在大多数映射中存在隐式偏差(即,某些图形特征或特征之间的关系比其他特征更易于感知),并且,分辨率极高的视觉编码通常是有限的,易造成过度绘制;尽管词云图展现属性信息时更引人注目,但相同大小的词汇很难比较,人眼通常不擅长于分辨区域或词汇的大小。并且越长的词汇需要越多的空间展示,因此看起来涉及权重大小的词汇实际上他们是一样的……目前,舆情可视化监测平台已覆盖舆情监测、分析、预警、报告全流程服务场景,在内容管理、媒体大数据挖掘、融媒传播效果分析等功能方面进行了特色展示和创新融合。
同步于互联网技术的迅速变革,网络舆情的监测与分析技术也在高速发展、更新,必然导致传统的网络舆情监测和分析方法渐渐不能满足实际需求,因此,技术手段和技术装置将不断有新的呈现及旧的迭代。信源模块和清洗模块中,高维度、多属性、多模态的数据获取及处理成为常态;特征模块和预测模块中,数据分析及挖掘角度不断丰富、方法不断增加;展示模块中,虚拟现实技术持续植入、可视程度持续提高、同时预警结果的推送更加精准,及时性、全局性、动态性调整网络舆情监测与分析理念提供解决方案,提升网络舆情治理的规范程度,而不仅仅依靠技术进行“大一统”,是舆情研究人员的重要一步。