基于隐性数据分析的热点舆情监测与应对策略研究

2018-02-23 03:58邹丁玲段峰峰
新闻研究导刊 2018年3期
关键词:隐性舆情检索

邹丁玲 段峰峰

(1湖南师范大学 新闻与传播学院,湖南 长沙 410081;2湖南省社会舆情监测与网络舆情研究中心,湖南 长沙 410081)

一、隐性网络舆情数据及应用

网络舆情通常是指一定时间内在网络上传播的关于某一特定社会问题的所有评论、观点、意见的集合。这种集合体现了评论者的情感倾诉,其外延较传统媒体中的舆情更加宽广,具有自由性、互动性、广泛性、隐匿性、突发性等特点。在公共事件发生前后,网民在社交媒体平台上进行互动、发表言论,产生网络舆情信息,这些信息直接呈现了网民的想法、意见、态度和情绪,可被称为显性舆情数据。还有一些数据并没有表现出与舆情直接相关的热点言论、情感倾向,但从侧面客观反映了网民的关注焦点和兴趣点、网络舆情主体关系等方面的隐藏内容可被称为隐性舆情数据。

当网络用户出于对某公共事件的关注和兴趣,去搜索和浏览与之相关的信息时,会在服务器端口、搜索引擎后台或客户端上产生相应的搜索历史和浏览足迹,形成搜索日志。这些信息中记录了用户的IP地址、搜索词、浏览时间、网页URL地址等数据,即隐性的舆情数据。数据量的多少能反映网络用户对该关键词所代表事件的关注程度,通过从中统计和分析用户的搜索词和搜索频率,可发现某地区、某时间段内的隐藏热点。[1]许多网站或舆情分析系统推出的“舆情热点排行榜”即属于该方面的应用。

目前,一些搜索引擎公司已经研发了借助搜索历史和浏览足迹等隐性数据去发现和挖掘网络舆情的技术和应用。例如,谷歌公司开发的“谷歌趋势”(Google Trends)就是一款基于搜索日志分析的应用产品,它有两个功能,一是查看关键词在谷歌的搜索次数及变化趋势,二是查看网站流量。[2]它能统计出某个关键词在一定时间段内、在某个地区被搜索的次数,再将其与谷歌搜索引擎后台随时间推移的搜索总量及当地的搜索总量相对比,得出该关键词的“相对搜索指数”,然后将较长一段时间统计的该关键词的相对搜索指数描绘出来,以此预测未来趋势。该应用一个较为著名且成功的例子是“流感趋势”。实践中设计人员提前编入一系列与“流感”相关的关键词,如“流感感冒”“温度计”“发烧”“咳嗽”“流感应该吃什么药”等,随后对全球20多个国家的网络数据进行监测,只要用户输入这些关键词,系统就认为可能与“流感趋势”相关,继而追踪、分析并做出相对搜索指数图。通过观察较长一段时间以来指数的变化情况,来预测未来趋势,进而提供流感发病率的预测报告。谷歌的“流感趋势”能比美国疾病控制中心提前7~10天公布相关的流感预报,在测试阶段就表现出良好的预测效果,且“流感趋势”的预测数据与官方公布的预报数据高度吻合,显示了基于隐性数据进行舆情预测的前瞻性和准确性。

二、隐性网络舆情数据的获取和分析

(一)隐性舆情数据获取的可行性和挑战

传统数据时代,舆情分析的首要步骤是从最具舆情代表性的有限数据集入手。例如,百度作为国内第一大搜索引擎运营商,从后台数据库中可以提取出每一个搜索词的对应搜索量,在社会舆情分析层面,其所指对象通常是从海量搜索数据中截取的最具舆情代表性的有限数据集,借此反映社会关注的基本面或新闻事件的社会关注度,较为粗略地刻画出中国的“舆情地图”。[3]这在本质上是通过部分抽样舆情信息来反映社会整体舆情状况,难免存在偏差。

大数据时代不再如传统数据时代需要通过抽样获取舆情信息以代表整体的处理方式,网络技术手段已可以支持通过普查方式来全面覆盖处理海量的网络数据,这也为隐性舆情数据的挖掘和发现提供了可行性和技术支持。然而在实际操作中,虽然不必再担心抽样方式带来的偏差,但是需要谨慎考虑数据源本身是否存在偏差,即全面的普查数据可能含有噪音,如不能有效排除,则容易高估算法的精确度,影响舆情分析结果的准确性。同时,由于大部分数据处于孤岛状态,在整合处理时,若无法准确忽略冗余数据信息和整合有效数据信息,也易导致结果的偏离。因此,“让数据自己说话”的结论是不完整的,数据源需要得到筛选和清理,才能避免潜在误差。[4]由此可见,对于隐性舆情大数据而言,数据的价值不仅体现在大小上,更体现在利用创新性的数据分析方法,克服和避免数据离散与结果偏差,去挖掘和分析隐性数据信息的潜在价值,这样才能帮助我们更好地观察网络舆情的全貌。

(二)隐性舆情数据的检索与获取

隐性舆情数据不仅分布广泛和隐蔽,而且数据的形式和组织方式也较为复杂,而跨媒体搜索理论和技术的不断发展及完善或可为隐性舆情数据的检索与获取提供一定的创新思路和方法。

1.基于语义识别理论的语义文法。该方法是通过定义各种文法规则,将文法规则赋予语义,然后使用语义文法来描述网络舆情文本的句子结构及语义信息,可直接从分析结果产生语义解释。因此,语义文法是对网络舆情文本进行精准语义识别的依据,也为跨媒体隐性舆情数据的语义相关性研究提供了理论基础。例如,多文档自动摘取技术,对页面上的内容进行过滤,可基本实现对隐性文本舆情的筛选和重组。[5]

2.网络爬虫技术。该技术是一种按照一定的规则自动地抓取万维网信息的程序或脚本,是获取舆情大数据的主要手段。按照系统结构和实现技术,网络爬虫大致可分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。不同网络爬虫各有优势与不足,实际的网络爬虫应用系统通常是几种爬虫技术相结合实现的,可实现自动爬取网页获得舆情信息或者直接从网页中抽取目标舆情信息,对于隐性热点舆情数据的检测和获取具有重要意义。

3.内容检索技术。一个舆情事件中所涉及的舆情数据,既有结构化的文本、数字,也有非结构化的图像、音频、视频。根据其特征,需要从基于内容的图像检索、音频检索和视频检索研究中着手。其一,图像检索按照技术发展情况看,一类是基于文本的图像检索,即通过对图像的标注和环绕文本来了解图像的内容,进而进行检索,如谷歌、百度等主流的搜索引擎目前都是采用TBIR(Text-based Image Retrieval)提供服务的;另一类是基于内容的图像检索,主要通过特征提取和相似计算来实现。其二,音频检索分为两大类:一是基于人工产生信息的音频检索,指利用人工产生的信息,如标题、艺术家信息、标签、关键词、时间、用户评价等查询;二是基于内容的音频检索,利用音频信息的幅度、频谱等物理特征,响度、音高、音色等听觉特性以及音频类别和语义等特征进行检索,能够有效且快速获得用户所需的音频资源。例如,各大音乐平台推出的“听歌识曲”功能即是基于内容的音频检索技术的体现。其三,视频检索,需要对视频进行结构化处理,将视频按照其结构组成进行分割,形成基于图像帧的可分析单元,再抽取显著的特征,如颜色、纹理、形状、运动等,来描述视频内容的视觉信息。例如,美国哥伦比亚大学图像和高级电视实验室开发的VisualAeek即提供了一套供人们在Web上搜索和检索视频的系统。

(三)隐性舆情数据的分析

1.信息采集。舆情数据分析的首要任务是基于舆情数据检索和获取技术从网络平台上获得相关的舆情数据。在此过程中,不仅要抽取舆情相关的页面,还要过滤重复界面和噪音,同时重视隐性舆情数据信息,即用户在服务器端口、搜索引擎后台或客户端上留下的搜索日志等。[6]

2.信息预处理。在进行数据挖掘工作之前,先对原始数据做必要的数据清洗、集成、变换、归约等一系列处理工作,以达到挖掘算法进行知识获取所要求的最低规范和标准。网络舆情信息的预处理主要分为两个过程:一是词项处理,包括文本分词、词性标注、停用词过滤等步骤,剔除一些不具备分析价值的信息;二是关键特征提取,即对可以代表信息内容的关键词加以提取,减少系统负担,提高分析效率。经过预处理后的数据信息将存入数据库,以备调用。

3.话题识别。目前各类网络平台的信息发布和传播非常迅速,急需在海量和急速增加的各类信息中区分和识别舆情相关信息。该步骤的目的是将舆情大数据的内容归入不同的话题类别,并在需要的时候建立新的话题,通常借助聚类分析算法完成。聚类分析一般先将舆情数据进行向量化的表述,目的是将自然语言转化为机器可以理解的形式;然后选择聚类算法,根据不同算法在功能上的差异,可选取适用算法,加强对隐性舆情数据的辨别。

4.结果反馈。通过对隐性数据中的关键词情感属性判别、敏感词分析,形成情感烈度,识别出隐性舆情热点和潜在热度,作出舆情预警,并由此总结出针对不同情况的舆情疏导策略。

三、隐性热点舆情应对策略

(一)引入人工在线实时内容分析进行隐性热点识别

通过借助舆情系统和技术,来检索、获取、处理和分析舆情数据,最终得到和掌握的一般为单变量数据。然而,在舆情研究中,多变量之间的关系和差异是社会实证研究的核心,这包括数据相关关系的建立、舆情主体关系的发现、公共事件的因果关系和解释力。因此,分析和挖掘隐性舆情热点,还应引入人工分析处理机制,才能为其寻找更深层次的解释。在对隐性舆情数据的处理和应对中,人工舆情分析和处理应以人机结合为核心理念,注重大数据技术与人工在线实时内容分析的互动和促进关系。在大数据技术框架下,可进行网络舆情信息的快速挖掘和自动化分析处理,而人工在线内容分析则能完成深度识别、辨析、挖掘和解释舆情间差异和关系的任务。[7]人工在线实时内容分析,以社会科学研究中的内容分析法为理论依据,结合编码员之间的信度,建构线上内容分析流程和机制,流程主要包括准备阶段、编码、质量控制和结果呈现等,以此来有效加强监测、分析和识别隐性数据和热点舆情,提高精确度和严谨性。

(二)优化隐性热点舆情数据的可视化反馈

在完成跨媒体隐性舆情数据的检索、分析和热点识别后,应研究针对不同类型舆情信息的可视化方法,对所凝练和萃取的数据进行呈现和反馈。大数据技术与可视化分析技术相结合,可为隐性舆情数据的监测和隐性热点的展示构建起全新的框架。隐性舆情大数据的可视化研究,主要是数据图形化。通过抽取线性关系中的关键词,并按照一定的规律、标准用整齐美观的图形界面呈现出来,这种静态表示方法可分为关键词引导布局、地图布局、环状布局、时序布局等不同方式,具有可灵活扩展、展示手段与数据分离、细节提示、叠加显示的特征。同时,舆情层次数据的可视化,主要是信息层次化,即通过建立自下而上或自上而下的顺序结构、层次结构、网状结构进行可视化区域展示。[8]

(三)实现隐性网络舆情数据情感倾向精准分析

舆情热点的爆发往往集中在微博、朋友圈、社区和网站等自媒体平台,因此目前对于网络舆情信息的情感倾向分析仍然主要集中在文本载体之上。[9]文本倾向分类是对文本作者的态度、观点、情感等信息分类,能为舆情治理提供依据,促进舆情信息朝着多角度、立体性方向前进。有学者提出情感词语加权、语义模式分析、普通文本分析等方法,思路大多是对文本内容进行检索,计算情感色彩词,与情感词库中的词汇进行比较分析,并引入相关句式规则以便确认情感属性,最后统计所有感情色彩信息。并且,通常认为表达情感色彩的词元越多,文本的情感色彩就越强烈。对于隐性舆情数据而言,不仅要分析其文本情感倾向,更应注重间接关键词、隐晦情感词、搜索和浏览次数等信息。

(四)建立跨媒体隐性舆情大数据预警机制

当出现某个支持度较高的话题,或当话题呈现出焦灼的争论状态,或当网络舆论对某个舆情事件表示反对或焦虑时,应考虑综合自动化系统检索及分析与人工实时分析相结合。一是分析网络舆情热度影响因素,建立指标体系。在海量数据中,自动发现隐藏热点,并对它们进行提前分类。二是进行热点跟踪定位。把网络环境下的舆情事件看成一个动态的发展过程,把握其当前状态和未来趋势。三是开展敏感信息监控。评析舆情分类的结果,结合当前的宏观情况,自定义危机词组,生成舆情预测报告。四是设计舆情预警规则。根据舆情信息、相关人员信息、舆情所处阶段、热度和网民倾向,可将预警分为若干个等级,用不同色彩表示,计算某一个舆情事件的得分情况,输出相对应的色彩。

四、结语

在对舆情危机进行分析、预测和处理中,显性数据信息分析往往是主要依据,也是常采用的方法。然而随着互联网和移动互联网内容复杂性的增加,以及舆情信息隐蔽性的提高,隐性数据信息的价值日趋重要。对隐性舆情数据的充分利用有利于更好地实现舆情精准预测,为舆情危机的预警和应对提供更加科学、有效的方案,从而实现舆情危机的引导和化解,促进健康网络环境的构建。

[1]喻国明.大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009-2012)的舆情模型构建[J].中国人民大学学报,2013(5):2-9.

[2]Google趋势[EB/OL]. http://www.google.com/trends,2013-04-26.

[3]唐涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014(3):3-6.

[4]维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:37-43.

[5]张耀之.网络舆情语义识别的技术分析及识别流程构建[D].吉林大学,2016.

[6]张荣显,曹文鸳.网络舆情研究新路径:大数据技术辅助网络内容挖掘与分析[J].汕头大学学报(人文社会科学版),2016(8):111-121.

[7]陈雪刚.基于大数据技术的微博舆情快速自聚类方法研究[J].情报杂志,2017(5):113-117.

[8]喻国明,李彪.当前社会舆情场的结构性特点及演进趋势——基于《中国社会舆情年度报告(2015)》的分析结论[J].新闻与写作,2015(10):37-40.

[9]丁媛媛.基于时间序列的微博热点话题识别与追踪[D].西安科技大学,2017.

猜你喜欢
隐性舆情检索
让“隐性课程”会说话
浅析书籍设计中的“隐性”表现
论高中语文隐性知识教学策略
消费舆情
舆情
舆情
利用“隐性”圆,巧解一类题
专利检索中“语义”的表现
舆情
国际标准检索