雍 熙 ,华 东 ,魏旭强
(1.水利部信息中心,北京 100053;2.北京数梦工场科技有限公司,北京 100089)
1762年,卢梭在《社会契约论》当中首次把“公众”和“意见”2 个词联系起来,借此表达大众对社会性的公共事务的看法,即“舆情”[1]。舆情是民众关于社会中各种现象和问题所表达的信念、态度、意见、情绪等表现的总和,是现代国家治理的重要内容。2019年1月25日,中共中央政治局在人民日报社就全媒体时代和媒体融合发展举行第 12 次集体学习,表现出党对新闻舆论工作的高度重视。
随着因特网在全球范围内的飞速发展,根据中国互联网络信息中心(CNNIC)发布的第 48 次《中国互联网络发展状况统计报告》显示,截至 2021年6月,我国网民规模为 10.11 亿人,其中手机网民占比达 99.6%,互联网普及率达 71.6%。目前微信、新闻评论、BBS 论坛、博客、播客、微博、跟帖及转帖等涌现出的大量信息,其中不少涉及与水利相关的内容。
网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。实际上互联网已经有了类似于当代德国著名哲学家哈贝马斯所说的公共空间的性质,人们可以在其中相对自由的交谈和辩论。然而世界上没有绝对的自由,网络空间同样如此,必须要根据国家实际情况,在自由和法治之间找到合理的均衡点,网络空间同样需要合理管控。网络舆情存在广泛性、突发性、主观性、多元性等特点,因此迫切需要一套专业的工具和技术进行整理、分析。在食品安全、疫情防控、公安政治传播等领域早已进行了舆情大数据应用的尝试[2-4]。信息化建设是开展大数据舆情工作的前提条件,通过建立专门的信息系统,设计合理的人工智能和大数据算法,水利业务部门可以及时收集相关信息服务于具体业务应用,水利宣传部门可以及时应对公共突发事件,如留言传播,对民众关于涉水事件表达的意见也能及时进行沟通和互动,从而有效地引导舆情走向积极正面的方向。因此运用合理的技术手段和体系架构建设水利舆情大数据监测分析平台,是支撑水利舆情监测工作积极有序开展的重要基础。
防汛抗旱、水污染、水资源开发利用、饮水安全、节水灌溉等涉水问题往往与人民群众日常生活息息相关,许多水利工程投资巨大,施工周期漫长,直接影响到当地的自然生态、经济发展、社会生活的方方面面,因此常常引起社会各界的高度关注。2012年北京特大暴雨灾害和 2018年山东寿光洪灾都被当年的《中国互联网舆情分析报告》列入当年的 20 件热点舆情事件[5]1,2017年的嘉临江铊污染突发事件也同样引起社会各界的高度关注[6]。
我国很早就建立了水利舆情制度,历朝历代都很重视水利奏报[7]。新中国成立后,水利部门同样对舆情高度重视:1988年水利部首次设立新闻发言人;2014年水利部对新闻宣传工作管理办法予以修订,首次提出建立健全例行新闻发布制度,通过新闻发布会,经常对一些民众关心的水利问题进行发布和解答,从而为积极正确的引导舆论热点问题做出重要贡献[8]1。
水利舆情除了有一般网络舆情的普遍规律外,也有一些自身特点,如水利舆情信息量往往集中在每年6—10月的主汛期,这一时间段各种媒介中的涉水新闻会陡然增多[9]1。另一方面,水利行业由于专业化程度较高,因此也容易引起一些群众和媒体的“误读”,如 2016年4月的地下水动态月报在互联网发布后,有媒体发文《水利部摸底地下水资源:八成不能饮用》,文章一发立刻引爆网络舆论,水利部和中央多家新闻主要媒体出来辟谣,才平息了舆论,究其原因是媒体混淆了浅层地下水和地下水水源的概念造成的[8]2。
随着水利改革的深入和国家对生态环境、水安全问题的重视,水利网络舆情的监测、分析、判断及水利新闻宣传工作越来越受到党和政府的重视。因此水利部门通过大数据手段,及早地发现涉水网络舆情,研判舆情的发展趋势,并通过权威途径予以澄清,有着重大的现实意义。构建基于大数据的水利舆情采集与服务平台,水利部门可以全天候监测新闻门户、论坛、博客、微信、微博、电子报、SNS(社交网络服务)等载体中的舆情信息,及时发现网络热点,全面掌握涉水舆情动态。通过大数据平台,水利部门可以对涉水的网络信息进行有效的提取和分析,如分析是否为负面消息,是否为舆情热点,并揭示舆情的传播途径及爆发趋势。运用人工智能技术,水利部门可以对水利舆情进行精准分类和情感分析,还可以以文字和图表的形式直观生成各种舆情趋势图表,并自动生成舆情简报和专报,从而更好地为业务部门服务。
水利舆情大数据监测分析平台建设主要包括基础设施建设、数据资源建设、舆情智能分析、舆情大数据可视化建设四部分内容,平台架构图如 1 所示。图中源数据存储、大数据计算所对应的内容为基础设施建设,大数据存储部分所对应的内容为数据资源建设,舆情智能应用则包括舆情智能分析和大数据可视化建设的相关内容。
基础设施层是水利舆情大数据监测分析平台运行的基础环境,包括服务器、网络、系统软件、存储扩容磁盘、网络安全系统等。由于目前的舆情数据采集量巨大,每日都要增加许多新的数据内容,因此需要采用分布式的可扩展的服务器架构存储海量的结构化和非结构化数据。同时,水利舆情大数据监测分析平台需要具有大数据实时和离线计算的能力,以及常用的智能分析尤其是自然语言处理方面的算法工具。水利舆情大数据监测分析平台可采用阿里云、腾讯云、华为云等提供的大数据存储和计算能力,也可以利用 hadoop 和 spark 等开源架构搭建大数据分析平台。
水利舆情数据资源建设主要包括以下两部分内容:
1)涉水舆情采集。网络舆情主要通过微信、新闻、论坛/BBS、微博、博客、即时通信软件等渠道形成和传播,这些通道的承载体主要为动态网页,它们承载着松散的结构化信息,这使得舆情信息的有效抽取有一定难度。通过设立河湖长制、水环境、水资源、水利工程、水库等关键词,水利舆情采集与服务平台须实现动态网页数据的抽取与集成,且要达到较高的处理准确率及抽取效率。
2)涉水舆情数据处理。采集的各种结构化和非结构化数据要先进行数学处理,如数据去重、标准化等。还需要对涉水的舆情信息进行主题分类,例如:可以按照水土保持、农村水利、饮用水安全、地下水、地表水等内容分类,也可以按照四川、湖南、江西等省份,或者长江、黄河等流域分类。数据处理的主要目的是构建舆情数据仓库,为进一步的智能分析和挖掘提供便利。
水利舆情的智能分析是水利舆情大数据应用的核心内容,主要包括以下内容:
图1 水利舆情大数据监测分析平台架构图
1)网络舆情发现与追踪。网民讨论的话题繁多,涵盖社会方方面面,水利舆情大数据平台需从海量信息中,按照舆情的内容找到和水利有关的热点问题、敏感话题,并对其趋势变化进行追踪,如该内容是否引起足够多的网民关注,转发率和跟贴量是多少,等等。
2)网络舆情情感分析。通过情感分析可以明确网络传播者所蕴涵的感情、态度、观点、立场、意图等主观反映。对舆情文本进行情感分析,实际上就是试图利用计算机技术根据文本的内容提炼出文本作者的情感方向。水利舆情大数据应用须通过判断网络环境下情感特征词的特点和类型,进行语气判别和标注,从而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为情感分析的深入研究提供支持。
3)舆情监测预警。网络舆情的分析预警是一个融汇复杂网络动力学、人工智能、数据挖掘、计算机网络、数据库技术、自然语言处理等多学科知识的前沿领域,涉及网络舆情信息采集、分析、处理、分类、监测和预警的全过程。如:通过设置河长关注的舆情监测主题和关键词“黑臭水体”“水污染”“蓝藻”等词汇,可定时采集门户网站、新闻网站、时事论坛、博客和微博等发布的信息,通过文本挖掘、关联分析、情感分析、趋势分析等技术生成舆情分析报告,依据分析结果进行舆情预警,并通过建设大数据网络舆情模型,研究和预测网络舆情的演化趋势和扩散特征。
可视化是大数据应用的重要环节,可视化大屏的建设可以使得大数据分析的前期成果得到更加直观、有效的呈现。可视化包括以下内容和手段:接入数据可视化,主要显示互联网数据的每日总采集量,以及通过直方图等手段显示出数据的来源及比例;综合态势可视化,主要通过颜色曲线图等方式,显示事件的热度和过去的走势;地域热点可视化,可以反映和地域、流域相关的舆情分布情况,对于水利行业这种强地理属性的行业来说有着特殊的意义。
通过各种类型的数据可视化技术,可以方便决策者迅速掌握目前的水利舆情实际情况和走势,了解涉水事件的热度和区域分布,知晓人民群众对涉水事件的情感态度,明白舆情信息的具体来源,从而有利于决策者做出最终的合理研判。
水利部的舆情监测工作始于 2008年[9]1。通过10 多 a 的努力,水利舆情大数据取得了较大的进步和成效。水利部信息中心已经搭建了专门的水利舆情大数据平台,并且按照关键字实时收集各种媒体的涉水信息。水利部宣传教育中心每月都会公布水利部官方微信“中国水利”阅读量排名前 10 位的文章,并在官网上排名出各媒体中水利正面舆情事件和敏感及负面舆情热度各前 10 位的新闻。2014年8月3日发生的云南鲁甸红石岩堰塞湖事件,2016年4月11日有媒体因为误读而报道《水利部摸底地下水资源:八成不能饮用》的事件,都曾立刻引起民众高度关注。但因为通过水利舆情大数据挖掘,水利部第一时间掌握了舆论热点并立刻做出积极响应,才正确引导了社会舆论[8]2。
除了水利部本级以外,流域和地方水利机构同样高度重视水利舆情大数据建设。黄河、珠江水利委员会,以及北京、广东、江西等省市都开通了自己的官方微信,许多省市的水利部门已定期编制舆情月报,其中:2018年山东省水利舆情大数据平台全面升级改造后,已经和水利部宣传教育中心紧密合作并上传各种热点数据[5]1;辽宁省水利厅也搭建了舆情大数据平台,全方位全天候地对涉水舆情进行监测[10];广东省一直积极完善舆情工作机制,通过大数据技术把舆情热点发现和新闻宣传工作紧密结合,通过定期编制日报、月报、专报,迅速发现因为雷州青年运河决口造成农田被淹、饮水安全问题,以及清远市阳山县特大暴雨造成的热点舆论,并组织专家及时对事件的真实情况做出调查和解答[11];江苏省水利厅也通过舆情大数据系统,迅速发现省内多地非法采砂、常州暴雨引起堤坝受损、苏州毒鱼造成水污染等热点涉水舆情事件[12]。
水利舆情大数据应用建议如下:
1)加强水利舆情大数据平台本身的建设。由于网民数量的不断增加,互联网上的数据量处于爆炸式增长状态,使得数据采集和存储的难度也在不断增加。为了更加快速地从海量数据中采集和提取出和水利相关的舆情信息,并且有效地存储这些结构化和非结构化数据,必须不断地优化大数据平台本身的功能。另外,随着数据量的增加,平台本身的安全性和运维难度也在增加,所以加强水利舆情大数据的应用,首先要提高舆情大数据平台的安全性和稳定性,保证平台技术的先进性。
2)加强水利行业特有的舆情大数据算法研究。近年来出现了许多和大数据相关的算法,利用动力学模型[13]和人工智能方法[14],针对互联网舆情的方方面面进行分析,如对热点事件的流行度预测[15],对网络舆情的情感分析[16]等。但这些算法,针对水利行业特色的相对较少,未来的水利舆情大数据应用,应该把这些通用算法和水利行业特征更好地结合起来,设计出更适合水利行业分析研判的算法。
3)加强和各类媒体数据的共享与协作。目前,除了传统的媒体和互联网上论坛、微博信息外,还有许多“深网”[17],如个人微信及抖音短视频。这些“深网”中的信息因为牵涉用户的个人隐私,往往比传统的互联网舆情更加难以利用。但随着移动互联网的快速发展,微信和抖音短视频的影响力不断提升,成为了解真实舆情不可忽略的媒介工具。因此,如何同这些媒体合作,从而挖掘出和水利相关的内容信息,也是未来水利大数据应用的重要课题。
水利行业是国家的基础性行业,牵涉面广,和人民群众的生活关系密切,有着特殊的重要性和敏感性。近年来,随着互联网的迅速发展,网络上积累了海量的舆情数据,利用大数据、人工智能等技术手段对这些互联网数据进行分析挖掘,可以迅速发现与水利相关的舆情热点,预测出热点事件的未来走势,从而为水利宣传部门准确掌握舆情动态,及时采取有效行动提供合理的依据。水利舆情大数据监测分析平台是进行水利舆情大数据工作的实际载体,是开展水利舆情工作的先决条件,因此对水利舆情大数据监测分析平台技术路线的研究十分必要。另外,信息技术发展迅速,随着移动互联网的兴起和新的社交媒体如微信、抖音短视频的出现,水利舆情大数据监测分析平台的架构与技术手段也将面临新的挑战,只有与时俱进不断完善水利舆情大数据监测分析平台的建设内容,才能适应时代的发展。
实践表明,无论是水利部本级还是流域、地方水利机构,水利舆情大数据监测分析平台对开展水利舆情工作都起着基础性的支撑作用。因此,水利舆情大数据技术的创新和完善,以及水利舆情大数据监测分析平台的建设与应用对于水利行业的健康稳定发展有着重大的现实意义。