传统舆情数据的获取主要是利用大数据处理技术在海量互联网信息中自动抓取、类型检测,并数据聚类。这些收集到的舆情数据是网络舆情预警,治理研究开展的前提。但事实上,网络中存在大量的“潜水党”。这类用户对于舆情事件有自己的价值判断,但并未进行“跟帖”、“评论”、“点赞”等行为。因此,他们的观点数据很难被作为舆情监测系统的原始数据信息加以收集。如何鼓励用户参与表态的过程,从而增进舆情数据的多源和丰富性,是一个有待解决的行业命题。
自2008年比特币发明人中本聪在比特币白皮书中提出“区块链”这一概念后,伴随互联网的迅速发展,区块链近年来成为技术创新和风头的热词,被应用于各个行业领域中。区块链技术本质上是一种分布式数据库,与传统数据库不同的是,这种数据供基于互联网,允许每一个人参与数据库的增加、删除等操作,这个数据库被所有用户共享。
区块链技术的核心之一是“激励机制”。比特币系统中,激励机制体现在赋予记账人角色拥有使用系统发送交易的权利,作为激励机制的奖励形式。或是将经济奖励等因素运用到区块链技术上,帮助信息发布个体按照一定的奖励机制和分配原则,给予该个体(节点)合理的经济激励,从而保证本系统内个体或节点对区块链上信息的维护共识,并吸引这些个体共享信息。
在这一激励机制的基础之上,论文拟提出一种面向网络舆情数据多源化的区块链保障机制。用户通过提交有效舆情信息,获得虚拟币反馈。这一激励机制使用户更加积极主动提交信息,从而更大程度上丰富了网络舆情的数据源信息。并为后期更有效的舆情监测、预警,乃至治理工作提供坚实的基础。
国内网络舆情研究逐年递增,已是学术研究持续的热点。其研究领域涉及图书情报、政治学、社会学、新闻传播学、管理学、信息科学等诸多学科。从研究版图而言,国内网络舆情的研究大致覆盖如下几个领域:网络舆情基础研究主要包括微观方面网络舆情相关概念界定[1]、中观方面网络舆情的特征分析[2],以及宏观方面网络舆情走势的总体描摹;网络舆情的形成、传播及演变机制研究基本上包括舆情形成、演变的过程,以及对舆情事件涉及主体的不同而进行研究[3];在网络舆情监测与预警的研究方面,涉及对网络舆情预警的平台搭建、指评测标体系设计、关键技术及算法,预警机制等[4];网络舆情应对与舆情治理研究大致延续着从消极的“控制”网络舆情,被动的“应对”网络舆情,到主动“治理”网络舆情的脉络。而这一版图中的现有成果,基本建立在“现存”的舆情信息源基础之上,少有关涉如何增进信息源本身的研究。
在区块链的基础研究方面,不同学者对区块链的定义不尽相同,但究其本质基本一致,即区块链的核心特征:去中心化、共识机制、可信性、可靠性、开放性、智能合约等。互联网中的信任问题是区块链技术主要解决的问题之一,区块链信任问题是一群认同并遵守这个规则的人共同参与,共同记录一个去中心化的分布式账本数据库的过程[5]。在区块链的技术架构中,激励机制是建立在共识机制之上一种核心,其主要包括发行机制和分配机制,二者统称为激励机制[6]。激励机制是区块链系统对参与作为记账人角色所做诚实劳动的补偿方式[7]。
在激励机制的基础上,近两年,学界涌现了一些将区块链技术与数据共享相关联的研究。宏观思路方面,严振亚将共享经济与区块链技术相结合,构建基于区块链的共享经济新模式的基本思路[8]。在应用研究层面,有研究者提出了区块链技术对促进智慧城市信息共享与利用的应用设想[9]。同时,在多个领域,也有更详尽的应用设计被提出。诸如:余益民团队针对政务信息资源共享实践中诸多亟待解决的问题,提出去中心化政务信息资源共享及公开的解决思路,并给出基于区块链技术的模型总体架构[10]。也有研究借助了区块链中信用积分制度作为激励机制,设计了一种竞争情报共享平台模型架构[11]。在财务研究领域,朱建明等学者基于联盟区块链提出了一种新型财务共享模式,为财务共享模式目前的发展困境找出新出路[12]。宾晟等人在社交网络中舆情传播模型的研究中,考虑社交网络中由合理量化用户所产生内容的价值贡献作为激励机制,以期鼓励用户传播优质信息,减少失真信息的传输[13]。
在区块链的激励机制保障下,个体或节点所提供的数据具有优质的多源化特质。基于此,论文拟提出将区块链技术与网络舆情研究相关联的设想。在这一设想中,网络舆情信息的可靠与否,是由用户之间相互确认。而用户通过提交有效数据信息,根据激励机制,获得虚拟币反馈。这一激励体制使得用户更加积极主动提交信息,从而在更大程度上丰富了网络舆情的数据源信息。
通过区块链激励机制搜集到的可靠信息,如何在最大程度上被利用?如何保证舆情数据的多源化,扩大舆情监控系统的信息规模,才能提高舆情预测的准确性?
区块链技术作为互联网上一种特殊的分布式数据库技术,可以让每个人都参与到数据库记录过程中。区块链由各种不同的包含特定内容的区块连接而成的一种分布式链的结构,其中区块是数据信息的一种集合表示[14]。区块链上的信息,均是由用户来产生,并供所有用户共享,保证信息完全透明化且无法更改。
传统网络舆情监测系统在搜集舆情信息时,通常是通过专业软件对发布在网络上的海量信息进行实时采集、分析、汇总,并识别其中的关键信息。实际上,网络中存在“潜水党”,这类用户对于舆情事件有自己的价值判断,但并未进行“跟帖”、“评论”、“点赞”等行为。这类“潜水”用户的观点,通常无法被舆情监控系统所捕捉到。如何鼓励用户参与表态的过程,从而提供较好的数据源、使舆情数据更加多源化,则可以通过区块链共享机制来完成。
图一:舆情信息区块链平台
如图一所示,在舆情信息区块链平台上,我们给所有加入到舆情信息区块链中的用户一定数量的虚拟币,虚拟币达到一定数量时可兑换信息源平台上的相应服务。同时,所有用户可无偿使用区块链平台中搜集到的信息。如此,用户有利益收获,根据激励机制的原则,必然对于信息提供方面的意愿加强,舆情监测系统可得到更加多源化的网络舆情数据。
舆情监测系统搜集舆情数据时,其真伪性直接影响最终的分析结果。以往网络舆情监测系统在自动抓取舆情信息进行筛选分析时,在判断信息真伪性方面通常需要由监测系统一方的人员进行验证,由此耗费大量时间。而借助于区块链的激励机制,通过节点用户受到一定奖励,节点自愿提供更多信息,舆情信息采集可节省时间,大大提升搜集信息的效率,同时获得更多可靠信息。具体的系统实现模块图如图二所示。
图二:舆情数据系统模块图
如图二所示,基于区块链激励机制的舆情数据系统的用户端,主要由三个模块组成:用户登陆模块、信息管理模块和账户登陆模块。用户在登录界面输入个人信息,本地加密后上传到后台数据库中;而在信息管理模块中,存储所有用户上传的信息;账户登陆模块中,则包含用户获得虚拟币反馈、消费记录及激励子模块。在数据区块这一部分里,主要实现实时数据融合和数据质量管理,并提供激励机制的功能实现。用户提交的所有信息流入数据区块中汇总,数据质量管理模块负责对用户提交的信息进行判断,所有经过51%的节点用户认证通过的信息为可用信息。最终,所有经判断可用的数据信息将进入到中心数据库中并存储。中心数据库还包含有多种激励方法库,以适应不同舆情源信息提供个体的鼓励和奖励。激励反馈管理模块判别当前激励机制是否合理,是否能够产生效用。除此之外,还可以对当前所采用的激励机制及其方法进行评估,便于后续改进激励方法。
这一系统中,对于数据源的用户而言,其利用已有成熟的非对称加密算法,来对舆情数据进行加密。用户将加密后的舆情数据通过特定的接口上传云中心的平台,存放在区块中,并将承载舆情数据的区块广播全网等待认证。当超过一定比例(比如51%)的节点数达成共识时,则通过认证, 对数据区块增加时间戳,数据在网络中,以P2P的模式流通。区块链内置的智能合约机制用于执行认证、流转、共享等环节,这些环节属于数据认证机制中的内容。整个执行过程具有公开透明、不可篡改的特性, 对于每一个新上传的数据,节点上的资源用户对新资源的价值达到共识。舆情数据经过区块链技术处理之后,可以删除重复无效、低质量的舆情数据,从而有效提升舆情信息数据源的质量。具体流程如图三所示:
图三:舆情数据系统流程图
如上图所示,以用户a为例,用户在不同平台上提交相关信息至数据区块中,数据区块进行汇总并及时广播数据至全网所有用户,当超过51%用户节点认可信息达成共识并通过认证后,将认证结果再次返回至数据区块中。所有经认证过的数据将被传送到中心数据库里得到整合,同时,中心数据库将会回馈相应数量的虚拟币来激励所有提供经成功认证数据的用户。数据认证过程均是由用户之间相互认证,区块链去中心化的特点可节省大量人力。同时,用户在不同平台提交各类信息,在更大程度上丰富了网络舆情的数据源信息。
随着信息时代的急速发展,较大规模的网民数量呈现出不断增长的趋势。智能终端设备技术的快速发展,降低了互联网使用的门槛,巨大的智能终端设备的网民规模使得每个用户个体都可能在舆情信息传播的各个环节中扮演不同的角色。智能终端下的网络时代,每个用户都是一个信息传播平台,这些平台上用户观点的传播具有多方向、爆发式增长的特征。传统网络舆情数据的搜集需要针对不同平台,分别进行信息抓取。例如通过“爬虫”技术对今日头条某新闻的评论区、微博某话题的评论区等进行信息搜集和整合。而基于区块链激励机制的网络舆情数据系统,可以跨媒体跨平台抓取信息,信息的多源获取能够使数据更加多源化,从而提高了后续分析的可靠性。
当网络舆情数据可以得到价值反馈——虚拟币时,用户主动上传、共享信息的意愿会大大加强。基于区块链激励机制的舆情数据多源化机制通过给予虚拟币奖励,激励用户共享信息,其共享过程安全保障性高,无须担心信息泄漏。舆情信息在客户端上传前被加密处理,通过分布式存储的方式上传到共享区域空间内,当有查询私密文件需求时,通过输入相关信息密码,就可以提取所要的舆情数据信息。整个过程中,用户的数据在本地就已经进行加密,共享信息时免去个人信息泄漏的顾虑。共享数据信息,可以使舆情监测中心尽可能在短时间内大范围获取网络舆情的全貌。多源舆情的监测基于更多数据,区块链保障机制可以海量存储舆情数据,神网算法所用的数据集较大,从而使得训练的数据模型更为准确,大大提高了网络舆情监测和预警工作的高效性。
综上,基于区块链的激励机制,舆情源数据拥有者提供数据的积极性得以提高,使得舆情数据类型更趋于多源化和规模化。但这一设想运用在实际操作层面依然面临一些挑战。
第一、安全性问题。区块链应用中的账户就是用户的公钥,进行信息交换的手段是私钥。若私钥丢失,用户之前参与信息交互的权利即丢失。区块链去中心化的特点使得没有中心机构可以重置信息。另外,在防篡改方面,虽然全网超过一定比例以上客户端节点发生改变,才能够对区块链的信息交互记录机型修改,但不排除有技术可以掌握超过这种比例以上客户端的节点,从而对区块链应用的安全性造成威胁。
第二、延时问题。因为P2P网络的工作原理,难以实现高度的实时同步。另一方面,区块链平台上的信息共享需要全网客户端参与,同样具有一定的延时特性。而突发事件的舆情信息通常需要在较短时间内搜集完成,如何解决延时问题,也是现有技术需要突破的方向。
第三、资源浪费问题。面向舆情数据多源化的区块链保障机制需要舆情信息提供者与使用者都存储整个舆情数据的交互账簿,对舆情信息的存储具有较高的规定。在这个过程中,重复的舆情数据存储会造成一定的存储资源浪费。在舆情数据交互中进行数据加密、哈希运算等也需要大量的算力,相对中心化结构而言,基于区块链的这类应用又对计算资源增加了需求。
这些挑战是区块链技术应用于网络舆情研究时,需要考量和突破的技术方向,这些需要学界和业界共同推进。