孙 博 孔唯鉴
(云南大学茶马古道文化研究所,云南 昆明 650000)
网络评论,从本质上讲是一种意见性信息,是个人或组织在网络媒体上就新闻事件或社会现象、社会问题发表的评价性意见。[1]其在一定程度上体现出了广大民众对某些事件现象的观点、看法,展现了民众参与社会公共事务的意愿倾向,也为社会建设发展提供了不同的参考思路和观察视角。
如何对繁复的网络评论信息进行更具操作性、可行性的分析,是值得思考的问题。本文以“2019年腾讯公司旗下网游《刺激战场》更替为《和平精英》”这一事件为对象,来对相关的网络评论进行分析研究。
2019年5月7 日,网友发现腾讯旗下游戏《刺激战场》关服,而与之玩法类似的《和平精英》内测邀请开启,结合之前“腾讯《和平精英》获得游戏版号”的消息流传,腾讯欲将《和平精英》替代《刺激战场》的意图在公众视野内越来越清晰,玩家就此掀起了一场关于两个游戏更替的讨论热潮,成为了当年游戏界极具代表性的大事件之一。
自2019年5月7日网友发现《刺激战场》关服,至5月20日事件热点消散,玩家讨论回落。在两个星期的事件周期内,笔者通过网络大数据信息采集系统,以“和平精英”以及“刺激战场&和平精英”为关键词,全网共采集到相关信息160921条(含转载),其中信息主要来源于微博(71396条,44.37%),其次是论坛(30619条,19.03%)、网站(28454条,17.69%)、客户端(22549条,14.02%)和微信(6986条,4.34%),其他平台(视频、报刊、外媒等)分布较少,未超过1%。
通过对周期内所网络采集信息的观察,笔者发现在大数据运用下网络评论分析首要面临的几个问题。
正如此次“《刺激战场》游戏更替”事件,无论是总体数据量(160921条)还是单一平台数据量,达到了以“千条”“万条”乃至“十万条”为单位。在以前,由于网络信息源较为单一,研究者多通过门户网站、搜索引擎、知名论坛以及留言版,辅以问卷调查、人工检索等方式进行信息采集和分析,工作量相对较小;而今日,随着爬虫技术和网络大数据信息采集系统的运用,必然要面对越来越多的信息量和平台载体,去重、筛选信息成为大数据分析首先需要做的工作。
网络传播包含事实性信息与意见性信息。网络言论指的是网络传播中的意见性信息。[2]网络评论的分析,是对意见、态度和评价的分析,而非对事实性信息的判断。事实性信息,应该属于更宏观层面上的网络舆情的趋势研判。[3]就本例而言,在实际采集到的信息中,有相当一部分属于腾讯公司相关的事实性报道。就技术而言,网络大数据信息采集不能准确区分事实性信息与意见性信息的差别,也无法就各个不同平台的评论、跟帖内容做出全面、准确的抓取。
除常见的文本外,图片、音频、视频、符号乃至于表情包等信息呈现形式,已得到越来越多的应用;在交互设计方面,诸如支持、反对、点赞、分享等交互行为也已被广大网民熟知和认同。如果认为上述信息呈现形式和交互行为不能表达网民的情绪和态度,因而不属于网络评论,那显然不合常理。在本例中,大量的网民评论以游戏图片、符号等作为态度表达,对以关键字为主要检索方案的大数据信息采集系统提出了挑战。
有研究者认为网络评论分布于“网络评论专栏(包括新闻网站的时评、个人博客等)、留言板跟帖和网络论坛(BBS)”;[4]也有人依据发布平台的角度,把网络评论划分为言论频道评论、新闻跟帖评论、论坛评论、微信评论、微博评论5种,[5]但随着微博、微信、新闻客户端、短视频平台以及其他社交应用等新的网络评论平台的涌现,以往的平台划分显示出了构成缺陷:一方面,如果依照平台类型划分,那么网络新闻评论平台在扩充,如新浪旗下的大数据信息采集系统“微热点”就将信息源划分成了11类,但这无疑显得繁缛,且信息量较少的平台缺乏单独统计的价值;而另一方面,如果从平台特征和评论特征来看,很难说门户网站电脑版的新闻跟帖和其手机客户端的新闻跟帖就完全迥异,或者只把某条微博下方的评论视为网络评论,而其微博本体不是网络评论。这说明网络评论的载体平台既在扩充也有重叠,不能完全依照平台类型来孤立划分,还应综合考虑平台特点等因素。
面对以上问题,在“《刺激战场》游戏更替”事件网络评论的分析中,我们尝试采取了如下分析思路。
首先,由于网络信息时效性,国家法律法规和相关政策影响以及其他一些不可控因素,在分析周期内,无论是从数量还是质量来看以单一平台作为数据来源,不能有效呈现网民态度,也无法采用单一抽样方法;新闻(微博、帖子、回答等)显示的总体参与量无法直接用于分析,因为参与量可能包含点击、回复、点赞、反对、转发、举报等行为记录,其数量趋势为“总体参与量>总体评论量>可显示评论量>有效评论量>实际相关评论量>抽样评论量”,分析抽样仅能在“可显示评论量”及其之下的层面进行。
其次,除以关键字为主要采集方案外,利用图片文字识别和转化技术、视频关键字采集技术等,将更多样的信息呈现形式纳入到评论信息采集范围内;同时,利用关键字限制、歧义字限制、字段长度限制以及字符形式限制等方案,尽可能排除非负面但无实质观点的评论表达,如纯表情、颜文字、单一语气词、屏蔽词、无关内容、无意义文字等;
最后,综合考虑平台特征、评论特征等多方面因素,结合以往相关研究结论,同时考虑到交互设计的存在,对现有的网络评论平台进行归纳与重新分类,将其划分为以下4种。
第一类评论平台:由传统门户网站新闻、“两微一端”中的媒体和自媒体客户端发布新闻、报刊数字版、微信公众号文章这几者的新闻评论、跟帖等构成。网民主要参与方式为“评论+回复+赞同/反对”,有事实性报道或文章主体作为依托,观点表达更多体现于评论本身,贴近于以往人们印象中的网络评论。
第二类评论平台:由“两微一端”中的微博以及短视频平台构成。网友主要参与方式为“微博(短视频)+评论+转发+点赞”,不一定依托事实性报道主体,可仅简单提及或隶属相关话题标签,微博(短视频)本身也可能是评论,与其评论与微博主体在观点表达上具有同等地位。其评论形式最为多样,且由于转发的存在,常常容易带动话题扩散。
第三类评论平台:以百度贴吧等为代表的综合论坛和主题论坛。网友主要参与方式为“帖子+回复”,可能但不必须以报道或信息为主体,网友观点表达为主帖和回复并重,常见一定的对话特征或讨论性,且由于这种性质,导致评论内容相对松散。
第四类评论平台:以知乎为代表的专业问答社区和行业问答社区。网友主要参与方式为“问题+回答+评论+赞同/反对”,以关于某项话题进行提问,具有一定专业性、详细性,网友观点表达更多侧重于回答,由于回答者有时身处行业内部或为相关从业者,往往能从中得到其他评论平台较难出现的深度内容。
结合上述思路,在平台重新归纳分类的基础上,对四类网络评论平台针对性地采取了不同的抽样方法,以期尽可能贴近网民的实际观点。
对第一类评论平台,由于各事实性报道及文章评论数量不一,悬殊较大,采取配额抽样方法。以事件舆情传播关键的事实性报道及文章为核心,经过去重评估,汇聚同一主题文章下评论,选取20篇参与、互动数量最多的新闻,依照总体参与数量区间,分为1-29条,30-299条、300-2999条、3000-9999条4个区间,再进行统计、筛选、抽样,得到有效评论抽样数量300条。
表1 评论配额与抽样分布数量(第一类评论平台)
经统计,周期内该平台网民评论呈现8类观点态度如下:
表2 网络评论态度与占比(第一类评论平台)
对第二类评论平台,以新浪微博为例,主要采取判断抽样方法。由于总体微博参与量以10万级为单位,选取分析周期内,每日该相关讨论下的原创热门微博,以热门微博(800条)为抽样范围,以互动评论量和转发量为参考标准,选取有效抽样200条。
表3 微博声量走势表(第二类评论平台)
网民评论呈现7类观点态度如下:
表4 网络评论态度与占比(第二类评论平台)
对第三类评论平台,以百度贴吧为例,由于主帖和回复具有并重的特点,采取简单随机抽样的方法。周期内贴吧相关信息量共计3649条,有效抽样300条。
图1 百度贴吧声量走势图(第三类评论平台)
该平台网民评论呈现7类观点态度如下:
表5 网络评论态度与占比(第三类评论平台)
对第四类评论平台,以知乎社区为例。由于观点侧重于回答,则主要采取判断抽样方法。知乎相关信息量3906条,对问题进行去重、合并取舍后,取知乎社区上与本话题相关度最高、回答数最高的10个问题,每个问题抽取赞同数最高的30个答案,以满足大样本标准,共得抽样300个。
图2 知乎社区声量走势图(第四类评论平台)
该平台网民评论呈现8类观点态度如下:
表6 网络评论态度与占比(第四类评论平台)
总体来看,在四类评论平台上,网民评论呈现出一定共性,也互相印证了观点的可靠性。几乎所有平台上都有一定基数用户认为《和平精英》游戏体验不佳(如画面质量、枪械感觉、动作表现、语音引导等),游戏设定不尽如人意(如掏箱子、挥手告别、血液颜色、获胜机制等);相比于《刺激战场》,许多玩家在对比之下表现出失望不满,进而进行嘲讽吐槽,或者选择弃游转战国际服等;总体上约有不超过四成玩家对游戏评论呈现正面或中立态度。
同时,各个观点平台也呈现出了各自评论结构的特点。接近传统意义上的网络评论的第一类评论平台网民表露态度比较直接,会上升到对腾讯和光子工作室的攻击嘲讽上,如有三成的网民对腾讯或光子表现出不满,认为《和平精英》是圈钱之作(17%),而且多有讽刺吐槽(13%)。该平台评论多短小直白,易展现带动负面情绪,但用户持久性和被关注度较差,不易形成意见领袖。从目前看,以搜狐、网易、新浪、腾讯、凤凰为代表的传统五大门户网站,因多方原因,其评论显示大大低于参与量,而网民重心逐渐转移到以今日头条等为代表的自媒体客户端评论上。
作为第二类评论平台代表的微博呈现内容比较多样,调侃、吐槽较多,微博用户也愿意分享自身经验和经历,游戏相关周边(如活动、互动、视频、心情等)也是四类平台中最多的,同时微博用户表示弃游的比例最少,说明微博用户的游戏黏性相对较大,各种求组队、求朋友共同游戏的微博也较多,追求曝光率的程度较强。在该平台上有超过半成的人回忆怀念自己的游戏经历,期待回归《刺激战场》(6%);另有接近十分之一(9%)的用户根本不在乎游戏有什么变动,只要能和同伴一起玩就满足了。
作为第三类评论平台的百度贴吧,综合了第一类、第二类观点平台的特点,有简单粗暴的态度,也有客观理智的思考。无论是发帖还是回帖都既可以承担对游戏更替的观点输出,也都可以不承担观点输出,因而不时出现意见散乱、互相矛盾的情形。由于其帖子内容松散,较少出现持续围绕一个话题,进行同一观点输出的情况;而玩家在游戏遇到问题和对游戏有意见建议时,往往选择在贴吧求助,这导致了贴吧内求助帖和意见帖较多,但很难上升到专业问答的程度,如在本平台中有8%的玩家对游戏问题进行反馈并提出了一些建议。
作为第四类评论平台的知乎社区,用户水平相对较高,对于问题愿意上升到制度、环境等层面上,往往寻求多角度、多原因看待问题,像本平台上就有5%的用户上升到游戏行业和环境层面,认为游戏公司、玩家、政府共同作用导致游戏环境恶劣,需要客观看待;也有用户提出游戏环境的观点,并且认为《和平精英》的出现是游戏业的探索与尝试,可以观察到盈利性背后商业资本的推动,是其他平台少见的深刻观点。正因如此,在此平台上如果出现负面评价,往往内容翔实,较难反驳,但由于其用户的门槛相对较高,受众相对小众,对某些圈子内的成员来讲具有特别参考价值。
笔者认为本例中的网络评论分析方法主要存在以下不足。
第一,评论抽样方法有待进一步研究。在理想情况下,穷举全部评论信息,再进行分析分类、量化呈现,所得出的观点结论最准确可靠,但实际上由于数据量庞大,缺乏可操作性,也没有必要,如何对评论数据进行抽样,是首要考虑的问题。由于各种冗余评论的存在,如果只使用简单随机抽样或等距抽样,得出的结果往往不能准确代表网民意见分布;本文所采取的思路是基于不同平台特点,着重使用判断抽样、配额抽样的方法,尤其集中于热点、重点和参与互动量多的评论,人工选择痕迹明显;诸如判断标准、配额分布、抽样比例是否合适,乃至于以后对其他事件中可能面临的分层抽样如何分层,整群抽样如何划分整群等,都需要进一步研究,以期得出更合理的抽样方法。
第二,非文本形式的评论采集亟待解决。对越来越多以图片、视频、音频等非文本评论形式呈现的、广泛意义上的网络评论而言,尽管本例中通过了一些技术或程序将其转换为文本来进行研究,但由于技术和条件限制,多数此类评论仍无法做到相对准确的采集和统计,造成了评论信息的流失。尤其伴随着短视频应用平台的兴起,承载意见观点的短视频也成为网络评论不可忽视的来源,对视频等非文本形式内容的抓取,成为今后大数据背景下网络评论分析亟须解决的难题。
第三,互动参与的相关性需要量化。在大数据算法下,一般互动参与量较高的网络评论往往会被认定为热门或者重点评论,并会被推荐至首页,评论前列或优先显示。本例中判断抽样的主要依据之一就是点赞、转发、回复等互动参与量较高的评论,认为其可以代表多数网民的意见。但需要注意的是,互动量代表态度情绪,只能显示出评论的总体趋势,不一定提供明确的意见建议。点赞数和转发数在多大程度上能代表网民的意见观点,或者如何通它们判定重点评论的代表性,需要更明确的量化算法或者更可靠的判断标准。
第四,网民研究等异质因素应纳入分析。在本例中,更多依靠平台特征和评论特征进行分析,缺少对网民本身的分析。实际上,网民研究也是网络评论分析的重要组成部分,通过对网民的年龄、阶层、文化程度、上网习惯的多方面因素的分层画像,有助于从宏观层面上探讨网络评论的形成原因,网民研究与网络评论研究两者相互联系,相互印证,更能从根本上理解和揭示网络舆情的特点。
综上所述,当今的大数据背景下网络评论分析面临着新的局面:信息数量剧增,平台来源丰富,呈现形式多样,观点构成复杂。结合新形势,对网络评论分析的方法进行新的尝试和探索,将有助于网络评论乃至网络舆情工作的进一步研究和规范。