徐 翔
(同济大学艺术与传媒学院大数据与计算传播研究中心 上海 201804)
社交媒体的强势发展给数字网络、信息社会带来新的特征,社交媒体的用户生成内容(User Generated Content,UGC)成为影响到社会文化的重要信息环境。随着海量社交媒体信息的传播,用户可能陷入的“信息茧房”问题也日益引起瞩目和担忧。然而,信息的茧房化、信息封闭和窄化不只是个体面临的信息风险,也是社会共同体和舆论场整体面临的风险。本研究的核心问题是:社交媒体平台下资讯的生产与传播是否以及如何体现着平台公共的信息封闭与窄化?这种平台内容的封闭程度,与平台内容传播热度之间具有怎样的可确定性描述的分布和规律?
网络中的“信息茧房”“回音室”[1]“巴尔干化”[2]等多方面的研究,指出用户会陷入舆论、信息的重复和隔离。桑斯坦提出“信息茧房”概念,意指人们将自身桎梏于像蚕茧一般的“茧房”中,获得“窄化”的信息[3]。从内涵与机理而言,现有的“信息茧房”概念及信息窄化主要指个体用户或用户群组之现象,是局部区别于其他局部、或区别于社会整体,而不是指社会整体的。在此,宏观平台层面的信息“茧房化”和信息内容在流动中趋于重复、窄化的内容收敛,成为本研究的重点问题。
一些研究从用户之间的联系、社会网络、社会连接和群体内接触之间,探讨用户及其信息的同质化问题。Himelboim发现高度自我联系的子群,twitter用户不容易接触异质性的内容[4]。Lawrence对于博客链接的分析也得出跨党派用户群之间的意识形态隔离[5]。Jacobson等人测量了意见气候中“过滤气泡”的影响,发现社交媒体上的政治讨论可能存在话语壁垒[6]。对此需要注意的是,把社群间的意见隔离和“回音室”转变为社会整体结构化的“信息茧房”还需要更为直接的衔接和证据。即使在社交网络中存在着局部的信息同质化,也不意味着它等同于全局的信息同质化;难以通过对特定领域、垂直主题或有限用户群的分析而将群体性的信息茧房扩展为平台性的公共信息茧房。
就作为一种“公共领域”或类公共领域的社交媒体而言,其中信息的同质化和异质化、局部同质化和全局异质化之间的矛盾,是一直存在的问题。例如有观点认为,“信息茧房”对于社会中异质性的加强会促动“全民共有话题的消失”[7]。但是在公众“信息茧房”交织下,公共领域是体现一个个“微”茧房构筑的多样性,或是公共领域的同质化和“公共回音室”,两者并未得到直接有效的勾连。局部的信息窄化、内容收敛和社会“公共领域”之间的深层次矛盾,因此需推移到宏观信息环境层面的“公共信息茧房”。
对于平台整体的公共信息茧房,它不同于个体性的信息茧房视角,而是关注社交媒体平台如何被困在有限的信息空间之中。这其中,一些研究涉及社交媒体讯息和UGC生产过程中的同质化。例如Pew研究中心担忧,互联网使人们退却到自己狭窄的兴趣中,那些偶发的新闻资讯有越来越少的趋势[8]。赵焱鑫等通过模型仿真指出,网络中舆情主体的流动性和记忆能力的提高可以增大舆情同质化倾向[9]。但是高热度信息的相似并不直接意味着低热度信息的不相似,也不等同于高热度信息彼此之间比低热度信息彼此之间更相似。在此基础上,值得进一步探讨的问题包括:高热度帖子彼此间的趋似程度,和帖子的媒介传导热度之间是否存在以及存在着怎样的对应关系?低热度帖子之间是高相似度还是低相似度?本文从三个可能的层面对社交媒体信息的趋似方式加以考察,也即信息彼此之间的相似性(简称Sim1)、信息趋于和全局信息的相似性(简称Sim2)、信息趋于和顶部最高热度信息的相似性(简称Sim3);当结合信息的传播热度变化后,Sim1、Sim2、Sim3依次对应于后文Q2.1、Q2.2、Q2.3中所述的层内收敛性、全局收敛性、趋顶收敛性。
平台中的高传播度信息的同质性,使得头部信息可能比全局其他信息可能更为窄化。在媒体议程研究中,有研究认为公共议程的数量受到时间、注意力和资源等约束力的限制,议程之间实际存在零和博弈的竞争关系[10]。Jennings等认为受到更多关注的议程对象会对长期议程多样性产生负面影响[11]。不仅某些问题比其他问题受到更多关注,而且某些问题仅在议程更加多样化时才受到关注[12]。在社交媒体中,信息的生产、特征与其传播热度具有密切联系,高热度内容呈现出明显的类型有限化、收窄化现象[13-14]。一些分析对此探讨了社交网络中高热度信息可能的共同特征。例如,Ma等人发现Twitter上关于相似话题的标签可能同时具备相似的流行度趋势[15]。Dworak表示网络不是鼓励报道的多样性,而是把精力集中在类似的报道上[16]。这些研究显示社交网络高热度内容可能具有更强的彼此相似性(Sim1),而低热度内容或低显著度议程则受到的同质化约束则较低。
社交媒体中用户选择的趋同,使得高关注度内容可能具有较之一般内容的更高相似性和重复性。在竞争激烈的新闻生态中,市场机制往往会根据消费者的偏好产生“更多相同”的内容[17-18]。高选择性的媒体环境并没有导致受众的分化,而是产生受众之间的高重复度[19]。对在线社交网络的音乐收听分析显示,听众的收听对象具有同质化现象[20]。Yoo等人发现级联的扩散受到具有相似内容的并行级联的同时扩散的抑制;那些拥有较大网络的内容的传播更有可能被相似内容的传播放大[21]。这些研究一方面显示出受偏好内容的高度扩散而增强它们对于平台的覆盖、对于其他多样信息的抑制,使得少数高热度内容在平台中具有更高的普遍性和全局相似度(Sim2),另一方面也有助于推测高热度内容的集中使得其比低热度内容具有更强的彼此相似性(Sim1)
平台中的高传播度信息会增强其他内容与自己的相似化,使得一定时期内平台信息朝向高传播度信息加强趋同。Marty 等通过新闻主题的分析强调某些主题的过度曝光与传播,强化了“多即少”理论[22]。当“信息级联”效应发生在平台中时,容易导致某些内容在短时间内被大范围和重复性地传播,使得热门议题表现得单一化[23]。Webster表示数字媒体时代虽然没有媒体节目完全相同,但他们的交叉点将是最受欢迎的文化产品,这将人们的注意力集中在最流行的选择上[24]。由于高传播度的内容使得其他内容与自己相似化的能效更强,可能使得全局内容表现得与高传播热度内容具有更高的相似度,体现出趋顶的相似性(Sim3)。
社交媒体新闻内容生产中的同质模仿和“媒体风暴”增强高热度内容的相似和封闭。 “媒体风暴”下在更广泛的社会政治环境中存在一个重大的、突出的问题(或议程)并反过来导致不同的媒体来源报道类似的问题[25]。Zhang证实了新闻媒体存在相互观察和模仿的日常行为[26]。对于一些中小型媒体而言,会更加留意权威媒体的做法,以确信自身新闻报道的价值[27]。与该现象类似,一系列主体相似、内容相关的事件会使得出现新闻“搭车”现象[28]。这些一方面使得热门新闻和信息集中到有限和窄化的范围中而增强信息的趋顶相似性(Sim3),另一方面也使信息内容减少其多样化、异质化成分而增强在高可见度信息覆盖下的全局相似性(Sim2)。
为简化表述,本文把社交媒体信息内容之间趋于相似化、重复化的现象与态势代称为内容收敛,它强调内容消减其多样性和异质性,而趋向似同、封闭、窄化的有限范围收敛。沿着[信息内容收敛→用户或社群层面的信息内容收敛→社交媒体宏观意义上的信息内容收敛→媒介传导程度与宏观信息内容收敛]的逻辑路径,本文针对微博的社交媒体环境,提出关于社交媒体平台“内容收敛”的核心问题:信息在媒介平台中的传导程度,是否以及如何影响着该媒介平台中的信息内容的“收敛”,使平台信息表现和加强着重复和封闭程度?
结合上一节的分析,作为一种网络平台和内容生产平台的社交媒体,不仅可能存在着高传播度内容的同质化现象,而且这种现象的程度与内容传播热度、内容在平台的显要性之间存在联系。由本文核心问题提出假设Q1,及其延伸子假设Q2、Q3:
Q1:在有限周期内,新浪微博中越是高热度的帖子则其相似的“内容收敛”程度越高,两者成正比关系。
Q2:如果Q1成立和显著,则可以进一步推知:
Q2.1、趋向彼此的收敛。越是高热度的帖子,彼此之间的多样性越是消减,而相似、封闭的程度增加。也就意味着:同一热度层级的帖子,彼此的平均相似度与该层级帖子的平均热度(或热度“质心”)成正比。
Q2.2、趋向全局的收敛。帖子的内容收敛不是朝向哪个限定性的局部或指定范围的,而是关乎到总体内容的收敛。越是高热度的帖子就越是表现出朝向周期内的“众声喧哗”“芸芸众声”的全体内容的趋同化,而相较于全体内容的差异性、异质性的成分就越少。也即:帖子的热度越高,那么和周期内全体帖子的平均相似度也就越高,两者成正比。
Q2.3、趋向顶部的收敛。如果越是高热度的帖子就越趋似于总体的内容,那么帖子平均“贴近”于总体内容的过程同时也近似地表现为“贴近于”最高热度帖子群的过程。帖子的热度越高,那么和最高热度“层级”帖子的相似度也就越高,两者成正比。
Q3、在Q2.1、Q2.2、Q2.3中分别涉及到的三种不同的内容收敛(层内收敛性、全局收敛性、趋顶收敛性三个层面),这三者的收敛程度不是割裂或冲突的,而是具有高度的正相关性和一致性。如果Q2.1、Q2.2、Q2.3都成立,那么很难设想Q3不成立,除非前面的假设环节具有重大纰漏(见图1)。
图1 基本假设与结构关系
针对全文的问题和假设,研究思路与主要操作步骤如下:
a.获取新浪微博的帖子样本(见2.3节)。
b.将每条帖子进行向量化的转换(见2.4节)。
c.对帖子按照其传播热度进行等频分层(见2.3节),设层数为max。
d.对步骤③中分层后的每层帖子,计算该层帖子和以下帖子的内容相似度(计算方法见2.5节):4A、计算层内这些帖子彼此的平均相似度,全部各层得到的结果记为数值序列S1;4B、逐层计算该层和全体帖子的平均相似度(由于实际计算量太大,因此全体帖子用随机抽样的部分帖子代替),全部各层得到的结果记为数值序列S2;4C、计算该层和热度最高层帖子的相似度,全部各层得到的结果记为数值序列S3。S1、S2、S3中的元素个数=max个,元素顺序皆与步骤③中的层顺序对应。
e.对每层帖子,计算该层帖子的平均传播热度,记为数值序列F。F中的元素个数=max个,元素顺序与S1、S2、S3中的层顺序皆一一对应。
f.6A、通过S1和F的相关关系与回归分析,检验Q2.1及其对应的假设H1(见后文第3节);6B、通过S2和F的相关关系与回归分析,检验Q2.2及其对应的假设H2(见后文第4节);6C、通过S3和F的相关关系与回归分析,检验Q2.3及其对应的假设H3(见后文第5节);6D、通过S1、S2、S3的一致性,检验Q2及其对应的假设H4。
上述实施思路和关键环节进一步见图2。
图2 研究思路与假设内涵
选择新浪微博,抓取、筛选其用户在2017年1月1日到2018年12月31日的两年间的帖子样本;其中4个日期的数据缺失或不足,剩下实际有效分析的为726天。帖子被抓取时间为2019年10月-2020年1月,热度指标已经过一段时间的冷却期,其评论数、点赞数、转发数已稳定,从而避免无效扰动。
对于帖子发布者采取广覆盖、成本相对较低的多阶段抽样。首先从新浪微博首页47个内容版块(分别是:社会、国际、科技、科普、数码、财经、股市、明星、综艺、电视剧、电影、音乐、汽车、体育、运动健身、健康、瘦身、养生、军事、历史、美女模特、美图、情感、搞笑、辟谣、正能量、政务、游戏、旅游、育儿、校园、美食、房产、家居、星座、读书、三农、设计、艺术、时尚、美妆、动漫、宗教、萌宠、法律、视频、上海)中,各个版块每天早晚各抓取一次,持续1个月,共获得67 362条“种子”帖。由于结合了新浪微博自身的内容分发系统,因此种子帖广泛而大致均衡地分布在这47类版块。然后从这些种子帖做一轮“滚雪球”抽样的扩散,每条种子帖抓取500条评论的评论者(不足500条的则全部抓取)。其后去除重复用户和无效用户、抓取失败的用户后,获取其发布者和评论者共计3 501 153个用户的初始库,并从中随机取10万个用户,其中有效抓取到87 739个用户所发帖子。样本用户的使用特征、自我标示的地区来源见图3、表1。
表1 样本用户所标示的地区来源
图3中,关注他人数的均值为5.74,标准差为1.137,有效样本数为71 856个;粉丝数的均值为6.58,标准差为2.884,有效样本数为71 919个;发微博条数的均值为7.970,标准差为2.090,有效样本数为71 495个。根据图3中还原的原始数值,用户的关注他人数平均为311.06人,粉丝数平均为720.54人,发微博数平均为2 892.86条。
微博的帖子热度以其转发数、评论数、点赞数作为衡量指标。首先将每个指标值xi经以2为底的对数函数转换: log2(xi+1)。其后进行Min-Max归一化处理,归一化的公式为:(xi-min(x))/(max(x)-min(x))。转发数、评论数、点赞数分别归一化,统一量纲到[0,1]之间的值,并将三者等权相加后的值作为帖子的热度值指标(代称C1,后文涉及的帖子热度如非特别说明均指C1)。
得到帖子的归一化热度(C1)后,在量纲[0,1]的尺度下,本研究去除C1<=0.05的帖子,被过滤的热度“谱段” [0~0.05]是占[0~1]的全谱段宽度的最低5%。过于微弱的评论、点赞、转发数其偶然性和干扰较多。微博中存在着网络水军、社交机器人、“僵尸粉”等用户,进行着虚假评论、虚假转赞等行为[29-30]过滤掉一些转赞评过于微弱的帖子,有助于降低干扰度。本研究目的针对的是具有宏观结构性的内容收敛和社会性的信息茧房问题,因此着重于具有一定程度的“公共领域”性质和公众热度的帖子。部分的个体化、私人化性质的帖子具有很低程度的评论、点赞、转发,这些帖子的社会扩散范围过窄,甚至可能只是两人之间就某个话题、事物的交流。对于公共领域的信息而言,热度过低的帖子是“可见度”很低、甚至是接近于静默的声音。去除了“尾部”热度过于“微弱”的成分可以使得用于分析的帖子更为真实有效地反映帖子的社会参与性与社会公共性,更好地符合研究目的。剩下的样本中依然包含了大量的低热度样本,可以反映冷门帖子的特征以及帖子从冷到热的变化规律。同时,本文也谨慎地把结论限定在C1指标值处于0.05~1的范围内。最后分析的有效的帖子样本数为12331149条,热度分布见图4,其均值等于0.1553,中位数等于0.1372,标准差等于0.0854。
图4 帖子热度分布直方图
热度计算过程中的各子指标分布如下,下述三个指标均为微博官方原始数值x经log2(x+1)转换后。(1)转发数。均值5.46,中值5.21,标准差2.96,范围0~22.83;(2)评论数。均值3.24,中值2.81,标准差2.54,范围0~22.39。(3)点赞数。均值5.46,中值5.21,标准差2.96,范围0~22.83。
热度指标之间的皮尔逊相关系数如下(表2)。
表2 热度指标的相关系数矩阵
两年的跨度内,每天的帖子量均值为16985条,统计描述详见表3。
表3 每天帖子样本数量的统计描述
对于微博帖子进行分周期、分时间段考察。在不同的短、中舆论周期下,选择的周期天数分别为:3、5、9、10、20、27、40、80天。如果某周期下不能恰好整分,则余下的日期组成最后一个时间段。周期天数选择的原因如下。其一,尽量使之具有随意性和随机性,回避7天或14天、30天、60天等整周、整月的循环周期。其二,有研究指出,新浪微博多数信息的生命周期是1天[31];亦有研究指出,新浪微博热点话题的半衰期为8天[32]。本研究不刻意按照常见的舆论周期划分,而是符合周期或者不符合周期都予以考察。其三,长短多样周期都涉及到,避免结果只是某种特殊周期下的特殊现象。
对帖子按照热度进行分层;采取各层帖子数量相等的等频均匀切分(也即常用的“等频分箱”),避免各层级规模口径不一致。把传播热度(C1)相同或最为相近的帖子纳入同一层组Gx,也即把Gx作为分析的基本“信息单元”。分层的具体过程为:首先对于热度的数值序列通过stats模块中的scoreatpercentile()函数得到等频分箱的分位数,然后根据这些分位数对原序列采取numpy模块中的digitize()函数进行分箱。某周期内所有帖子划分为从低到高的热度层级,依次为{G1,G2,G3,……,Gm}。对每层的帖子计算它们的热度平均值作为该层的热度“质心”,则上述所有“信息单元”对应的热度质心为数值序列{H1,H2,H3,……,Hm},代称为F。
对于帖子按照热度的分层(也即数据预处理中的“分箱”)有两种常用方法。一种是“等距分箱”,但这种处理,如前文的预分析所示(参见图4),会造成低层级的“箱”内帖子数量远超于中、高层级。另一种则是同样常见的“等频分箱”,也即每层中的帖子数量相等。本研究选择“等频分箱”主要基于以下考虑。帖子每天数量平均已达16 985条,而本研究考察的周期长度至少也达到了3天,也即每周期内的帖子数量平均已达到约5万条甚至数十万条、上百万条,切分成较为有限的层级后每层内部的热度依然可以保持足够的稠密性和帖子“同热度性”。此外,另一种需要考虑的疑问是,微博低热度的帖子较多所以可能相似度低,高热度的帖子较少所以可能相似度高,这对于本文的观点论证是否有影响?基于这种可能的疑问,本文恰恰是采用“等频分箱”以更好地回应和论证:同样规模的低热度帖子组和高热度帖子组,后者比前者更为收敛,而且这种收敛是随着热度由低到高而逐步提升的,从而排除“低热度帖子由于较多所以相似程度更低”的疑惑。
对于内容相似度的计算需要把微博帖子的短文本转为向量。对每条帖子的向量化转换采用在业界和学界有广泛成熟应用、快速和稳定的Word2Vec[33]及其平均池化方式进行。首先对样本中的帖子,采取常用的分词软件“jieba”进行分词[34];其后利用开源工具GenSim[35],将分词后的每一个词转换成一个300维的Word2Vec词向量,对这些词的词向量经过平均池化后得到该帖子的语句向量。训练Word2Vec所使用的语料采用自行抓取的26G的中文语料库,来源包括媒体新闻库、网络论坛帖子、经典名著等,训练结果包括5830979个词汇的嵌入式表示,效果充分良好。
Word2vec包括CBOW和Skip-Gram模型,本文采用其中的CBOW模型。CBOW模型的主要思想是上、下文信息作为输入,当前词作为监督数据或监督标签。训练目标是使当前词出现的概率最大,而当前词的后验概率如下:
(1)
由词向量表示句子或短文本,采取对词向量求平均池化值,也即计算各向量等权后的平均向量[36]。Shen等的研究将简单词向量模型(SWEM),也即对词向量进行等权求平均向量的方法,与循环和卷积神经网络进行比较得出在大多数情况下SWEM表现出高性能[37]。基于word2vec词向量进行平均池化得到帖子向量,具有良好基础与现实应用性。
对于信息内容“收敛”主要通过内容之间的相似度来反映:相似程度越高表明这些内容之间两两的相似和重复程度越高;若异质化的内容越多,内容之间差异越大,则这些内容的平均相似程度就会越低。
将每条帖子转为向量后依此逐条计算帖子和帖子之间的内容相似度。任意两条帖子(序号分别为i、j)之间的相似度Sik采用常用的余弦相似度[38-39],也即这两条帖子分别转换得到的两个向量A、B之间的夹角θ的余弦值cos(θ):
(2)
一组帖子G1与另一组帖子G2的平均相似度用衡量两组对象之间距离或相似度的常用的“类平均法”(组间平均连接)测度,也即:假设G1包含n1条帖子,G2包含n2条帖子,G1中第i条帖子和G2中第k条帖子之间的相似度用Sik表示,则G1和G2之间的平均相似度为
(3)
如果是计算同一层组内部的自我相似度,则将上述公式中G1、G2置定为同一组,同理计算可得。当n1和n2都等于1的时候,式3还原为式2。
前文的Q1、Q2、Q3经过操作化界定和相应的转换后得到要检验的子假设H1、H2、H3、H4。某个时间周期内的帖子样本切分为等频的100层之后,转换后的假设见表4。
表4 转换过程以及可操作化之后的假设
8种周期下的各时间段,F和S1的皮尔逊相关系数的p值远小于0.001;皮尔逊相关系数值都很高,周期内各时间段的相关系数均值都达到0.92甚至0.96以上(见表5)。
表5 信息层热度(F)和层内内容平均相似度(S1)的皮尔逊相关系数情况
一元线性回归结果如表6。
表6显示,各时间段下,回归方程的显著性全部小于0.001;拟合优度指标R方在各周期平均值都达到0.86以上,甚至部分周期下接近于0.93。也即用简单的直线拟合这种变化关系已经有良好效果。
表6 信息层热度(自变量F)和层内内容平均相似度(因变量S1)的线性回归分析
同时,各周期一元线性回归的一次项系数(斜率)基本都在0.425,常数项(截距)基本都为0.173(在0.172-0.174之间轻微波动)。信息层级的热度(自变量)和其层内相似度(因变量)的共变关系稳定,不是一种大幅波动的现象。
8个周期下的各个时间段,都显示出了在信息的热度(F)和信息趋于顶部层级内容的相似性(S2)之间的强烈的正相关(见表7)。不少时间段下,F和S2的相关系数已经达到0.97以上的接近于为1的完全正相关。
表7 信息层热度(F)和层趋向全局内容平均相似度(S2)的皮尔逊相关系数情况
采用一元线性回归(见表8)。
表8 信息层热度(自变量F)和层趋向全局内容平均相似度(因变量S2)的线性回归分析
表8显示,各时间段下,一元线性回归拟合状况总体而言较为理想,拟合优度指标R方在各周期平均值都达到0.86以上,多数周期下超过0.90甚至在0.94以上。用简单的直线拟合这种“全局趋同化”的变化关系,已经有良好的效果。
各周期一元线性回归,经验线性拟合方程的一次项系数(斜率)都在0.200极轻微的波动,这种波动甚至可以忽略;常数项(截距)全部稳定在0.201-0.202。不同周期下,一元线性回归的经验方程其系数稳定。
8个周期下的各个时间段,都显示出了在信息的舆论热度(F)和信息趋于顶部层级内容的相似性(S3)之间的强烈的正相关。所有周期、所有时间段下,F和S3的皮尔逊相关系数的p值小于0.001,周期内各时间段的相关系数均值达到0.93甚至0.97以上(见表9)。
表9 信息层热度(F)和层趋向顶部内容平均相似度(S3)的皮尔逊相关系数情况
采用一元线性回归,结果见表10。
表10结果显示,各时间段下的一元线性回归拟合状况总体而言都较为理想,拟合优度指标R方在各周期平均值都达到0.87以上,甚至部分周期下超过0.93乃至0.94。各周期一元线性回归,经验线性拟合方程的一次项系数(斜率)大部分都在0.260(少部分在0.258和0.262之内轻微波动),常数项(截距)全部稳定在0.228。
表10 信息层热度(自变量F)和层趋向顶部内容平均相似度(因变量S3)的线性回归分析
对假设H4进行分析。首先,层内收敛性(S1)、全局收敛性(S2)、趋顶收敛性(S3)这三种内容“收敛”态势,两两之间的皮尔逊相关系数分析结果显示:这三个方向的收敛“步调”高度一致,8种周期、数百个时间段,其皮尔逊相关系数平均值达到了0.996以上,是接近于1的完全正相关,而且所有的相关系数的p值均小于0.001。
为了考察不同的变量之间的内部一致性,用Cronbach'sα系数考察层组的层内收敛、全局收敛、趋顶收敛的三个变量之间的统一性。Cronbach'sα值如果达到0.6以上是通常可接受的结果,达到0.8或0.9以上是很理想的值(见表11)。
表11 层内收敛、全局收敛、趋顶收敛三种作用的一致性分析
对三者的cronbachα系数分析显示,各周期下其各时间段的平均值达到了0.946。三者之间的共同趋向性也达到了很高的程度,表现为趋向于层内的同质化、趋向于全局的同质化、趋向于顶部的同质化的“殊途同向”与“殊途同归”。尽管结论简单,但是具有一定程度的反直观性。比如:越是趋同、封闭于本信息层内,则越是和“全局信息”趋同,通常被认为是不会同步的,前者往往意味着比后者更强的窄化和自我封闭性。又比如,越是趋同于全局的平均相似化就越是趋同于顶部的最热信息层,这两个过程有时也并非同步的。但实证结果确证了它们之间的同步、一致的规律性。
本研究以新浪微博为对象,分析了社交网络媒体中可能的内容收敛和分层次渐进的重复化和封闭化。社交媒体环境中广泛、多元、分散的讯息内容,随着媒介传导程度和层级的不同而具有鲜明的、渐进的内容收敛及其趋同。核心结果是:a.微博社交网络中看似开放和自由的信息交流、传播,必定发生越来越朝向有限标的发生同化、封闭、窄化的“内容收敛”,充分的信息流动产生封闭而非开放;b.社会信息的“内容收敛”程度和信息热度之间成正比。
文章的主要贡献如下。a.社交媒体信息的传导热度,是否以及如何线性地关联于内容收敛的程度,是当前仍被理论重视不够、也实证研究不足的问题。本文对新浪微博进行的规模性的实证分析较为精确地描画了两者之间的线性关系及其变化、分布的轨迹。对于H1、H2、H3,线性回归方程的R方达0.85乃至0.9以上,其中:层内收敛的经验线性拟合方程,一次项及常数项分别平均稳定于0.425和0.173左右;全局收敛的线性方程其一次项及常数项分别平均稳定于0.200和0.201-0.202左右;趋顶收敛的线性方程其一次项及常数项分别平均稳定于0.260和0.228左右。参数在不同周期下都高度稳定。b.在当前学界所热点讨论的用户信息茧房、“过滤气泡”、网络群体“回音室”等微观、中观现象的基础上,将之拓展到宏观、整体层面的“超个体信息茧房”“平台信息窄化”,有助于进一步推进解析信息社会与使用者之间的复杂、异化关系。c.通过信息如何越来越趋向于彼此间的同化、趋向于和总体信息的同化、以及在此过程中的趋顶收敛性这三个关联层面,多角度地验证了社会信息如何内容收敛的途径和方式,丰富对于该现象与后果的认知。同时,不同的收敛作用之间的联系和高度紧密的统一性在现有研究中关注不足,本文明确分析了微博内容的层内趋同、全局趋同、顶部趋同这三种收敛路径的统一性,其克朗巴赫内在一致性系数高达0.946左右。
与社交媒体内容收敛相联系的,是在充分的社会“公共领域”和平台信息流动之中,不断趋于窄化和自我封闭的“公共信息茧房”。充分的信息传播带来社会信息的内容收敛而非多样性。
在一个特定的周期内,尽管微博环境的构成多元、多样和自主,但其信息层级的三种趋同性必定随热度线性增长。其后果之一是潜藏的“舆论极端”语境及其带来的收敛和封闭。根据本文的计算,如果各种参数不变,由于热度归一化后的最高值为1,所以信息彼此之间趋同的层内收敛性(S1)、趋同于全局的收敛性(S2)、趋同于顶部信息的收敛性(S3)程度,根据前文的线性回归,其平均相似度的最大值估算如下:S1约为0.425×1+0.173=0.598;S2约为0.200×1+0.202=0.402;S3约为0.260×1+0.228=0.488。基于此可以预测,在最极端、最“狂热”的高热度信息环境中,那些“最顶端”的热信息或社会注意力所集中的内容,其彼此间的内容相似度可高达0.598,大大高于任意两条帖子的0.231左右的平均相似度水平。虽然就两条信息的相似度而言这个值不算很高;但是本研究的结果在数百条帖子以上的尺度是很稳定的,而考虑到数百条、数千条以上的帖子规模达到0.5以上的平均相似度,则是较深的信息同质化和窄化,反映出社会流动中的热信息趋于“同一个模子”的强烈程度。这在紧急的社会动员或面临重大公共事件时,会显现的更加清晰。
对于公共信息茧房和内容收敛的另一种推进是网络民意和舆论引导从“议程设置”向“广义议程设置”和“单极化议程设置”的延拓。经典而得到广泛应用的“议程设置”理论揭示的是:新闻媒介在告诉人们怎么想这一方面可能并不成功,但是在告诉人们想什么的方面则异常成功[40]。该理论强调“议程”之间设置和被设置的关系,但是忽视了“顶部”议程本身的相互同化。由层内收敛性可以预期,媒介议程随着热度提升而越来越趋同化、“浓稠化”,而不是传统的“议程设置”理论中所预设的多元议程;高热度议程具有对其他不相关议程的“挤出效应”乃至“独占效应”,而后者在“议程设置”等理论中是被忽视的。与此同时,结合媒介舆论引导的实践,由内容收敛性对该结论进行反推,则有助于思考的是:如何制造高热度、高流量的议程?亦或者,如何预判一个议程在周期内可能的热度?由趋顶收敛性可以预期,高热度信息需要和顶部最热帖子尽可能相似,这种“蹭热点”策略虽然被应用但多是作为经验技巧,而本文对其有效性予以了科学解释与统计检验;由全局收敛性可以预期,高热度议程需要和周期内全部议程尽可能具有高的平均相似度,因此需要提升该议程的公共性而非容易误认为的垂直细分性;由层内收敛性可以预期,最高热度的议程具有“挤出性”和顶部优势,此时对于议程的“加热”或炒作有助于加强该议程的“顶部优势”。
尽管微博中的讯息千千万万,但这些多样性中存在着趋同性;它们具有类似于“金字塔结构”的特征,从最底部的低热度层到最顶部的高热度层,而逐渐减少内部讯息的“自由弹性”,从宽松多变而变得更为有限和同质化,逐步增强其层内相似的“稠密”程度(层内收敛性);这个从底部到顶部的逐步收敛的过程,同时也是各层逐渐接近“顶部”(从而发生趋顶收敛性)的过程;全局内容虽然是很分散的,但是趋同于“顶部”的收敛性一方面使得只有“越是普通的”才越是“流行”的,而非“越是奇葩”才“越是流行”,另一方面也使得微博的内容环境呈现出一种全局“向心化”结构。一些流行观点认为社交媒体信息不受某种中心话语、权威话语的控制和主导,是多元和去中心的,但是本文结果显示:社交媒体信息不是去中心的而是有中心的,这个中心就是“趋顶收敛性”所指涉的“顶部”内容;围绕这些作为中心的顶部内容形成向外一圈圈涟漪状的圈层,每一涟漪圈层可视为热度逐渐递减的信息层,往外扩散的圈层和中心的相似度逐步线性降低;每往外扩散的圈层,圈层内部的帖子相似度也由于“层内收敛性”而线性降低;越往内圈则由于“全局收敛性”而作为全体相似中心的程度越高,给场域所有帖子都带来这个中心的烙印和投影。