计算社会科学框架下内容付费产品研究

2018-03-08 02:24喻国明段泽宁
现代传播-中国传媒大学学报 2018年2期
关键词:社会科学内容用户

■ 喻国明 段泽宁 孙 琳

一、日渐成势的内容付费市场

随着互联网发展进入“下半场”,人口红利下的规模化市场已渐瓜分完毕,包括内容付费产品在内的一系列高技术含量、细分化市场的产品和服务形式渐趋成势。

众所周知,并不是任何内容服务都可以以用户直接付费的形式来实现的。有人说,只要是有用的、重要的知识服务,就是人们愿意为之付费的服务。这是不对的。君不见,空气之于人类和生命是何等的重要和有用啊,它甚至可以用须臾不可或缺来形容它的重要和有用。但你何曾见过人们在正常情况下为获得空气来付费的吗?只有当新鲜、干净的空气成为一种稀缺的东西的时候,售卖洁净的空气才成为一个生意。对,就是稀缺性,这是内容付费产品的第一品性。只有稀缺的,才是市场所追逐的。可以像空气一样随时随地获得的东西,哪怕再重要也不会有人为它付费。那么,什么样的内容是稀缺的呢?

(一) 低频度使用的知识和内容

知识和内容被使用频度越高,其社会的供应量就越大、社会的普及程度就越高、稀缺性就越低。而某些新兴的领域、较少有人触及的专门领域、专门知识,其社会的供应量不多,社会的普及度较低,如果加上人们对这个领域、这类知识的兴趣和需求恰好在上升,这类知识就会成为人们愿意付费的对象。

(二) 跨界度高的内容和知识

我们这个世界在越来越细分化,知识和知识之间的鸿沟也在日益扩大,有一种说法:今天连数学家和数学家之间都难以沟通、听懂对方的话语了。可见现代文明的发展,形成了一道又一道认知和沟通的障碍。但人们面对的世界又往往是由多种多样的复杂性事物和变量纠结在一起发生作用的,因此,跨界的知识和能力便成为当下人们把握机遇把握现实的核心能力。能够提升人们这种能力的内容服务,当然有人愿意为它付费。

(三) 精粹度高的内容和知识

降低或减省人们获得知识的时间付出、精力付出以及增强人们理解力的知识服务也是人们愿意为之付费的知识服务。在一个信息泛滥、良莠难辨、人们的时间精力短缺的时代,人的社会行动能力的提升、生活效率提升的关键就在于获得和理解知识的能力的提升。因此,这类知识服务虽然形式上不具备稀缺性的特征,但是,当它以一种简约、有效、可理解的方式提供知识服务时,人们会因为它对于人们时间精力的减省而付费,比如:学位论文中的文献综述服务,逻辑思维中的代人读书选书等。

(四) 高场景度的内容和知识

主要包括有借鉴意义的个体体验性内容,以及个性化量身定制的知识服务。内容和知识如果按照从场景的仿真度(即从抽象概念到具体场景)来划分,概念的传递是较为容易的,但场景的带入及有针对性的多维度分析、判断则是较为稀缺的。人们在生活和社会实践中所遇到的具体问题是由复杂的必然因素、偶然因素和个体因素交织在一起造成的,必然性的因素可以通过通常的专门知识的自学或检索获得,但偶然的、个体性的因素所造成的影响并不是通识性的知识或一般的专门知识可以解决和把握的,因此,必须由具有经验丰富的专业人士帮助做出量身定制的诊断和对策,譬如咨询公司和律师类的服务就是这样一种服务。在介于咨询公司和律师的服务与通识性的知识之间的那种内容和知识服务,如果能够以比较减省的价格提供的话,也会有相当多的用户支持。

以上便是内容付费服务的主要内容类型。但是,与这种日渐成势的市场崛起形成强烈反差的是,这一领域内对于低频度内容、高跨界度内容、高精粹度内容以及高场景度内容等方面的深入扎实的研究却几近阙如。毫无疑问,传统研究范式已经难以支撑起复杂多维度的研究任务,这类多维复杂问题必须借助于大数据与智能化的新兴技术与研究范式来加以认识和把握。而计算社会科学恰恰是其中的一种重要的研究手段和研究范式。

什么是“计算社会科学”?计算社会科学是采用互联网大数据、机器学习等计算技术来研究社会科学问题的新思潮和新方法。①计算社会科学从诞生伊始,就拥有“跨学科基因”,来自不同学科背景的学者们共同参与这一领域的讨论。譬如,2007年,沃特在《自然》杂志上发题为《21世纪科学》(ATwenty-firstCenturyScience)的文章,开篇颇为前瞻地提出:如果我们处理得当,互联网中的传播与互动数据将改变我们对人类集群行为的认知②;2009年,来自不同学科的15位作者联合署名,在《科学》杂志上发表了一篇题目为《计算社会科学》(ComputationalSocialScience)的论文,指出了计算社会科学是以提升数据收集分析能力为要义,与多门学科相辅相成的一种新范式③,这篇文章也被认为是计算社会科学的宣言奠基之作;2013年,拥有生物社会学科研究背景的尼古拉斯在纽约时报专栏上发表《颠覆社会学科》(Let’sShakeupSocialScience)一文,直指传统的社会学科设置需要得到调整④;次年,香港城市大学的祝建华等华人学者发表了《计算社会科学在新闻传播研究中的应用》一文,使计算社会科学全面介入新闻传播研究中,分门别类地介绍了计算社会科学在经典“5W”领域“谁(传播者),通过什么(渠道),对谁(受众),说了什么(内容),并产生了什么(效果)”中的主要应用案例,并讨论了计算思维和计算技术手段对这些研究领域的主要贡献、发展方向以及存在的问题与局限。显然,对移动互联网内容付费产业相关问题的研究恰是这种跨学科的复杂范式与研究方法的适用对象。

二、内容付费产品研究的常模

什么是“移动互联网内容付费研究”,顾名思义,即对移动互联网内容付费产业相关问题的研究,譬如内容消费者的付费意愿影响因素研究、内容提供者的最适营销渠道研究等。新闻内容生产者对在线内容付费变革最为敏感,2011年3月纽约时报率先提出“付费墙(paywall)”概念,希望借由用户有偿订阅来平衡不断下滑的广告收入,同时也减少对广告的依赖。内容付费是内容生产者对于人们新闻消费结构性转变的应对措施⑤,它绝非是对传统订阅制的简单模仿,而是逐步发展出了自身的逻辑边界。从付费本身来看,内容生产者可以基于特定内容(content-based),也可以基于内容供给频率(frequency-based)来对用户收费,前者考量用户消费了哪些特定的内容,后者则具体考量用户消费内容的多少与频次;⑥从盈利模式来看,关于内容付费盈利(pay-for-contentmodel)、广告主盈利(advertising revenuemodel)和混合盈利(hybridrevenuemodel)哪种模式最适用于移动互联网内容付费产业尚无定论,当前研究者们普遍认为内容付费和广告主付费相结合的混合盈利模式是更优解⑦,但两者在其中的主辅关系依旧争论不明。⑧

国内外学者们对内容付费的研究兴趣点稍有不同,但主要集中在几个方面:一是关注人们对于在线内容的付费意愿以及影响因素的研究;⑨二是关注内容付费的不同商业模式比较和未来趋势的研判;⑩三是关注内容付费带来的隐私保护、法律规制和行业迭代或社会变革等影响的探讨。

随着人们对于新闻、娱乐、知识等内容的消费场景持续向移动互联网转移,新的问题随之出现。我们发现依然可以借用传统的“5W”逻辑模型去思考移动互联网中的内容付费问题(如图1)。从研究便利的角度出发,我们将内容付费研究分割为5个领域(下文分4部分讨论),分别是“用户研究”“营销研究”“效果研究”和“平台研究”,其中将对生产者的研究并入营销研究部分(因为两者往往共存),同时我们也应清晰认识到这几部分存在高度关联性。我们也将在下面讨论计算社会科学是如何“通过非介入的行为数据,比传统的自报告方式更快地找到并描述付费用户的特征”等一系列问题,以及在处理相关问题时,计算社会科学先天的优势与不足。因受篇幅限制,我们将根据各分支采用计算科学的程度进行详略不同的论述。

图1 内容付费产品研究的常模

三、内容付费产品研究的四个维度

(一)用户研究(whom)

1.描摹用户画像

用户研究的一个常规重点就是用户画像。对于内容提供方(生产者与营销者)以及广告主而言,最为关键的是要知道用户,尤其是具有付费能力及意愿的用户特征与用户构成。用户特征主要包含性别、年龄、教育程度、职业、收入等人口统计学信息,用户构成主要指的是用户之间的关系信息,如关系属性(亲友、同学、同事等)、关系强弱、互动频次、个人权威性等。前者通过爬虫工具、后台数据库、个人档案检索等方式可以获取,但考虑到网络匿名问题,会出现一定偏差,视个人数据实际收集情况而定;后者通过用户的网络痕迹(internet footprint)可以实现高度还原。

Punj通过传统问卷方法获得755位互联网用户的数据,并试图对那些愿意付费的用户进行画像,以评估用户的付费能力以及与用户付费决策相关的变量。研究发现:用户的付费数额取决于用户的收入和教育程度,用户的付费意愿取决于用户的年龄和性别,并且付费意愿与付费数额之间呈反比关系。传统问卷方法常常受到质疑的地方在于,数据获得时无法避免用户回应的“霍桑效应”,采用计算社会科学的方法能有三个好处:首先是非介入式的数据爬取能有效避免用户的失实回应;其次是能获得更大规模的数据,具有更强的解释力;最后是能够更好地实现对变量因果关系的判断。通过对时间序列上用户网络痕迹的分析可还原网络拓扑的演化过程。

还有哪些因素共同决定了用户对付费内容的关注、传播以及付费决策,也是一个重要的问题。Song在研究用户对博客内容的关注与转发时提出了4个潜在的因素:用户的权威性、活动性、偏好以及社会关系。用户的权威性可以通过HITS算法计算出,活动性则根据用户的发帖、转发和评论的数量来评估,偏好指的是用户的兴趣与内容之间的相似性以及内容生产者与用户之间兴趣的相似性。社会关系指的是用户与内容生产者之间的关注(或互动)关系。尽管Song关注的是用户对博客内容的关注与转发问题,但研究思路依然为我们研究用户对付费内容的关注、传播以及付费决策提供了相当的启发。

而通过还原用户的社交联系的网络结构,并对具体节点的特征值如度中心度等的计算,是可以回应一系列重要问题的,如哪些节点用户在付费内容传播、讨论中扮演“意见领袖”的作用,拥有付费好友是否会正向促进自身的付费意愿等等。

2.筛选用户分类

用户研究的重点之二是对用户的筛选分类。越来越多的证据表明,行为和情绪可以通过人际关系在社会网络中传播并“感染”,这种传播及“感染”会导致社会网络中好友之间行为和情绪的相似性。通过付费行为和感知情绪的差异来对用户进行分类是一种新的分析与把握用户的手段。这种分析主要分为三个层次进行:第一层次是通过付费行为进行用户分类,如根据用户的付费数额、付费次数多少和付费时长等标准进行归类。第二层次是借力移动互联网接入设备对于定位服务的普遍支持,用户的地理位移信息也成为了极为重要的分类标准。第三层次则是研究者们搜集用户间关于付费内容的讨论评价文本信息进行文本分析,进而研究用户对付费内容的感知情绪、情绪波动、用户情绪之间的相互作用以及情绪沿着网络关系扩散等问题。

除却工作、睡眠、季节和天气等发生昼夜或周期性变化的影响外,来自社会关系网络中的好友情绪亦会影响用户情感。有研究发现,社会关系网络中好友之间的情绪具有很强的正相关性,好友之间的幸福感表现出同配特性,并且,不同的关系类型对个人情绪的影响程度也不一致。以上结论可通过对网络中不同子样本采用广义估计方程logit模型得以检验。有研究发现,现实关系亲密度和地理位置邻近度会显著影响用户情绪。因此,根据不同时段、不同环境下的情绪差异,将用户的付费意愿进行可视化处理,可以发现用户在何时何处何种情景下更具正面付费情绪,这对实际内容营销具有极高的策略指导价值。

(二)营销效果研究(who wants what effect)

在线内容从免费开放到付费提供的转变,意味着付费内容不再是公共产品(public good),而是俱乐部商品(club good),对于内容生产(营销)者而言,采用何种营销手段,实现在线内容的盈利是最为紧迫的问题。

2002年,皮尤的一项“互联网与美国人生活”(Pew Internet & American Life Project)的调研结果显示,仅有12%的用户愿意为内容付费,50%的用户会选择其他替代性的免费内容,36%的用户则会断绝与付费网站的再联系。十几年来,人们对于互联网内容的付费意识并没有得到较大改观。2014年的一篇文章显示,人们依然拒绝为过去免费的互联网内容付费,同年路透社的一项针对在线新闻报道内容付费的调查也得出同样“悲观”的结果——只有平均11%的用户有付费意愿,这一比例在与过去相比并没有明显的波动。显而易见,能否保证付费内容的盈利空间关键在于能否留存住付费意愿波动的人群(占比最大)。

通过将波动人群可能选择的免费同类竞争内容与付费内容进行语义聚类分析与对比,发现两类内容之间的相似与差异,从而提升付费内容的异质性和服务质量,可以有效地降低用户的流失。就一般程序而言,进行语义分析的步骤如下:首先对文本进行分词、去除停用词、还原词根(一般适用于英文文本,在中文中可采用等价同义词)以及构建矩阵;然后将矩阵中的文本转换为数值;最后进行后续的文本语义分析,例如根据语义相似度进行聚类分析、利用朴素贝叶斯模型、决策树或PageRank等提取关键词进行运算。但这种方法只适用于文字型文本,对于音频、视频或其他类型的增值服务就需要用其他的方法和手段进行分析了。

学者们从计算社会科学的角度,提出了三种常见方法以提高付费内容推送的精准度,即基于用户行为的定向、基于社会关系的定向以及基于用户自创内容的定向。其中,基于用户行为的定向是通过机器学习等方式,将用户的属性、行为等特征变成可供计算和售卖的属性,并将用户行为与付费内容进行匹配,实现内容的定位推送,较为典型的案例是今日头条的推荐算法,它基于用户的新闻点击和页面停留时长等用户行为来进行新闻的匹配与推送。相比于以上这种较为成熟的方法,后两种——基于用户的社会关系和自创内容的定向——则更能体现移动互联网社会化媒体的优势。基于社会关系的受众定向,是一种允许内容提供者将内容发送至有关用户的在线网络关系中(如论坛好友、微博粉丝等)的定向推送方法,其优势在于弥补了传统客户数据的缺陷,更快地寻找相似潜在用户并增强了内容的到达率和点击率;基于用户自创内容的受众定向,指的是通过机器学习和自然语言处理等方法,对社会化媒体中用户自创内容文本挖掘并识别用户的显隐性兴趣,来进行最适内容匹配的方法。其中的技术难处在于解决数据稀疏性问题,现实生活中并非所有用户都会发布与其自身兴趣相关的内容,因此,将后两者方法结合使用,通过对活跃用户的兴趣识别来推断与其相连的非活跃用户的兴趣,从而有效解决数据稀疏性问题。与传统的自报告数据(self-reportdata)获得方式相比,采用计算方法往往能采用一种无干涉的方法来观察、计算和解决内容付费问题,这一点是传统社会定量方法无法做到的。

(三)内容研究(what content)

比鼓吹“内容为王”更重要的是如何预测出那些注定会成为具有主流性的稀缺内容。学者思嘉瓦在一项针对3家挪威在线新闻报纸内容的纵向定量比较研究中也发现:并不是所有类型的内容都能成功货币化,也不是所有类型的内容都有能力推动用户进行付费。因此问题在于,什么样的内容更能获得喜爱?

上文中谈到的用户的互联网痕迹(也称“数字化痕迹(digital traces)”),我们可以理解为用户的“注意力半径”,指公众思考某些议题时投入的时间和认知资源,这也是一个重要的社会化媒体内容。近年来,研究者开始利用网民在搜索引擎提交的关键词来测量公众注意力。一个经典的案例是Ginsberg等人发表在《自然》杂志上的一篇题为《通过搜索引擎问题查询数据来监测流感爆发》的文章,他们利用45个与流感有关的关键词,来测量公众对流感的关注程度,并通过网民对这些关键词的检索趋势实现了对美国流感爆发的成功预测。尽管文章细节受到其他学者质询(譬如研究者们对文章中的45个关键词的选定方式存疑),但无法否认的是,这种依靠用户在搜索引擎中的贡献内容进行预测推断的思路值得我们学习。

既然搜索词能被运用于测量现实世界中公众对于疾病、社会议题的注意力,那么同理,搜索词和诸如此类的用户贡献文本是否也能用于测量公众对于特定付费内容的喜好预判?答案是肯定的。通过对搜索引擎、论坛帖区、社会化媒体等的用户检索、讨论文本进行分析,并在时间序列中进行观察,可以推断出未来一段时期用户对于付费内容的喜好与需求,未来的内容生产完全可以实行“一边预测,一边生产”的模式。譬如,对于一些非纪实、娱乐性的文字内容生产而言,可以通过无监督机器学习方式来训练机器写作,实现非人工化的内容生产。其中要注意,过度迎合受众喜好或将导致网络巴尔干化加剧等社会问题的出现,因此需兼顾受众满足与媒体教化之间的平衡。

在传统研究文献中,也有一些是关于付费内容自身特质的讨论。譬如Alexandre等人通过392名高校学生问卷数据分析影响用户内容付费行为的潜在因素,发现内容的期待感知利好(expected benefits)是主要的影响变量;也有学者研究指出,越来越多的用户付费行为是为了满足社交需要。对于这些问题,我们或许可以再作一些延伸研究,比如比较研究用户在付费前后的社交状态,看付费行为是否如其所愿,满足且扩大了用户社交关系的强度和黏度。

(四) 平台研究(which platform)

在这一维度上,将更多着眼于平台所构建出的社群(譬如豆瓣小组以及诸多的影音会员讨论群组等),在何种程度上对用户付费意愿与行为产生影响。

社群因素会影响内容消费者的付费意愿和行为决策。过去的研究多关注于用户的内容消费体验(consumption experience),学者Oestreicher-Singer则关注消费者加入在线社群前后付费意愿的改变。研究者首先随机抓取了150000名音频网站的用户信息,并按照付费订阅与否对用户数据做了二次处理,然后再次抓取了新订阅用户信息,通过数据比对发现,加入在线社群后,用户付费意愿增高,并且在社群互动中的程度高低与用户付费意愿高度呈正相关关系,研究者认为原因在于:一是社群扩大了信息的传达,二是社群中的人们感受到了同伴压力。因此研究者也建议内容营销者应扩大社群建设和推广社群服务。

“物以类聚,人以群分”是好友趋同性的体现,在社会学中,一个重要的观察结果就是好友间的趋同性推动个体形成自我网络,并对网络中的他人施加了不同程度的影响。在以付费内容为中心的社群中,人们对于内容的评价以及对内容的付费决策是否会受到其他人的影响等问题均可以用计算社会科学的方法去回答。有一些基本概念如级联率、决策阈值等,都可以用来直观、简要地表达社群中的用户受到他人影响而改变自身行为决策的临界值。其中,级联率(Cascade Ratio,CR)刻画了一位用户影响他的好友的程度,可以用该用户节点进行内容付费之后他的朋友也进行内容付费的频次进行衡量;决策阈值则可以定义为,当一个用户决定进行内容付费时,他已知他的朋友当中已进行内容付费的数量,基于决策阈值,可以为社群中的用户进行付费决策建立动力学模型。

(五)简要结论与延伸探讨

俗话说“万变不离其宗”,内容付费的问题从线下转移至线上,虽然其形态、方式和策略均有新变化,但仍然“改头换面,不离旧时”。尽管我们非常清楚在当下的一些移动互联网应用场景中(比如说分答),一些本应是内容消费端的人转而成为了内容的生产者,但这种转变既已形成,就将回归到“内容生产—营销—消费—反馈”的经典线性逻辑之中。所以,我们在上文中也按照这种思路,将移动互联网中的内容付费问题拆解成四个部分,并分别讨论了计算社会科学参与其中的革新与局限。

在用户研究方面,我们主要讨论了如何通过计算的手段去对用户进行画像描述和筛选分类。由于方法工具自身的非介入性特点,我们只能依赖用户在网络中的主动暴露,无法像传统问卷法、访谈法甚至是实验法那样轻易获得用户的个人属性,但另一方面,我们却能比传统工具更快更具信度地获得用户的关系数据,从关系视角去对用户进行画像和归类应成为使用计算社会科学的本衷。

在营销效果研究方面,我们主要讨论了两点:如何通过语义对照提升付费内容的异质性以及如何精准地推送付费内容。目前的工具和方法都已能成熟实现,未来研究者可以关注如何用计算手段测量不同阶段中的营销效果(如短中长期效果测量),以及如何使用计算手段实时反馈营销效果等问题。

在内容研究方面,我们讨论了内容生产预测的方向性问题以及机器生产的趋势性。在过去,以新闻写作为代表的内容生产更多地受到来自政府、企业财团和广告主的控制,如果实现了全面的内容付费,虽然内容生产者能在某种程度上从上述桎梏中松绑,但无疑又坠入另一种控制中,即为具有付费能力的用户群体所左右。无论在哪种情况下,内容生产都依然被精英阶层所控制着。计算社会科学作为一种纯粹的工具手段,尽管无法改变这种现状,但却能通过数据画像比过去更为有效地告诉人们——谁在左右着内容生产。

在平台研究方面,我们主要讨论了社群如何影响人们的内容付费意愿或行为。未来的研究可以关注现实社群中对付费内容的讨论和基于付费内容而形成的在线社群讨论之间的差异,两者是截然不同的视角与思路。

计算社会科学是在数据(online/digital data)和计算方法(computational methods)两大条件成熟后出现的。显而易见,我们将其引入内容付费研究中能为我们带来新视野,掌握新的有效工具,其优势在于:第一,数据的价值优势以及对海量数据的处理优势;第二,这是一种从观察出发,全面总结的自下而上的归纳推理;第三,研究的非介入性,尽管它同样面临信度问题,但不失为自报告数据分析方法的有效补充。

当前关于内容付费研究的局限在于:其一,研究案例以在线文字内容付费为主,关于音乐、视频以及其他增值内容服务付费的案例较少;其二,对于移动互联网中的内容付费问题尚缺少框架性把握,一方面与相关研究不够深入有关,另一方面也与当前业界内容付费尝试尚未穷尽,不断发展亦有关系。

当前计算社会科学在内容付费研究中应用并不普及,因此本文旨在为未来研究提出潜在假设与发展方向,以供后续探讨。

注释:

② Watts,D.J..ATwenty-FirstCenturyCcience.Nature,445(7127),2007.p.489.

③ Lazar,D.,Pentland,A.S.,Adamic,L.,Aral,S.,Barabasi,A.L.,Brewer,D.D.,Christakis,N.A.,Contractor,N.,Fowler,J.H.,Gutman,M.P.,Jebara,T.,King,G.,Macy,M.,Van Alstyne,M..ComputationalSocialScience.Science,323(5915),2009.pp.721-723.

④ Christakis,N.A..Let’sShakeUptheSocialSciences,The New York Times,http://www.nytimes.com/2013/07/21/opinion/sunday/lets-shake-up-the-social-sciences.html,published in July,2013,achieved in December,2017.

⑥ Chiou,L.,& Tucker,C..PaywallsandtheDemandforNews.Information Economics & Policy,25(2),2013.pp.61-69.

⑦ Li,Z.,& Cheng,Y..FromFreetoFee:ExploringtheAntecedentsofConsumerIntentiontoSwitchtoPaidOnlineContent.Journal of Electronic Commerce Research,15(4),2014.pp.281-299.

⑧ Macnamara,J..RemodelingMedia:TheUrgentSearchforNewMediaBusinessModels.Media International Australia,32(1),2010.pp.20-35.

⑨ Kvalheim,Nina.NewsBehindtheWall:AnAnalysisoftheRelationshipbetweentheImplementationofaPaywallandNewsValues.Nordicom Review,34,2013.pp.25-41.

(作者喻国明系教育部“长江学者”特聘教授,北京师范大学新闻传播学院执行院长、教授、博士生导师,中国人民大学新闻与社会发展研究中心主任;段泽宁、孙琳系北京师范大学新闻传播学院硕士研究生)

猜你喜欢
社会科学内容用户
内容回顾温故知新
《云南社会科学》征稿征订启事
《北京科技大学学报》(社会科学版)
《河北农业大学(社会科学版)》2021年喜报
关注用户
主要内容
关注用户
关注用户
如何获取一亿海外用户
社会科学总论