黄峥 李理
【内容提要】第四次工业革命如期而至。以人工智能、石墨烯、基因、虚拟现实、量子信息技术、可控核聚变、清洁能源以及生物技术为突破口的工业革命正在为人类简史谱写新的篇章。这其中,在人工智能的宽阔赛道上,数字化转型正在成为传统行业变革的突破口。传统媒体如何将最新的科技理念嫁接进来,实施落地并收获良好的效果,成为传媒人要直面的问题。“人工智能在媒体场景的应用”是笔者赴美留学的专业研究方向。而作为中国环球电视网(CGTN)的成员,亦肩负着将沉睡数据唤醒并挖掘其自身价值的义务。作为联动最新科学理念和行业数据的嫁接人,笔者尝试通过CGTN电视端已播出的新闻,用“独家数据标签”的方法挖掘其2017年至2019年不间断播出的新闻大数据价值,验证CGTN制作的国际传播内容是否符合其国际传播意图及运营策略。通过数据思维帮助CGTN提升运营效率及效果,最终为发出中国声音寻找最佳路径。
【关键词】数字化 数据思维 数据标签 运营策略 验证传播意图
一、研究目的
进入2020年,中国加大了新基建的投入,尤其是在数字化转型、大数据、人工智能等领域给予了明确的导向和资金支持。媒体的转型,尤其是传统媒体的数字化转型,成为了当前媒体变革引领者们必须思考并亟待解决的问题。如何把握住科技的助力来完成行业转型的关键一跃,是巨大的机会,更是巨大的挑战。
“人们在通过媒介取得讯息时,往往只注意于显而易见的,即其内容。但在过程当中,我们很大程度上错过了一些微妙的、经过长时间地引入到我们当中的结构性变化。”①媒介即讯息在历经数十年的现世解读之后,除了内容层面的信息价值之外,又凭增了一份数据思维带给媒体生机的新视角。
“传播过程具有序列性。这种序列性表现在传播过程中各环节和因素的作用各有先后次序,按照讯息的流向依次执行功能。”②从当前传播过程来看,媒体制作内容-各渠道传递内容-用户获取内容,是一个基本的传播交互。
从大数据的应用情况而言,研究网络平台用户行为的数据分析最为热门和广泛。从各大新闻网站、客户端,到最聚合人气的社交媒体平台,如脸书(Facebook)、优兔(YouTube)、推特(Twitter)、微信、微博,以及音频产品如越来越受到欢迎的播客(podcast),再到智能语音产品,如亚马逊的艾力克萨(Alexa),苹果的思睿(Siri),谷歌的谷歌助手(Google assistant)。不同的内容集成产品形态,或许可以告诉人们一个现象:交互形态不断变化,科技含量越来越高,但不变的是,内容才是填充一切互动产品的最关键要素。
全球化、互联网化让信息填塞在信息社会的每一个毛细血管里,但媒体作为信息的重要传递者,又在自己的信息传输通道上传送着怎样的内容呢?这些被生产出来的内容是否匹配着媒体的传播定位和策略?大數据是否可以帮助媒体还原自己的传播画像,继而去调整、适配自己的既定策略,验证自身的传播意图呢?内容生产和数据分析相互佐证的过程中,是否能形成一个良性的双向互动,去改善、推进传播效果的提升呢?
CGTN(China Global Television Network,中国环球电视网)成立于2016年12月,作为中国对外进行国际传播的旗舰集团,四年来致力于让世界听见来自中国的不同声音。“See the Difference(看见不同)”作为CGTN的形象呼号直接且鲜明地表达出其运营的定位及目标。本文试图通过CGTN电视渠道已播出的新闻,挖掘其2017年至2019年不间断播出的新闻大数据,验证CGTN制作的国际传播内容是否符合其国际传播意图及运营策略。
二、研究方法:用数据思维给CGTN的播出内容打上“数据标签”
(一)为什么“打数据标签”
“Tag”(标签)和“Label”(标签)的中文翻译都含有“标签”的意思。在笔者的研究领域,“Label”展示了CGTN的官方自主设定,即“向世界传递中国声音的中国媒体”“让全球用户看见不同的电视台”“中国对外传播旗舰”等。而“Tag”更像是“标记符”,定义者来自观众、用户、研究者等的自由设定。正如笔者作为CGTN的研究者,“CGTN是什么”是由笔者的观察视角进行定义,为CGTN打上什么样的标签,取决于笔者的研究诉求。
笔者依据自身新闻一线经验及多年数据分析背景,将CGTN播出的电视新闻视频,拆解成颗粒度更小的新闻数据,此为“打数据标签”的过程。笔者对数据标签的定性过程既展现了对新闻传播效果的理解,也为得到研究成果持续备料。笔者希望基于自由定义的数据标签获得CGTN相对客观的传播画像,继而验证其国际传播意图。
(二)如何“打数据标签”
《华尔街日报》等全球新闻媒体集团正在积极寻找数字化转型。用数据驱动业务,已经成为领先媒体大力应用且顺势而为的新选择。所以,用客观的数据结论去验证CGTN的传播意图,既是笔者数据化思维的一种现实尝试,也是针对研究对象尚无先例的独特实践。在这个大前提的指引下,笔者定义了不同类别的新闻数据标签,便于提取CGTN电视端播出新闻的新闻要素。例如:新闻主题、新闻属性、出镜记者地点、单条时长、报道方式等一级数据标签;在这些标签下,又会衍生出二级数据标签,比如报道方式下还会有新闻片、口播画面、单边报道、访谈等细分标签。
三、研究成果:基于CGTN播出大数据的案例分析(2017年至2019年)
在人工为每条新闻打上数据标签后,CGTN公开播出的新闻便都具备了可被识别、并区别于其他新闻的特征属性。正如没有一片树叶是雷同的,通过“标题+标签+播出时间”等属性刻度,每条新闻都成为可被记录的独特个体。本文从“CGTN播出新闻数据库”中选取全样本数据进行分析。其中2017年采集样本数量为294天,5013小时;2018年采集样本数量为275天,4748小时;2019年采集样本数量为255天,4276小时。从以上样本中,笔者获取的CGTN新闻数据标签数量分别为2017年2,269,032个,2018年2,229,829个,2019年1,929,666个。
针对播出的电视节目,笔者定义的CGTN新闻数据标签拥有超过20种不同分项属性。针对电视传播内容,笔者选取了三个维度进行大数据解析,分别是:1.媒体报道内容种类:政治/经济/文化/国内新闻/国际新闻等类;2.媒体报道观点输出:单边连线(记者及嘉宾)/电话连线(记者及嘉宾)/演播室访谈(记者及嘉宾);3.媒体报道能力范围:记者出镜国家/新闻报道地区等。本文主要针对媒体报道内容种类进行详细解析。
(一)新闻报道内容种类与新闻数据标签的融合
新闻报道内容种类多样,在笔者的理解及打标签的过程中,它可以被多重定义。按国内外内容分类,可以分为国内、国际,以及带有中国内容的国际新闻报道;按实际报道内容分类,可以分为政治、经济、文化、体育、科技等。强调这一点,既是为了在横向广度上为新闻多赋予一列价值,也是希望在未来与人工智能的结合转化中,赋予新闻被识别和被计算处理的可能性。同时,这也是一个清洗数据的过程,更是未来机器学习的底层数据储备。打数据标签不是目的,目标被挖掘才是。下面是笔者按国内、国际及涉华国际(有中国内容的国际新闻)的数据标签进行的CGTN新闻报道大数据分析。
(二)CGTN报道特征:国际媒体底色鲜明,海外区域制作中心偏好不同
1.CGTN国际媒体底色鲜明
(1)数据凸显CGTN国际媒体属性经数据分析,2017年至2019年,CGTN各年度国内外新闻播出结果如下表:
CGTN交出了一份和建立初衷极为正相关的国际传播答卷。通过表1,纵观CGTN2017年至2019年的报道,国际新闻报道占比已稳定在50%以上,涉华国际新闻也呈上升趋势,二者三年占比总和达CGTN总报道量的86%。这组数据不仅说明CGTN的播出内容明显区别于对内报道,更用事实证明,CGTN已具备全球视野,通过多元信息渠道对国际发声。
2017年至2019年,CGTN电视频道被有效记录的新闻播出总时长为15.5小时/天。通过图1可以看到,CGTN三年涉华国际新闻播出占比是31.49%,国内新闻播出占比是14.05%。两数据合一,说明CGTN每天正在用至少近7小时[15.5小时/天*(31.49%+14.05%)]的时长向全世界播报与中国有关的新闻。虽然尚无法找到可以比对的其他媒体该项数据,但笔者认为这组结果提供了一个判断基点,即所有用英语制作与中国有关新闻的机构,都可以在该传播效果值上,與CGTN进行客观对比。
(2)政治经济类新闻领头,“国际+政治”“涉华国际+经济”新闻成为CGTN特色
经数据分析,2017年至2019年,CGTN各年度各类新闻报道播出结果如下图:
通过图2可见:CGTN作为代表中国发声的国际媒体,在政治(蓝色)、经济(橙色)、社会(红色)三大类新闻的报道上投注了最大的力量。三年间(2017年至2019年)各类型新闻报道数量中,“政经社”占到CGTN整体播出内容的87.4%;同时,从年度走势分析,政治新闻占比在逐年递减。科技、文化、体育、生态环境等软性新闻的报道比例在逐年上升,医疗健康(粉色)及生态环境(紫色)均为2018年起新增加的数据标签,二者的报道量占比由2018年的1.27%/2.27%上升至2019年的1.83%/3.17%,均有所提升。
结合上述数据,笔者又进一步联动其他数据,试图寻找在CGTN报道占比最大的政治、经济两类新闻中,哪类新闻更占领先地位。笔者选择带有“国际/涉华国际/国内新闻”标签的数据进行联合统计,经分析由图3发现:政治大类的新闻中国际政治新闻报道数量遥遥领先,占比64.45%。而经济类新闻中,涉华国际新闻成为头名,占比53.3%。
该数据分析旨在解决现实传播中的直觉误差和精准传播问题。在严肃新闻传播领域,政治和经济类新闻是传播的重中之重,但垂直类别下,更突出哪一方面特质,或是策划中枢该指出的方向。这组数据的结果只是客观分析出CGTN播出新闻的选择偏好,是否与策划指向吻合,是否需要持续调整,正是笔者做此研究的目的所在。
(3)形成三个层次的内容输出结构
经数据分析,基于2017年至2019年共计824天的自然记录样本,可以明显发现CGTN的内容输出偏好有三个层次。“政经社”为第一梯队,三年记录的累计报道量为6322小时、累计报道占比为87.40%;“科文体”为第二梯队,三年记录的累计报道量为656小时、累计报道占比为9.07%;医疗军事及其他为第三梯队,三年记录的累计报道量为256小时、累计报道占比为3.54%。从这三个梯队的内容输出或可尝试探究其背后团队的组织构成和贡献。
2.CGTN四大区域制作中心(北京/华盛顿/内罗毕/伦敦)报道重心各具特色
截至2019年12月,CGTN相继在全球部署了四大区域制作中心(以下简称“区制中心”)协同北京总部向国际受众播报新闻。如果说样本整体数据呈现的是CGTN的整体报道气质,那么研究四大区制中心的独立数据,即可看出其不同地域属性下的不同报道重心。
由四个区制中心固定播出时段的日均记录数据可获得以下传播特点:
(1)区制中心精耕本土新闻
经数据分析,从图4可见,内罗毕(83.75%)、伦敦(72.71%)、华盛顿(57.27%),三个海外区制中心把精耕本地新闻放在了重中之重,国际新闻报道占比均超过50%,内罗毕区制中心更是将以非洲相关新闻为主的国际新闻报道量推到了80%以上。由于数据采集周期内,伦敦中心正在建立初期(2019年10月建立),其72.71%的国际新闻报道占比或并不稳定,但在报道大方向上也呈现出本土新闻优先。
(2)数据透视海外区制中心调度资源偏好和能力
快速调度当地资源是各区制中心拥有的地域优势之一。邀请嘉宾和海外报道员进行新闻解析和报道则被笔者看成是区制中心的重要功能。从数据标签的角度看,若将嘉宾能否受访和海外报道员能否快速带来现场连线(单边+电话)的数据合并统计,或可透视出CGTN海外区制中心对当地人力资源的调度偏好和能力。
笔者将各区制中心所承担的时段统一看成一个单位,联动统计数据嘉宾访谈、海外报道员单边、海外报道员电话连线的数据标签,得出如图5的表现分析:
1)华盛顿区制中心调度表现丰富,尤其在涉华国际新闻的人力资源配置上表现突出,37.56%的数据至少说明其对该类新闻报道的嘉宾和海外报道员储备深厚,三年的各独立均值表现证明其在三个话题领域里时刻处在积极状态;
2)伦敦区制中心通过三个月(2019年10月至12月)的数据表现,可见其对国际事务的重视及其人力资源撬动能力,国际新闻占比44.14%,涉华国际新闻占比35.45%,两项数据共同展示出伦敦区制中心筹备期的细致到位;
3)内罗毕区制中心透过数据的表现很值得持续分析挖掘,从图5可见,内罗毕83.75%的编排都放在国际新闻上,而国际新闻的表现方式中,他们启动嘉宾和海外报道员的比例在三个区制中心里比例最低(蓝色区域的12%至18%)。在笔者看来,数据反映出内罗毕与其他两个中心的比例差实则也是现实中多地不同经济水平的差值。从专业嘉宾储备、报道员现场到达能力上,非洲处于下风或无可厚非。但他们依然用其他方式强势输出国际报道,或更值得认可。
四、研究探讨:CGTN播出大数据分析与运营策略的关系
综上,经由大数据分析的CGTN国际传播画像已部分跃然纸上:电视频道86%的国际新闻及涉华国际新闻占比,足证其国际媒体属性;“政治、经济、社会”三类新闻以87.4%的播出比例强化了CGTN的内容选择偏好;内罗毕(83.75%)、伦敦(72.71%)、华盛顿(57.27%),三个海外区制中心投入绝对精力深耕本地新闻……数据冰冷而客观,大数据描绘出这个代表中国发声的国际媒体的基本表达形态。除此之外,通过数据,CGTN更可以清晰地观察、审视自身,适时调整运营策略,以提升国际传播效果值。为此,笔者提出几点思考:
1.做真正有意义的创新工作。这些国际传播画像是否匹配CGTN的预先设定?是否体现了管理者意志?是否体现出理想与现实的运营错位?笔者认为,拆解、计算、分析CGTN电视播出大数据的过程像是求解,不仅可以寻找CGTN关于国际传播效果的答案,还能为答案纠偏。上文选取的几个数据标签仅仅勾勒出了CGTN的一个侧面,以上分析也只是笔者有关大数据与传统行业嫁接实践探索的一部分。这不是风口,而是真正有实际意义的工作。
2.带着“瑕疵”前行。“CGTN播出新闻数据库”从2014年开始创建,经历了数次新闻数据标签的调整。这些调整有添加、有删除、有更名。而数据标签的更替会影响数据分析的协同性。数据采集周期内,笔者考虑过是否将前序数据进行补充,但这会使分析工作量大增。大数据具备容错性,带上“瑕疵”继续向前,是笔者的选择。
3.大数据不是灵药,需要通过从业者的行业感知力焕发其价值。自CGTN成立以来,笔者在不断验证新闻数据标签的价值,并探索大数据分析与运营策略的关系。如果說国际传播效果是评价各大媒体集团表现的量化成绩,那么除了覆盖全球的记者站数量、全年发布的新闻条数、突发新闻的时效排名……节目数据运营效果是否也可以作为国际传播效果的一个衡量指标?当被打上数据标签的电视新闻成为一条条可被量化的表达,CGTN的传播策略便具备了被大数据解析的可能。没有数据标签之前,这些策略是一个策划团队的指导意志,是接受议程设置的栏目编排,是最终成为单条新闻、某一嘉宾访谈或记者单兵作战的影像。而在笔者创建的“CGTN播出新闻数据库”中,通过分析2017年至2019年,共计824天,14,037小时,6,428,527个新闻数据标签,便可明确CGTN的新闻报道是否符合其创建初心,匹配其传播定位,更有机会在数据解析的基础上做出适应时代发展的战略调整。
新闻每天发生,传播各有不同。依靠直觉的电视策划是否能够适应已经到来的数字化时代,或应成为同行们的必选思考。笔者想强调的是,数据对传媒业的影响变革,并不是宏大的几个名词。如何将其落在实处,真正发挥其价值,是值得每一个有志于数据改变未来的人要落地实践的。“CGTN播出新闻数据库”从数据获取的源头上并没有任何壁垒,只要能收看,就能获取到。而清洗数据、认知数据、结构化数据、挖掘数据并不是一个简单的大数据分析流程。这其中对数据的理解深藏着笔者对中国国际传播的多年观察和积累,以及对传媒行业转型的持续追踪和思考。
人工智能、数字化转型在和行业嫁接的过程中究竟重构了传统企业的什么?在笔者看来,对数据的珍视和灵活应用,显示出数据思维对新型组织变革的推动作用。
(本文获得国家留学基金委支持。)
作者:中央广播电视总台英语环球节目中心
主任编辑
中央广播电视总台英语环球节目中心编辑
「注释」
①Mark Federman (2004, July 23), What is the Meaning of the Medium is the Message? Retrieved
②郭庆光:《传播学概论》,北京:中国人民大学出版社,2011年,第54页。
责编:李倩