传播手段创新视域中大数据时代新闻生产流程重构*

2018-04-26 02:33:20夏雨禾
中国出版 2018年6期
关键词:生产算法

□文│夏雨禾

习近平总书记在党的十九大报告中提出,要“高度重视传播手段建设和创新,提高新闻舆论传播力、引导力、影响力和公信力”。[1]在技术日新月异的传播语境中,提出“传播手段建设和创新”,具有重大现实指导意义。传播手段,指的是为达到特定传播目的而使用的工具、方法和技巧。推动传播手段建设和创新,并不单纯指技术层面的问题,“任何技术都体现人的目的要求,人将自己在社会中形成的生活与生产目的注入到技术中,使技术具有了在社会中形成的意义”,[2]就此而言,传播手段建设和创新是一个目标指向鲜明的系统工程,其重心并不在于技术本身,而是在充分认知技术本质和运行逻辑的基础上,确定以何种方式、方法恰如其分地运用技术手段来提高新闻舆论传播力、引导力、影响力和公信力。

本文的研究,将围绕大数据思维中的新闻生产、新闻生产中大数据技术的运作逻辑和应用场景、大数据时代新闻生产流程重构面临的风险等问题展开探讨和分析,以期抛砖引玉。

一、大数据思维中的新闻生产

大数据这个概念正面临被滥用的风险,似乎规模庞大的数据集合都可以被称为大数据,这是一个认知误区。大数据是特定技术条件下的产物,即通过网络和计算机技术进行捕捉、存储,并可以被用于管理和分析的数据集合。

1.大数据的本质特征

大数据的本质特征并不只是它的规模,更在于它的三个主要特性。

其一,在线性。大数据来自于在线行为,只有在线行为所产生的“数据足迹”才有可能通过网络和计算机技术进行抓取、捕获和存储。因此,任何离线或线下行为所产生的数据信息,比如,线下调研所产生的数据集合,无论规模多大,也不能称为大数据。

其二,流动性。大数据在形态上具有“液态”流动性特征,由于大规模网络节点的在线行为无时不刻都在生产数据,由此而生成的数据集合并不是一成不变的静态存在,而是处于变动不居的迭代更新状态。因此,大数据具有很好的流动性和成长性,这是通常所说的数据库所不具备的。

其三,精准性。大数据在质量上具有精准性特征。“精”指精确,大数据是在线行为的“全景”记录,任何肉眼无法察觉甚至是自身未曾留意的“蛛丝马迹”都有可能被记录,因此数据的“粒度”很高;[3]与此同时,由于大数据具有迭代更新的流动性特征,这就有利于形成有效的优化和反馈机制,相应的,数据对在线行为的描述或标签也不是一成不变,而是不断趋于准确。

表面来看,大数据是一堆无组织且杂乱无章的数据集合,其间却隐含着很多肉眼无法识别的规律和趋势特征。要从沙粒般的数据中识别这些规律或趋势特征,就必须借助于“算法”。所谓算法,即通过计算机解决、分析问题的策略和方法体系,简而言之,就是计算的方法和技巧。相应的,利用算法对大量的数据进行分析,进而揭示数据中隐藏的关系、模式和趋势,这个过程就被称作是“数据挖掘”。[4]大数据离不开算法,可以说,没有算法的大数据只是一堆冰冷、无用的数字“垃圾”。从这个角度来看,称算法为大数据的“灵魂”毫不为过。近年来,随着数据科学和统计学的发展,算法领域的创新层出不穷,而突飞猛进的计算机技术更是让各式各样的算法“如虎添翼”。

2.大数据思维中的三大需求

大数据并不是简单的技术,更是一种集在线化、数据化和算法化于一体的思维方式。大数据思维方式中的新闻生产,同样也必须满足在线化、数据化和算法化“三大需求”。

一是看是否已经实现在线化。从某种程度上说,传统媒体布局“中央厨房”“三微一端”,其目的之一就是试图通过在线化改造的方式,提升新闻生产的效率和质量,从表面上看,已经满足了在线化的需求。

二是看是否已经形成数据反馈系统。在线化只是一个开端,关键是要看能否产生数据反馈并形成源源不断的数据流,为新闻生产提供全新的动力源。如果布局“中央厨房”“三微一端”只考虑“播”而很少顾及“传”的问题,其所导致的可能性后果就是,很少甚至是没有数据反馈,无法满足数据挖掘的需求,新闻生产对接大数据技术将只能是“空中楼阁”。

三是看是否具备数据挖掘能力。在拥有反馈数据流的情形下,是否拥有特定的算法模型,挖掘新闻生产所需的素材或信息,将数据转化为新闻生产中的“现实生产力”。值得注意的是,这种“现实生产力”并不是新闻报道的内容,而是提升新闻生产效率和质量的手段。

综上所述,大数据思维中的新闻生产,既不是将大数据作为新闻报道的内容,也不是单纯的技术应用,而是如何通过在线化、数据化和算法化三个环节,让大数据真正服务于新闻生产的实践需求,这也是大数据时代传播手段建设和创新的重要原则。

二、技术逻辑的变革及应用场景

在传统的新闻生产流程中,人是唯一的主体性因素。这虽然可以在最大程度上保证新闻传播活动的可控性水平,但其间也不可避免地会掺杂大量与人有关的“非生产性”因素。比如,权力结构、从业者个人经验、程式化的工作流程、人际关系的协调、重复性或事务性的活动等,都有可能会对新闻生产造成干扰。更为重要的是,由于技术能力有限,传统新闻生产始终无法突破“传—受”之间的隔阂,纵使是借助受众调查等手段,也无法得到全面、动态的反馈信息,这就使得新闻生产难以摆脱“闭门造车”式的困局。

1.技术使“人—机”关系发生变化

大数据时代来临后,“人—机”关系格局发生了变化,上述问题有望得到较为彻底地解决。在传统编程环境下,计算机只不过是听令于人的“工具”,它根据人发出的指令执行运算任务,再将运算的结果反馈给人。大数据时代来临后,上述逻辑发生了变化,如下图所示,计算机在给定算法模型和样本数据集的情况下,可以以“自我反馈”的方式对样本数据集所隐藏的关系、特征、模式等信息进行归纳,在此基础上,设定算法模型的参数或阈值,并继续对新的数据流进行自动跟踪分析;值得关注的是,算法模型的参数和阈值并非一成不变,还可以根据新数据流的反馈信息不断进行自我调整和优化,使分析的结果更趋准确。由于这个过程与人的学习过程非常相似,因此被称为是“机器学习”。不难发现,机器学习的过程中,计算机、算法和数据三者之间构成了一个相对独立的反馈闭环,计算机的“工具性”角色趋于蜕变。

图 机器学习中的反馈闭环

2.技术应用在生产新闻中的表现

在机器学习的环境下,人只需提供“教材”即算法模型和样本数据集,计算机就能够“自主学习”并相对独立地完成原本应该由人来完成的许多工作,它不仅可以将人从许多费时、费力以及重复性的劳动中解放出来,更为重要的是,它为消除新闻生产过程中许多“非生产性”的干扰因素提供了全新的思路,这主要体现在以下四种典型的应用场景。

雪到底是谁造的呢?动物们争论不休。鼹鼠爬爬怕鸟,所以尽管他期待看雪,却又畏惧哥哥们口中描述的像白鸟一样的雪花。妈妈说,死去的鼹鼠会变成白色,去天上造雪,可小猫头鹰坚持说,造雪的是死去的猫头鹰。生命旅程,往复不息,“雪”成为引导我们坦然面对死亡的线索。死后的动物化作白色的精灵去云上造雪,美好的想象化解了死亡的伤痛,《是谁造了雪?》因而成为读者爱不释手的“生命之书”。

应用场景一:机器写作。即给定计算机特定的样本数据集如财经类、体育类、环境类报道或相关领域的研究报告,以及特定的算法模型,计算机经过“学习”以后,就可以根据数据源的动态变化直接生成新闻报道。比如,新华社的“快笔小新”、南方都市报的“小南”、第一财经的“DT稿王”等机器写稿人,依循的就机器写作的原理。随着物联网社会的到来,只要机器写稿人与植有传感器的终端设备相连接,便可根据传感器反馈的数据自动生成新闻报道。由于计算机的运算能力远超人类,所以机器写稿人的工作效率极高。据相关报道,腾讯写稿机器人“梦幻写手”(DreamWriter)财经+科技应用的发稿量已经超过了2000篇/天,体育稿量也达到了500篇/天。[5]这种出稿速度显然是人力所无法匹敌的。

应用场景二:用户画像。即以数据挖掘的方式对人的在线化行为留下的“数据足迹”进行分析,并添加各种标签。但凡用户有在线的媒体使用行为,其ID、终端、位置、时长、频度和轨迹等数据就会被记录,媒体也就有机会获取用户行为的“全样本记录”。当然,在拥有开放数据源的情形下,用户的其他“数据分身”如社交、消费、流量等数据信息还可以帮助媒体了解用户更为多维、立体的生活“画像”,从而使新闻生产更加有的放矢。当然,在社交媒体迅速崛起的背景下,新闻生产的信息来源也日益增多,用户画像还有助于媒体在追踪信息来源“数据足迹”的基础之上,对他们提供新闻线索的价值、可信度等进行评估,有效防止虚假信息和谣言的扩散。

应用场景三:文本挖掘。除了能够对用户进行“画像”之外,大数据技术还可以对海量的网络信息进行“画像”,即通过分词、向量化处理等技术手段,对以自然语言方式呈现的网络信息进行快速分类并添加标签,从而将采编人员从繁重的新闻背景资料检索、组织等事务性工作中解放出来。除此之外,文本挖掘还有助于从海量的信息中快速辨识热点和有价值的新闻线索,使新闻主题的发现与跟踪、热点趋势预测等工作更具科学性,进而有效解决困扰新闻生产中经验主义、权威主义等问题。

应用场景四:推荐系统。即在对用户“画像”或用户新闻产品选择和使用行为进行推算的基础上,“投其所好”向用户推送他们可能喜欢的新闻产品。推荐系统一般用于新闻产品的分发环节,它有助于将新闻产品更加精准地“送达”有需要的用户,从而实现所谓的“定制化推送”。

不难发现,上述应用场景已经基本上实现了对新闻生产各环节的全程覆盖,机器写作部分地取代了新闻生产中的人工写稿,大幅提升了新闻生产的工作效率;用户画像和文本挖掘使新闻生产不再是“闭门造车”,不仅摆脱了经验主义和权威主义的困扰,还有助于媒体从浩如烟海的用户和信息中迅速找到可靠的信息来源和新闻素材;推荐系统则有望解决新闻传播活动中的“传—受”隔阂,使千人千面、精确到达的理想化传播生态成为可能。当然,从技术发展的角度来看,机器学习还只是初级阶段,随着以人工神经网络算法体系为基础的深度学习技术的出现,上述应用场景的面向领域将更为广阔。2017年12月,中国第一个媒体人工智能平台——新华社的“媒体大脑”已投入运行。据报道,该系统除了能够实现机器学习的各种应用场景之外,还能利用深度学习技术,帮助媒体在海量的新闻图片中精确识别图片中的人物,并可以构建图像中人物的关系图谱。[6]深度学习技术的应用和推广,预示着新闻生产将真正迈入人工智能时代。

三、流程重构的问题及对策

技术的变革虽然能够给新闻生产带来诸多美好的“愿景”,但并不意味着,前方就是一路坦途。大数据时代新闻生产流程的重构,首先要解决好数据来源问题,还必须直面因“人—机”关系格局变化而产生的新型风险。

1.“人—机”关系的新格局带来的风险

数据是大数据时代新闻生产的生命线和动力源,新闻生产流程的重构是以数据流为基础的,离开数据一切都只是空谈。因此,搭建多样化的数据共享平台,从各个渠道获取满足新闻生产所需的数据,已经是迫在眉睫。整合媒体“三微一端”联动优势,让来自各媒体端口的数据“汇聚成流”,是获取数据的现实途径之一。2017年8月19日,《人民日报》社发起建设“全国党媒公共平台”,目前已经有200多家党媒加盟,其目的之一,就是汇集来自各党媒在线端口的反馈数据,供所有加盟者分享使用。[7]当然,除纵向整合媒体自身的反馈数据之外,地方性媒体还可以通过横向打通的方式,对接本地的政务数据和服务数据,扩大新闻生产的数据来源。

除解决数据来源问题之外,大数据技术给新闻生产带来了全新风险也不容小觑。第一,机器写作自动生成的新闻稿件,可能会因“把关人”缺失而产生不良社会后果。比如,2016年1月4日,央视新闻、澎湃新闻发布消息称江西九江发生6.9级地震,事后就被证明是机器写稿人根据“地震台网自动后台录入信息”而导致的“乌龙”事件。第二,文本挖掘技术虽然有助于新闻主题的发现与追踪,但也可能导致的新闻主题大规模同质化现象。第三,基于用户偏好的推荐系统虽然可以实现“定制化推送”,但传播学意义上的“回音壁”效应却有可能导致用户在不断重复的自我证实中强化固定成见,从而身陷“信息茧房”。在这样的情况下,新闻传播的舆论引导和社会整合功能将愈发难以实现。

2.多维度评价指标体系的建立

上述新型风险的产生,均与技术语境变迁背景下“人—机”关系格局的变化密切相关。事实上,无论计算机的“学习”能力多么强大,新闻生产流程中人的主体性地位依然不能丧失,构建以人为主导的“人—机”新型协作系统势在必行。第一,把关机制的重塑。目前,用户画像和文本挖掘等应用虽然已经不同程度涉及“把关”环节,但很难保证没有“漏网之鱼”,比如,各种擦边性质的不良内容,与意识形态相关的政治、宗教等敏感信息等。因此,有必要建立以人工审核、用户举报和计算机过滤于一体的多元主体新型把关机制,从源头上防范风险的产生。第二,技术规则的设置。样本数据集和算法之间的搭配使用充满着辩证关系,不同样本数据集或算法所导致的“学习”效果有可能大相径庭,即使同一样本数据集和算法搭配使用的情况下,不同参数和阈值的设置同样也会影响数据解读的科学性。在这样的情况下,科学设置技术规则和标准,对样本数据集和算法的采用方式、流程等作出具体规定,就显得十分必要。第三,评价机制的建立。作为大数据时代传播手段建设和创新的有机组成部分,新闻生产的流程重构始终是以服务于新闻舆论工作为目标指向的。就此而言,探索建立一套多维度的评价指标体系,从传播力、引导力、影响力和公信力等角度对新闻生产中大数据技术应用的效果进行评价,也是势在必行。

参考文献:

[1]习近平.决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利——在中国共产党第十九次全国代表大会上的报告[N].新华社北京2017年10月27日电

[2]肖峰.论技术的社会形成[J].中国社会科学,2002(6)

[3]数据的“粒度”,即数据的细化程度。细化程度越高,粒度就越小;反之,细化程度越低,粒度就越大

[4]涂子沛.大数据[M].南宁:广西师范大学出版社,2013:98

[5]赵思强.世界互联网大会频频提及的“人工智能”,到底如何影响传媒业[EB/OL].来自微信公众号“传媒茶话会”,2017-12-05

[6]新京报.新华社已搭建人工智能平台[EB/OL].2017-12-05,http://bigdata.idcquan.com/news/132012.shtml

[7]叶蓁蓁.党管数据是必然趋势,党媒要抓住数据机会[EB/OL].来自微信公众号“传媒茶话会”,2017-12-07

猜你喜欢
生产算法
用旧的生产新的!
“三夏”生产 如火如荼
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
代工生产或将“松绑”
汽车观察(2018年12期)2018-12-26 01:05:22
进位加法的两种算法
S-76D在华首架机实现生产交付
中国军转民(2017年6期)2018-01-31 02:22:28
算法初步两点追踪
基于增强随机搜索的OECI-ELM算法
一种改进的整周模糊度去相关算法