王 琳
(新华社技术局,北京 100083)
“互联网之父”蒂姆·伯纳斯·李于2010年说过:数据驱动新闻是未来趋势(Data-driven journalism is the future)。他甚至预言:新闻的未来,是分析数据。随着互联网、云计算、人工智能等技术的飞速发展,以及以“三算”(算据、算力、算法)基础底座为支撑的大数据技术的广泛应用,这句话正在被越来越清晰地印证并实践。
数据新闻,又叫数据驱动新闻,是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新闻报道方式。数据新闻凭借自身客观性、真实性、可视性、交互性等特点,不断借助数据算法的力量拆解热点话题,引导读者发掘事件、现象或问题背后的信息细节和公共价值。
数据新闻的概念界定可以追溯到早期的精确新闻和计算机辅助报道。[1]前者讲究在报道过程中加入实证主义和资料收集,后者强调信息技术对新闻生产的自动化加工与流程辅助,而数字新闻的概念则随着信息技术的发展不断被升级和拓展——它将改变我们的工作方式,以及我们看待数据的方式。[2]依托强大的数字技术赋能,数据新闻变革了传统新闻生产理念与叙事思维,并直接催生出一种独立的、跨学科、跨领域的新闻报道方式。
在媒体融合发展的上半场,各家媒体都在不断推动新闻表达形式和传播方式的推陈出新,数据新闻产品创新不断,力求通过技术手段把复杂的新闻事件清晰呈现,以可视化形式表达新闻内容。
以人民网展示的数据新闻优秀案例为例[3],目前国内的数据新闻产品在选题设置、数据可视化、多维度叙事和个性化体验上做足了文章。一是以小切口表现时代大主题,报道题材多种多样,焦点精、微、细、实,这也符合数据新闻客观中立的特性。2018年,人民网推出“数说”系列产品,用数据盘点改革开放40年来中国在经济、政治、军事、文化各领域的发展变革,数据选取角度多体现生活化、常态化的特点,符合新媒体时代用户对轻量级内容的要求;新华社创作的《2020,36 亿数据绘出这条线》《大数据看中国:就业背后的变化》等数据新闻产品,在网上取得热烈反响,大家普遍反映数据“接地气”“可信度高”,体现了数据新闻将数据作为论据,运用统计学方法遍历数据的特点;《大众日报》开辟专栏《数据说》,选题全部取自自带光环的网络热搜词,受到年轻用户的喜爱和分享,同时又起到了主流媒体正面引导舆论场的作用。二是前端可视化界面愈发精美生动,通过交互式设计和立体化呈现,各家媒体灵活“玩转”静态图表、信息图、交互时间轴、交互地图、视音频等多媒体混合表达,既能增加报道的广度和深度,完整呈现事件全貌,又能提高读者的沉浸感与参与度。广西新闻网出品的《大数据“动”悉广西战“疫”》,战“疫”数据动态化捕捉、场景化建模,读者点击屏幕,还可弹出相关个例详细信息、行动轨迹等,可以依据自己的兴趣和需求获取个性化数据和独一无二的交互体验,改变单向叙事的传统阅读体验。三是集团作战,组织架构扁平精干。数据新闻是跨界混搭的新闻报道方式,最能体现融合、创新、敏捷迭代的媒体融合特点,近两年获奖的优秀作品也多是出自各媒体旗下的小型工作室,小工作室背后比拼的是各家媒体专业稳定的内容输出能力和“1+N”的生态集结能力。
全球媒体圈早就掀起了数据新闻热潮。《纽约时报》《卫报》《华盛顿邮报》、路透社、美联社等世界著名媒体陆续成立了数据新闻部门,阿根廷、菲律宾、埃及等国家的媒体也不断斩获全球数据新闻奖。数据新闻报道已成为众多报道组合拳中的重量级角色,正如蒂姆·伯纳斯·李的预言一样,数据驱动“新闻的未来”已经到来。
数据新闻不仅能火还将持续地火下去,其在主流新闻生产中的占比权重也会越来越大。这归因于数据新闻独特的传播学特点和技术属性,它有效解决了传统新闻报道的四大痛点和难点。
第一,可视化呈现实现了叙事逻辑的多元化和交付产品的开放性。大数据新闻以交互式、动态化的新闻呈现,得到纯线性叙事所难以达到的传播效果。数据新闻报道方式能够在宏观上对某个事件看得更加清楚与全面,通过数据手段把复杂的事情直观化,非常适合当下短平快的互联网传播方式,降低了新闻阅读难度和信息获取门槛。
第二,数据分析提升了新闻报道的权威与客观性,增加了内容的纵深厚度。事件与事件之间的关联,可以利用可视化技术和数据挖掘技术清晰地揭示。同时,综合运用图表图形的视觉优势,立体化呈现效果让报道更有说服力,观点更加简洁明了。
第三,大数据技术使预测性报道成为可能,今后面向未来的新闻将成为主要发力点。新闻的客观性不仅是对当下事实的反馈,也是对未来趋势的把握。大数据能够预测社会和人们日常生活的各个方面,微观的如新冠疫情传染趋势、交通拥堵情况等,宏观的如经济指数的变动、某种社会危机的预警等。
第四,信息定制和面向交付的生产方式加速了新闻生产供给侧改革。数据新闻坚持以用户体验为核心的产品设计理念,利用推荐算法,可以精准定位、精心测算,按照个人习惯和偏好将数据服务推送到用户眼前。
数据新闻虽然有叙事优势,但其鲜明的技术属性也对媒体自身的数据治理工作带来巨大挑战。数据新闻所需的数据语料浩瀚纷杂,数据真伪、知识侵权、“信息茧房”、舆论泡沫、资本操纵、隐私泄露、算法缺陷、算力瓶颈等这些大数据技术带来的安全风险,在数据新闻中都有体现。
首先是数据安全风险。由于数据壁垒造成的封闭格局和数据来源的真实性问题,新闻客观性受到挑战。一方面数据由于互联网寡头垄断而缺乏第三方数据平台,大数据仅仅作为局部细节,缺乏整体的代表性。另一方面,数据内容的抓取缺乏语义分析和信息辨别能力,UGC 的公众内容往往成为情绪化宣泄口,难以辨别事实真假。
其次是舆情操纵风险。大数据时代“把关人”机制仍然是存在且必须的,尽管在数据新闻的生产中,记者报道新闻的第一手资料是客观数据,但是基于机器实现的内容生产,数据清洗、数据结构化、数据标引等工序后所形成的结果集,仍然要经过记者、编辑和数据技术人员的手工验证和审校,在此过程中,把关者的立场、倾向、态度仍会有意无意地渗透在新闻报道文本中,新闻的客观性仍然难以保证。
最后是机器辅助决策风险。海量数据的关联逻辑仅仅为算法计算的相关关系,而非因果逻辑,仅靠数据罗列难以呈现事实真相和背后原因。业界发生过多起舆论偏差事故,甚至造成了媒体公信力的丧失。“技术中立”“算法无罪”等说法在网络意识形态面向从来都是不成立的,算法规则的设计者往往带有某种非技术的倾向,造成推荐算法不智能或太智能、“信息茧房”一叶障目等情况。由于人为或者非人为的原因,数据有时确实“会撒谎”,必须进行人工干预与法制层面的约束。
综上所述,媒体单位需要合法合规地使用数据,充分将机器生产的智能化效率化和人工编辑的专业性经验性结合起来,考量数据共享、数据安全、知识产权保护等多方面因素,建设高质量数据平台和智能化生产平台,提升媒体自身的数据治理能力和效率等。
为更好地理解数据新闻,需要准确把握好数据新闻相关的关键技术。[4]
1.4.1 数据建模
是指对现实世界各类数据的抽象组织,将经过系统分析后抽象出来的概念模型转化为物理模型后,建立数据库实体以及各实体之间关系的过程。在软件工程中,数据建模是运用数据建模技术,建立信息系统的数据模型的过程。
1.4.2 数据挖掘
是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常通过统计、分析处理、数据检索、机器学习、专家系统和模式识别等方法实现上述目标,包括数据清洗、数据交换、挖掘实施、模式评估和知识表示等步骤。
1.4.3 数据可视化
是关于数据视觉表现形式的技术。这种数据通常是以某种概要形式抽提出来的信息,利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及动画的显示,对数据加以可视化解释。
1.4.4 NLP 语义分析(自然语言处理)
是研究人与计算机交互语言的技术。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式3 种类型。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。
1.4.5 知识图谱
是指把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
1.4.6 数据治理
是指从使用零散数据变为使用统一数据的过程,通过制度、标准、监控、流程几个方面提升数据信息管理能力,解决数据标准问题、数据质量问题、元数据管理问题和数据服务问题。
1.4.7 推荐算法
是指通过一些数学算法,利用用户的一些行为分析数据,推测出用户可能喜欢的东西,应用推荐算法比较好的地方主要是网络。
在媒体融合发展的下半场,数字新闻的进阶之路还将如何走下去?这要从国家信息化战略的顶层设计中寻找答案。2021年12月,中央网络安全和信息化委员会印发《“十四五”国家信息化规划》(以下简称《规划》),对我国“十四五”时期信息化发展作出部署安排。《规划》中明确指出:充分发挥数据作为新生产要素的关键作用,以数据资源开发利用、共享流通、全生命周期治理和安全保障为重点,建立完善数据要素资源体系,激发数据要素机制,提升数据要素赋能作用,以创新驱动、高质量供给引领和创造新需求,形成强大国内市场,推动构建新发展格局。[5]
当前数字化、网络化、智能化已同各产业和实体经济深度融合,数据成为驱动经济社会发展的关键生产要素。[6]在这样的时代背景下,深度挖掘和守护数据价值,对数据新闻乃至整个新闻产业从2.0 向3.0 的转型升级,都具有重要意义。
传统意义上的数据新闻主要是指数据的可视化技术[7],侧重新闻前端的视觉化表达,即以图形、图表的方式呈现新闻内容,印证作者观点,提供简明易懂的数据支撑,其作用在于锦上添花,相当于新闻通稿里的一道“甜品”。随着大数据时代的来临,通过算法抓取、清洗、分析技术实现的知识型新闻生产,使得数据本身就是那盘“主菜”,这类依托大数据和AI 技术实现的数智融合产品,更多地显示了新闻背后的隐形功力,它是融媒体智能生产能力和大数据运用能力的综合比拼,因此含金量很高,甚至新闻界形成了以数据使用能力为检验标准的评价观点——“数据新闻是检验媒体是否先进的试金石”。[8]
大数据技术成为新时期新形势下新闻采写的“千里眼”与“顺风耳”,代替编辑记者的“眼力”“笔力”“脑力”“脚力”扎根在海量数据中,靠着灵敏的嗅觉(数据雷达)和智慧的大脑(数据分析)从结构化、半结构化和非结构化的数据中获取关键信息,捕捉新闻线索,预测事件发展趋势——生产面向未来的知识新闻,提供决策参考或预警分析,而不仅仅是当下时间节点的陈述式报道——这也是更具应用前景的智能化数据新闻。
《预测与发现——数据新闻的理论与实践》一书的作者任瑞娟教授认为,大数据时代数据新闻的一个重要价值是具备预测与发现功能[9],亦即挖掘新闻线索背后隐藏的关联性信息,再以可视化的方式展现出来,并通过知识图谱和深度学习等技术,实现对事件发展趋势的辅助研判,真正做到从“事后总结”到“事前策划”的新闻变革,这恰好印证了任教授于2014年就提出来的 “数据新闻——新闻2.0”的思路[10],并与国外有关学者的“社交网络环境下的新闻2.0”概念不谋而合。
在数据即生产力的技术语境下,智能化数据新闻更多的是强调对数据背后关联关系的挖掘,它包括处于持续发展中的一整套新闻叙事的工具、技巧及方法,涵盖了从传统的计算机辅助报道到最前沿的挖掘技术和算法训练,依赖数据驱动实现了新闻传播与舆论管控、事前研判与事后统计、产品运营与商业变现3 个维度上全面地全域的数据闭环,真正做到让报道数据不再只是“固定资产”,而是“流动资产”,体现“决策价值”。数据价值的“三驾马车”包括算据、算力、算法3 个驱动因子。
算据——新型生产资料。数据新闻作为网络媒介环境的产物,先天拥有由社交媒体和自媒体“泛在化生产”带来的海量数据。数据新闻对数据的抓取是“全时全息全员”的,用户本身的行为数据也成为数据源本身,媒体与用户之间形成流动、自洽、开放的数据生态,这些海量数据成为媒体自有知识产权和战略资源的组成部分。为了维系和加强这种纽带关系,《卫报》等还采取新闻“众包”方式,与众包参与者形成长期的新闻合作模式。
算力——新型基础设施。“全时全息全员”的数据使整个传播过程处于数据驱动控制的版图之内。[11]即技术上所说的“全局拉通数据”,让数据参与整个生产流程,同时做到整个生产流程的数据可控可管、标准统一、分级授权、全域(生产域)流动,构建全生命周期数据治理框架。这些海量、多维数据的管理对媒体单位提出了很高的门槛要求,需要底层技术基座具备强大的算力和存储空间支撑。这种数据支撑能力的构建不是一蹴而就的。对中小媒体而言,自营数据是必须的,算力支撑则可以托管给云服务厂商,媒体更应把资源投向上层业务逻辑;对大型全媒体机构而言,算力建设作为关键信息基础设施建设的重要一环,是不可缺失的,除此之外,还应充分考虑全生命周期的数据治理和网络安全、数据安全、算法安全等问题。
算法——新型生产工具。万物互联和全时在线的数据通过数据挖掘和智能算法实现了机器生产内容(MGC),依托向量数据库、机器学习、深度语义分析等技术成果,算法作为新型生产工具赋能融媒体生产,激活了“策、采、编、发、管、馈、评”全生命周期数字资产的深层价值,进一步稀释了编辑记者在内容生产整体格局中所占的份额,重构了新闻生产关系和生产流程,真正实现了以数据作为新型生产要素的传媒变革与发展进阶。
数据新闻是“内容+技术+灵感+美学”的高度统一,是技术价值与人文价值互相依存、互相成就的融合产物,大数据背后所支持的新闻事实和新闻观点才是报道的核心价值,归根结底,还是要增强媒体自身软实力的建设。数据新闻相对于快讯、通稿而言虽然降低了对新闻时效性的要求,但对报道精度和报道质量都提出了更高的要求,某种程度上,数据新闻创作者需要有“躬身入局、深水笃行”的战略定力和匠人气质,能够耐得住寂寞。由于数据新闻本身非常适合做深度报道,挖掘数据背后那些看不见的新闻真相,这也意味着数据新闻必须扛起更多的社会责任,聚焦犯罪与传染病、安全生产、灾害预报、打击走私、情绪分析、交通控制、生产控制等这类公共利益题材,深入参与社会治理,积极表达群众关切,深远影响公共决策,这需要有极高的新闻素养和职业情怀。“数据新闻可以降低阅读的门槛,但是对从业者却有着较高的能力门槛要求”,上海报业集团界面新闻数据频道总监陈臣这样总结。[12]
另外,走好数据新闻的进阶之路,除关注技术应用的水平创新外,还要保持对上下游信息化垂直产业链的敏感性。从“连接信息”到“连接行为”,从“交互认知”到“交互感知”,数据思维之后是场景化思维,智能化数据新闻之后还有虚拟现实数据新闻,积极适应Web3时代带来的时间轴和空间场的转换,线下与线上的沉浸式交融,关注那些将信息资讯获取方式进行“升维”的智能穿戴硬件,工业传感器带来的海量感官类数据语料,将为数据新闻创作者提供更多创意空间和场景语境。