文_叶 珂 吴子艺
新闻自动化是基于计算机科学、统计学、人工智能等,撰写新闻故事的一项技术。新闻自动化系统具有新闻记者撰稿的方法以及查看数据的过程,通过厘清事实、寻找总体特征,分析得出重要和有趣的内容信息。其主要目标在于节省新闻工作者在重复任务上的工作时间,并增加新闻的输出数量。
在过去的10年内,新闻自动化的使用呈现逐步上升的态势。德国报纸出版商协会2017年的一份调查显示,该国百分之七的报纸发行商已经尝试过新闻自动化,另外有百分之二十的发行商计划尝试该项技术。
本文中,研究者重点关注了基于结构化数据的新闻文本自动生成。将数字编码的数据转换为人类语言的过程称为自然语言生成(Natural Language Generation,简称NLG),执行这一新闻自动化过程需要通过算法实现。需要注意的是,当我们讨论自动化、算法、数据和新闻的时候,我们需要提醒自己这一点:数据和信息不能混为一谈,只有在一定撰写原则指导下的数据才能被称为新闻故事。与此同时,为了将数据转换成有意义的新闻故事,系统开发人员和新闻工作者必须将新闻工作者大量松散的书写准则转换为计算机严格的规则。
不过,值得一提的是,部分媒体公司虽然在智能化竞争中落后于他人,但他们却并没有意愿尝试新闻自动化技术,反而担心自动化会导致记者失业。研究者表示,目前并没有数据显示自动化直接导致记者们的失业,相反,新闻生产过程中,人工和新闻自动化系统更倾向于互补的状态。
United Robots部分隶属于媒体公司Mittmedia,在瑞典全国范围内出版近30份新闻报纸。目前,United robots开发出了自己的一套NLG系统,将其命名为“Rosalinda”。Mittmedia首席数字官表示,每周有59个联赛的480支球队参加比赛,他们每月会发布3000多篇自动生成的新闻。最近,两家公司根据用户需求开拓了房地产方面的自动化新闻内容。Mittmedia拥有一个自己的数据管理平台——Soldr。Soldr收集、整理并汇总三种不同类型的数据:用户数据、事件数据和内容数据。
United Robots的首席执行官Sören Karlsson,对其从事的NLG系统业务分享了8点感受:
(1)来自上层的支持
编辑管理团队需要参与到项目中来,并给予重视。在这一点上,瑞典的新闻编辑室做得不错。
(2)让广告和市场部门参与进来
引进自动化内容,对于新闻编辑室与其他部门共同开展业务和进行产品开发来说,是一个绝佳的机会。不过,这中间有几个问题需要明确,例如:新的内容类别会吸引特定类别的广告主吗?这些自动化内容会将游客转变成付费用户吗?等等。
(3)传统新闻价值衡量标准同样适用
借助自动化,你获得了本地内容,提高了发行速度,掌握了大量的文本内容。这些优势也是记者们在采写新闻时迫切需要的。换句话说,自动化的内容是一种好的本地内容。
(4)把自动化文本作为新闻线索
数据分析是自动化过程中一个重要的环节。算法的加持将比普通人工更有助于发现隐藏的联系、异常值等等。
(5)时刻准备文本的发布
如果你想在文本中加入人工创意,那么就加吧。当文本好到足够可以直接发表的程度,文章的潜力应得到最大程度的挖掘。
(6)提高产量,充分利用自动化的速度
短时间内产出大量的文本内容是自动化的一大优势。
(7)复查组织
你可能并不需要裁员,但或许需要检讨一下日程表和任务。问一下这样的问题:当体育比赛的文本可以自动化生成的时候,我们早晨是否需要这么多的员工?我们需要当下这么多数量的自由撰稿人吗?我们除了常规报道之外,还有其他什么可以做吗?哪一些可以增加价值?等等。
(8)想想“新闻价值”
纸质产品的新闻价值与数字媒体环境中产生的新闻价值是不一样的。过去的时间里,新闻结构和工作流程已经发生了很大的变化。与此同时,新闻价值和呈现新闻事件的方式也已经发生了巨大的变化。同一则新闻根据不同的受众,有不同的角度。
RADAR是Urbs Media和英国新闻通讯社报业协会合作建立的地方新闻社,它撰写发布本地新闻报道。RADAR同时利用人工和自动化来生产数据驱动的本地新闻,以此为全英国的出版商供稿。RADAR的NLG系统基于一家名为Arria公司的NLG工具。该系统的输入内容来自公共的公开数据。RADAR的NLG系统中含Urbs Media记者编写的文本模板,每个模板可用于数百个不同的故事。
早在2016年里约奥运会,The Washington Post(《华盛顿邮报》)就开发了一项名为Heliograf的自然语言系统。这个NLG系统可以自动生成简短的句子。之后,Heliograf被应用于其他有大量数据的新闻领域,比如选举、犯罪、房地产等等。
Heliograf的产品总监表示,新闻自动化技术极大地扩大了新闻报道的广度,其负责处理每日新闻报道,这使得新闻工作者可以将更多精力放在深度报道上。
2017年,三语(芬兰语、瑞典语、英语)机器人Valtteri被首次应用在芬兰市政选举的新闻报道中,它没有预设的故事结构,通常会根据数据自主决定新闻故事。不仅如此,机器人还提供个性化新闻,读者可以用它来搜索和查找有关地理区域、政党和候选人的新闻。
数据表明,Valtteri制作了超过200万条三语新闻报道。如果,一位经验丰富的记者花费一个小时撰写同等质量的稿件,这相当于一位记者花费1000个工作周(以40个小时为一周工作量计算)的工作量。
在过去五年间,大量研究旨在了解人们如何看待自动生成的新闻内容。其中一个重点讨论的议题是:当人们被告知内容是机器产生或由记者产生之时的感知区别。对于用户感知的评价方式有很多种,其中Sundar给出的方法为很多研究者所使用。Sunder提取了21项衡量标准并将近似的标准分组,形成了4个方面,包括credibility(可信性)、liking(喜好)、quality(质量)和representativeness(代表性)等。
以韩国为例,最近二十年来,韩国在机器人和自动化过程中进行了大量的投入。学者Jung研究发现,文化背景对于研究机器新闻的受众反应影响甚大。在韩国,调查显示,相较于人工撰写的内容,人们更信赖自动化生成的内容。原因是,记者和新闻媒体常常与贪污腐败挂钩。韩国民众对新闻媒体的信赖程度很低。
至于媒体自身对于新闻自动化的感受,笔者在采访了芬兰和瑞典的记者之后发现,他们反映的影响是双重的。首先,接受采访的记者们认为,自动化提高了其媒体自身的新闻内容产量。而且它可以帮助记者从数据中挖掘此前没能发现的选题和新闻故事。其次,新闻自动化可以帮助生产那些原本需要从外部购买的新闻内容。比如,那些从自由记者处获得的气象报告和体育比赛故事等等。当然,需要注意的是,新闻自动化并不能显著地保持或提升媒体品牌。
对于媒体来说,一个最需要考虑的事是这套系统的来源:是从供应商处“直接购买”,还是内部研发?如果“直接购买”,媒体公司就会受到供应商的支配。这个问题与媒体公司的规模和它拥有的资源有关。此外,伦理问题(如数据、事实的选择、自律)和透明度也是需要同时考虑的问题。
对于新闻媒体机构来说,特定的规则、流程和价值是维持新闻机构生存和运行的关键特性。当面对潜在的巨大转变,比如新闻自动化,一个整合所有这些新工具和产品并能让其反映新闻机构本身组织特性的战略,就显得尤为重要。例如,对于管理者来说,自动化提高了管理者对于不同部门之间连接和沟通的要求;或者协调外部参与者,以保证其提供的服务能匹配媒体内部的价值观和流程。
Tom Kent曾经是2014—2015年美联社自动化项目的负责编辑之一。在2015年的一篇博文中,他分享了一些他认为编辑在尝试和使用自动化新闻写作时候需要考虑的事,并就以下几个方面提出了相关的问题:
这些数据可信吗?潜在的数据包含什么?供应商对数据是否进行了合理的传送和处理?供应商有合法权利将数据传送给你吗?你是否有进一步的权利来处理和发布这些数据?如果有的话,在哪些平台上?等等。
你确定你有权限使用自动化系统获取的图片吗?你如何避免那些与你的标准不符合的讽刺和仇恨类的图片?你如何确定图片和视频适合实际的事件?
你会比较什么类型的信息?算法会强调哪些数据?你将如何使自动化内容与其他内容在拼写、整体写作风格和大小写方面保持一致?
如何测试错误?人工编辑会在发布前测试每一篇故事吗?谁来维护数据和复查算法做的决定?谁在看着机器,多久一次,以及多长时间?
你会告诉读者一篇故事是自动化生成的吗?你会如何存档自动化内容,以便你解释任何一篇故事是怎样产生的?你愿意透露你的软件是如何操作的吗?你愿意分享源代码吗,还是你认为这是一种专有信息?
Diakopoulos认为,新闻自动化的未来在于对新闻业基本原则的解构。这意味着,将新闻工作过程分解为实际的信息产品和微型的过程,从而能够分析什么可以被自动化,哪一些本质上是人工任务。通过仔细地解构任务,包含自动化和人工努力的混合系统可以更好地提升效率,降低成本,从而保证新闻质量、抵制商品化。通过与新闻自动化专家的讨论,综合研究者自己的思考,报告给出了有关自动化内容实施和开展过程中的一些现实挑战:
(1)超越最基本模板性系统的自动化生成文本仍然有产生错误的倾向。有效的自动化内容应该考虑到自动化可能产生的一些不熟悉或陌生的错误,并在这一过程中配备适当的编辑监督、管理和维护职能。
(2)NLG系统仍然不是完美无缺的,而且它在有关体育、房地产和金融等内容上的延展性受到多种因素的制约。对于设计类似政治议题这样不确定主题的叙述非常困难。即便是对于话题范围较窄、能够清晰理解并明确定义的主题来说,系统精细的设计和建造还是很有必要的。
(3)有趣和有用的数据的可用性是一个比较大的问题,因为一些强大的私人利益集团尝试控制和商业化这些数据。媒体公司需要为获得更多的公共和私人数据付出更大努力。与此同时,媒体们也需要通过创造和合作的方式来获得更多独有的数据集,以此能够生成更多有趣的、具有商业价值的内容。
(4)新闻自动化为媒体公司提供了在传统新闻业务之外拓展其他业务的可能性。传统媒体机构或许可以通过孵化自动化项目获取收益。
(5)NLG系统的灵活性还是有所欠缺,特别是对于聊天机器人或其他聊天/收听机器设备(如Alexa)而言,需要大量昂贵的开发工作。这也是为什么类似Alexa之类的机器只支持少部分语言版本的原因。
(6)自动化新闻的个性化是每一个出版商的梦想。这需要大量的用户档案信息和基于线上线下行为的预测模型。在更长的时期内,媒体公司必须决定他们是否参与更深层次的用户模型构建,以此来实现更广泛的个性化自动内容生产。
(7)从大量的数据集中提取观点帮助记者撰写有趣故事,有可能是新闻自动化最有用的应用。自动化可以通过自动化分析、部分内容撰写和其他精细工具帮助记者和编辑撰写有趣的内容。不过,在自动化实际运作的过程中有一个风险是,自动化可能会给记者产生更多的工作量,而非使他们从常规工作中解放出来。