王 勇 王 磊 孟光升
美国技术史学家鲁斯·施瓦茨·柯望曾指出:“电子传播的整个历史,都遵循着在20世纪最初几十年的广播历史中建立起来的模式”;“在无线电广播出现的早期,许多人认为这将是人类传播的最终形式,……但有些善于发明创造的人已经开始尝试设计新的传播介质”;“电子界的变化步伐一直是相当快的,而且没有哪个单独的人、公司、元器件或媒介能够长时间地占据主导地位”[1]。特别是近年来,随着计算机技术、互联网技术的飞速发展,传播技术更是呈现出加速度发展趋势,新的传播工具、传播手段不断涌现,并带来了新闻生产方式的不断变革。就在数据新闻方兴未艾,被认为是“新闻发展趋势”“新闻改革方向”,甚至是“新闻业的未来”时,机器人新闻又横空出世了。“美联社、纽约时报用机器人写新闻的消息一度充斥媒体,最近腾讯财经也用机器人写新闻了”[2];“近两年来,‘机器人记者’以迅猛之势进入了大众视野”[3],“国内外新闻业界和学界都在热议‘机器人新闻’”[4]。
机器人新闻是在数据新闻的基础上发展起来的,是对数据新闻的超越,拥有一些数据新闻所不可比拟的优势。但作为一种新的新闻报道方式和传播手段,机器人新闻并不完美,它不但继承了数据新闻的一些“基因缺陷”,而且还存在一些新技术所带来的不足。
数据新闻与机器人新闻都是计算机时代、互联网时代、大数据时代的产物,都是通过计算机技术、互联网技术搜集、过滤、统计、分析数据信息,发现有价值的新闻事实,产制新闻。数据信息是数据新闻和机器人新闻共同的基础和核心内容。
数据新闻(data journalism),“是指采用计算机技术、网络技术抓取、挖掘、过滤、统计、分析数据和可视化呈现数据来报道具有新闻价值的事实的新闻报道形式”[5]。2009年,英国《卫报》率先尝试进行数据新闻的生产实践;2010年,全球第一届国际数据新闻圆桌会议在荷兰阿姆斯特丹召开;2011年,第一本数据新闻专业书籍《数据新闻手册》在欧洲新闻学中心和开放知识基金会的倡导下编写面世;2012年,首个国际数据新闻奖由谷歌与全球编辑网合作设立并进行了首次评奖颁奖。此后数据新闻风靡世界许多大大小小的新闻媒体,成为一种非常热门的新闻报道方式和传播手段。
数据新闻的关键和核心是“数据”,它是通过抓取、分析数据信息和可视化呈现数据来报道新闻的,所以数据新闻又被称为“数据驱动的新闻”(data driven journalism)。“数据新闻的产生,是社会的进步、媒介环境的变化、技术的发展、受众的需求、新闻界的追求等多种因素共同影响、共同作用的结果”[6],其中有两个最关键的推动因素:
一是社会的发展进步带来了大量可获取的数据资源。进入21世纪后,民主理念进一步普及,加之“维基解密事件”等一些重要事件的推动和倒逼,使信息公开特别是涉及公共利益的信息的公开成为时代共识和社会强烈要求,信息公开以及信息收集、加工、存储、传播技术的发展带来了大量可公开获取的数据资源;而互联网、手机等新媒体和博客、论坛、播客、微博、微信、推特、脸谱等社交媒体的不断普及,成为人们学习、工作、娱乐、社交的重要工具和发表意见、交流感情、表达思想的重要平台,它们记录下了人们的思想、态度、行为方面的海量信息;还有物联网时代遍布社会各个角落的传感器记录下的海量信息等,这些都使可挖掘、获取、分析的数据资源前所未有的丰富。
二是科学技术的发展进步提高了挖掘、抓取和处理数据的技术。近年来,随着科学技术的发展,特别是计算机技术、互联网技术的发展,数据挖掘、抓取、过滤、统计、分析和可视化技术得到了长足进步,从而为新闻媒体获取数据、处理数据、可视化呈现数据奠定了技术基础。
总之,正是社会的进步带来了大量可获取的数据资源,科技的发展带来了挖掘、抓取和处理数据的技术,从而促发了数据新闻的产生。
机器人新闻(robot journalism),又称自动化新闻(automated journalism)、计算机生成内容(computer-generated content)等等,“是指由新闻机器人自动搜集、分析数据信息,发现有价值的新闻事实,并套用既有的新闻模板自动撰写而成的新闻”[7]。机器人新闻与传统新闻或者说一般新闻最大的区别是,直接从事机器人新闻生产的主角不是人类记者,而是新闻机器人,即“一套软件或算法语言”,“它自动采集数据,然后撰写成人类可读的内容”[4]。
机器人新闻与数据新闻一样,也是利用计算机技术、互联网技术挖掘、抓取、过滤、统计、分析数据信息来报道具有新闻价值的事实,数据也是机器人新闻的基础和核心内容。早在1968年,美国明尼阿波利斯《明星论坛报》的编辑兼出版商Otto Silha在一次公开演讲中,曾设想了未来的编辑机,它能“用数值确定故事中每个单词的价值,并通过数学公式确定故事中最重要的是什么,然后按照指示,重新生成故事”[8]。这是对新闻机器人的较早构想,这一构想的重要意义在于它较早地认识到“数值”转变在自动化写作中的重要性,在于它向人们提示了数据是机器人新闻的基础和核心。“今天,正是来自商业报道的财报、体育报道的赛事、医疗的临床数据、天气预报的气象指标、教育的升学和就业指数、交通路况的行车流量等不同领域的信息,经过数据化处理后成为驱动机器自动撰写新闻报道的不竭‘原油’”;“数据是机器新闻生产的‘原油’”[8]。如美国Autamated Insights公司开发的新闻机器人Wordsmith,将它与相关的数据平台连接,就能自动即时获取数据,迅速完成数据处理和信息发布。“机器之所以能运用数据快速进行自动化新闻生产,不仅取决于Wordsmith之类的自动写作软件已具备对数据进行快速处理的能力,更重要的是数据本身具有规模化、操作透明化、获取开放性等‘媒介性’”[8];“适合通过机器或算法进行的新闻写作,一般是以各种数据、图表的引用和分析为基础的硬新闻,新闻的主体来源于对数据的引用、解释和分析,具有明显的‘数据处理’色彩”[9];“机器人新闻的产生基于日益庞大的数据库,是数据新闻的延伸和应用。”[10]
机器人新闻虽然与数据新闻一样通过利用计算机、互联网技术抓取、处理数据来报道新闻,但机器人新闻是在数据新闻的基础上的进一步发展。数据新闻是人类记者确立新闻选题后,设计数据挖掘、抓取、过滤、统计、分析程序,并操作程序来挖掘、抓取、过滤、统计、分析相关数据,发现新闻故事,并由人类记者撰写新闻,用可视化技术呈现新闻,人在其中起关键作用,计算机程序只起辅助作用,所以数据新闻也被人称之为“计算机辅助报道”[11];而机器人新闻是人类根据某类基于数据化事实的新闻,设计一套“搜集数据——分析数据——套用模板——撰写稿件”程序,并让其自动与相关数据平台相连,自动运行,一旦有数据生成,它就自动抓取、分析数据,并按既有模板撰写稿件。这其中除了设计程序以及有些在最后设有人工审核把关环节外,全部都是由计算机程序自动完成。“机器人新闻最大的特征是新闻生产的全自动化。在具体新闻写作过程中,人工参与并不是新闻产品产出的关键和决定性环节,新闻生产的主体实现了由人向机器的转变。”[10]因此,机器人新闻是在数据新闻的基础上的进一步发展,是在数据新闻的基础上引入了自然语言生成技术,是“数据新闻+自然语言生成技术”,使人工撰写新闻稿件变成机器(程序)自动生成新闻稿件,实现了新闻的全自动化生产,它是技术不断进步特别是人工智能技术发展的产物。
美国媒介理论家保罗·莱文森曾提出过“补救性媒介”理论。他认为任何媒介都是不完美的,都需要不断地进行改进;后续媒介通常在某些方面对前面的媒介进行了改进,可看作是对前续媒介的“补救”。“整个的媒介演化进程都可以看作是补救措施”,“因特网可以看作是补救性媒介的补救性媒介,因为它是对报纸、书籍、电台和电话等等媒介的改进”[12]。机器人新闻作为在数据新闻基础上发展起来的一种后续新闻报道方式和传播手段,在某种意义上也可以说,它是对本身存在不足的数据新闻的一种“补救”,具体表现在机器人新闻对数据新闻的以下超越:
数据新闻是人类记者确定一个新闻选题后,根据报道构思设计编制程序搜集数据,过滤、统计、分析数据,发现数据中的新闻故事,撰写新闻并利用可视化技术呈现数据。数据新闻的生产,虽然利用了计算机技术、互联网技术,但从确定选题,进行报道构思,到设计编制搜集、过滤、统计、分析数据的程序,再到操作程序搜集、过滤、统计、分析数据,发现新闻故事,最后撰写新闻,并利用或设计编制程序可视化呈现数据,都离不开人的亲力亲为,都需要耗费人的大量脑力、体力,而且这中间人是起主导作用和主要作用的,计算机只起到一个辅助工具的作用,因此最多只是一种半自动化生产。
而机器人新闻不同,它一般是针对某一类基于数据生成或变动的新闻,如地震报道、体育报道、财经报道等,设计一套程序,一旦具有新闻价值的数据发生或变动,这套程序就自动搜集、分析数据,并撰写新闻稿件。整个新闻稿件的产制过程都是由电脑程序也就是写稿机器人自动完成的,除了最初的设计、编制、安装程序和一些媒体安排的最后审稿把关环节外,没有也不需要人的参与。例如美国时间2014年3月17日早上6时25分,洛杉矶发生4.1级地震。《洛杉矶时报》的地震新闻机器人Quakebot,在搜集到美国地质勘探局电脑发出的地震信息后,自动将数据输入新闻模板写好新闻并提交采编系统,被震醒的记者大致审阅后,按下发布命令,这则地震报道就在地震发生后的3分钟内发布了。整个过程除了最后的审核发布环节外,都是由新闻机器人自动完成的。实际上目前许多媒体对新闻机器人撰写的新闻甚至不加审核,从数据采集到稿件撰写再到发布全部由新闻机器人自动完成。如《今日头条》就是将新闻机器人“小明”撰写的新闻稿件不经编辑审核直接发布的。总之,机器人新闻实现了新闻生产的全自动化,这是人类历史上第一次实现全自动化新闻内容的生产。
因此,数据新闻是人类借助电脑程序的协助来报道新闻,机器人新闻则是人类完全委托电脑程序(新闻机器人)来报道新闻。从数据新闻到机器人新闻,一个非常大的进步就是实现了新闻生产从半自动化到全自动化的跨越。
作为一种半自动化的新闻生产方式,数据新闻的生产效率比较低。从已有的数据新闻生产实践来看,每制作一篇新闻,一般首先需要编辑、记者确定新闻选题;然后根据报道构思设计编制搜集、过滤、统计、分析数据的程序;再接着操作程序搜集、过滤、统计、分析数据,发现新闻故事;最后由人工来撰写新闻稿件,并利用已有的可视化程序或设计编制可视化程序来呈现数据。一般每生产一篇数据新闻,就需要设计编制一次数据搜集、处理程序,稿件还需要人工撰写并要进行数据的可视化呈现,导致新闻生产难度大,耗时长,需要花费比较多的人力,效率比较低。目前,在数据新闻生产方面走在前面的媒体大都是一天刊发一篇数据新闻,甚至数天刊发一篇。据统计,2012年全球首届“数据新闻奖”收到的286件参赛作品,平均每个作品由3.96个人完成,参与制作人数最多的作品的人数达30人之多,作品耗时最长的达7年,最短的也用了8个小时,平均耗时约达160天。[13]数据新闻的生产难度之大、效率之低由此可见一斑。
而机器人新闻,它是一种完全自动化的新闻报道方式和传播手段,而且是一种批量化生产,它针对某一类主要基于数据生成或变动的新闻设计编制一套“搜集数据——分析数据——套用模板——撰写稿件”的程序后,就交由这套程序全天候24小时自动搜集、分析数据,撰写新闻。它充分发挥了电脑快速、高效的特点,只要一产生有新闻价值的数据,它就以“一触即发式的新闻生产速度”源源不断地生产新闻,生产效率非常高。如叙述科学公司利用新闻机器人完成一篇体育报道只需要30秒,生成一个新闻标题只需要2秒;Automated Insights公司的新闻机器人Wordsmifh每秒能生产2000篇文章,每周可以写出上百万篇文章;在美联社,相同的时间内,人类记者只能产出300条新闻,而机器人记者能产出4400条新闻,差不多是人类记者的15倍;2013年,美联社使用Automated Insights公司的新闻机器人Wordsmifh自动撰写了3亿条新闻,是世界上其他所有新闻媒体所生产的新闻数量的总和,2014年的数量则达到惊人的10亿条。[4]机器人新闻生产速度之快、效率之高令人叹为观止。
因此,虽然数据新闻与机器人新闻都是基于数据的新闻报道方式和传播手段,但从数据新闻发展到机器人新闻,在生产效率方面实现了非常大的飞跃。这是人类在新闻行业不断改进生产技术、提高生产效率、追求“更快”“更多”的结果。
作为在数据新闻基础上发展起来的机器人新闻,虽然它成功引入了人工智能技术,实现了全自动化生产,在生产效率方面实现了非常大的飞跃,但正如保罗·莱文森指出的那样,“技术有其固有的问题,因为创造技术的人是不完美的”[12](88);“所有的技术进步——的确,是所有的进步——并不是没有缺陷。”[14]机器人新闻作为一种利用最新传播技术的新闻报道方式和传播手段,也存在许多不足,包括“数据”作为核心内容所带来的局限和人工智能技术本身的不足所带来的缺陷。
机器人新闻与数据新闻一样,都是利用计算机技术、网络技术搜集和处理数据来报道新闻,只不过数据新闻最终需要人工撰写,而机器人新闻则完全由计算机程序自动完成,但数据是数据新闻和机器人新闻共同的基础和核心内容。“没有大数据采集和挖掘、分析系统的支撑,机器自动新闻写作就成了无源之水、无本之木。”[9]因此,机器人新闻与数据新闻一样,既拥有数据作为内容所带来的优势,也存在数据作为内容所带来的局限,即受“数据”所限,最突出的就是新闻报道选题有限。主要原因有以下方面:
一是数据化的新闻题材有限。数据化的新闻题材是指用数据来表达的新闻事实,或者说量化的新闻事实,但“许多新闻题材没有数据化或无法数据化或没有必要数据化”[15]。目前社会上的绝大多数新闻事实是没有数据化的,而且许多新闻事实是无法数据化的;此外还有许多新闻事实也没有必要数据化,比如人物故事,采用文字讲述相比数据表达更生动鲜活,更能写出人情味,就没有必要进行数据化。对没有数据化的新闻事实,机器人新闻还难有用武之地。目前数据化的新闻事实主要集中在经济、体育、教育、灾难、气象、交通等有限的领域。
二是数据质量不高。如有些数据比较简单、粗糙、肤浅,有的残缺不全;有些数据不准确,或受到了污染,不“干净”;有些数据格式不规范等等,导致在机器人新闻生产中无法使用。“如果无法取得结构化的数据,或者数据质量较差时,机器人新闻几无用武之地。”[16]因此,机器人新闻还受到数据质量的限制。
三是数据收集困难。数据收集的困难也会导致机器人新闻生产受到限制。数据不开放,不联网,格式不统一,乃至人为设置障碍,人为阻挠,都会导致数据收集困难,从而无法进行机器人新闻的生产。目前“在全球数据开放的进程不一,数据供应商尚未专业化,各信息单位的数据结构化尚在起始阶段,数据处理尚未形成一个统一的公开标准的情势下,数据资源获取的局限愈加凸显。”[8]因此,“算法新闻依赖社会整体数据化水平”[4]。
总之,机器人新闻对“数据”的依赖,导致机器人新闻在新闻报道题材方面受到限制。“只有那些对数字比较敏感的领域,如天气、金融、政治选举、交通、体育等领域的数据才易于被标准化,容易清洗,变形的概率较低,可能提取出有价值的信息。”[8]因此当前的机器人新闻主要局限于金融、天气、交通、体育、政治选举等数据化水平较高的领域,而且由于不同国家的信息公开程度、数据化水平不同,机器人新闻报道选题的宽窄也不一样。
保罗·莱文森认为,后续媒介虽然是对前面媒介的“补救”,但在弥补前面媒介的某些缺陷时,也产生了新的缺陷。“当补救性的媒介起作用时,结果通常是一方面带来纯粹的进步,一方面带来新的挑战,如何去补救这一补救可能带来的新问题。新的补救性媒介解决了这些问题,必然又会产生更新的问题,永远没有结束的时候。”[14](111)机器人新闻作为数据新闻的一种“补救”,它在克服数据新闻的半自动化、低效率等缺陷时,所采用的新技术——人工智能技术也带来了一些新的缺陷,主要有以下几方面:
一是可读性问题。机器人新闻主要依靠计算机程序将搜集的数据套用现成的新闻报道模板来实现新闻报道的自动化批量生产,它在新闻线索的发现和新闻撰写角度的选择上完全依靠算法得出的数值变化进行自动取舍,这种方式对于新闻报道模板和公式化的语词样本库的依赖非常大,因此机器人新闻从结构到内容到用词容易模式化。而且计算机程序不像生活在社会中的有血有肉的记者那样拥有自己的立场和情感,能联系社会背景和新闻语境,甚至揣摩不同受众的喜好,采用自己的写作风格和语言来报道新闻,因此,相比人类记者所撰写的新闻报道,机器人新闻在人性化、个性化、创新性、联系性、分析性、人情味、生活味以及细节等方面还存在很大差距。新闻机器人开发公司Autamated Insights就认为,“让机器人写新闻其真正的难点在于怎么让它看起来像人类写的。虽然该公司目前拥有超过3亿种模板可以供不同类型的新闻来套用,但如何让其看起来像人写的则着实大费周章”;美联社副总裁兼总编辑费拉拉认为,“通过机器人撰写的稿件会因为内容的生硬和重复而影响稿件的质量,让稿件失去人性化和个人风格,不能带来阅读快感。”[17]虽然目前人们在设计机器人新闻程序时注意到了可读性问题,大量增加所套用的新闻写作模版数量,甚至设计模仿一些知名记者的用词习惯和写作风格,但目前人工智能本身的缺陷导致机器人新闻在报道框架和角度上存在固定化、模式化、机械化、重复性等问题,在报道风格上存在生硬、呆板、枯燥、单调、乏味等不足。“在可读性方面,记者报道比自动化新闻更具优势。”[18]有关实验也证实了这一点。据NPR所做的调查显示,人类记者Scott和机器人记者Wordsmifh就同一题材所撰写的两篇报道,前者得到了9916名读者认可,而后者仅得到912名读者认可。[19]一份来自德国、瑞典和荷兰等三个国家的实验也发现,人类写的新闻比机器人新闻在可读性上得分更高。[20]
二是报道深度问题。机器人新闻的运作过程,简单地说就是通过程序搜集、分析数据,发现新闻故事并利用自然语言生成技术生成新闻稿件。机器人新闻的报道角度和写作模板都是事先设计好的,只要有价值的数据发生,它就自动抓取并进行分析,然后套用报道角度和写作模板生成新闻稿件。这种新闻生产方式决定了它主要是对相关数据进行置换以及进行一些简单的分析,不可能对新闻事件再进行深入采访,也难以对新闻事件发生的前因后果、来龙去脉进行深入挖掘,对事件之间的错综复杂的关系进行深入分析,对事件的发展趋势以及社会影响等进行深入解读,因此,机器人新闻总的来看缺乏报道深度。机器人新闻“如同流水线工作般,通过收集数据、整理数据而形成新闻稿件,并以最快的速度发布新闻。但简单的数据叠加让新闻报道停留在表面,未能进行新闻的深度加工和挖掘”;“尽管机器写稿已满足新闻写作的基本要素,但与人类记者相比,它仍停留在要素表象叙述,缺乏新闻信息深度挖掘能力和处理加工能力”[21];参与开发《今日头条》新闻机器人“小明”、《南方都市报》新闻机器人“小南”、《广州日报》新闻机器人“阿同”的北京大学计算机科学技术研究所研究员万小军也坦承:“目前写稿机器人还是很难替代深度报道的”,“跟记者比深度报道写稿机器人会输”[22]。
总之,人工智能技术本身的缺陷导致机器人新闻存在可读性、报道深度不足等问题。