记者与机器记者的联姻关系

2016-04-15 09:43那福忠

今日印刷 2016年3期

那福忠

机器写稿最近在华文地区引起了热烈讨论，用机器也就是计算机软件写文章，在国外已经有几年的历史，本专栏也介绍过几次，但都是外文。这次是出自中国大陆的中文媒体，先是去年9月的腾讯财经，11月新华社也正式加入行列，宣布由机器人撰写体育与财经新闻，不免受到全球华文媒体的重视。记者可能会担心因此失去工作，各种数据都证明机器的确比人快很多，但很多人认为机器写的文章必然是千篇一律，有深度的文章还是要人去写。

最早引起注意的机器人写稿，是《洛杉矶时报》的地震报道，计算机软件与地震通报中心联机，一旦地震发生，通报中心就会将数据传到《洛杉矶时报》计算机，计算机就会根据数据写一份简单的报道。2013年3月28日清晨6∶27，洛杉矶市区附近发生4.4级地震，计算机程序人员感觉到摇动，赶快起来打开计算机，一篇完整的地震简报已经写好，程序人员检验无误，立即确认在网站上发布，时间是清晨6∶30，比任何新闻媒体发布得都快。

洛杉矶是大城市，每年凶杀案件超过1000起，《洛杉矶时报》是当地大报，自当尽责报道。由于印刷版资源有限，仅能报道1/10，缺乏代表性，所以在数字版建立一个版面，简单报道每一案件，但因数据源缺乏，记者不能采访到每一个案件，只能将该版面停滞。2010年他们写了一个计算机程序，与洛杉矶验尸官的资料联机，取得每一案件的基本数据如日期、时间、地点、年龄、种族以及小区凶杀案的历史，该版面就自动报道每一件凶杀案。不但节省了记者很多时间，让记者更有余力深入采访独特个案的背景。

同样的自动化做法，《洛杉矶时报》与洛杉矶警局数据联机，用小区的现状，包括人口以及犯罪的种类与地点，学校的位置与地点，让读者与相邻的小区相比。如果哪个小区在一周内犯罪次数过高，就对那个小区发出警讯，当然警力会增加巡逻。下图是洛杉矶郡划分成16大区，每一大区又分许多小区，一共有272个小区，每一小区的地图可展示人口数量，犯罪的地点与种类，以及其各级学校的地点。建议读者进入Mapping LA体验。

美联社用机器来撰写各公司财报，这是一个成功的例子，他们采用外界技术，使用Automated Insights公司的Wordsmith软件，从Zacks投资研究机构取得各个公司的财务数据，写成简单明确的财务报告。2015年1月每一季可以撰写3000家公司财报，以前靠记者与编辑仅能撰写300家公司的财报，预估2015年底，可达4700家，下一步要撰写包括加拿大、欧盟各公司的财报。对读者来说，可以获得更多公司的信息，美联社的员工更是皆大欢喜，因为没有人愿意做这些枯燥又重复的工作。

而《福布斯》杂志，早就在2012年“雇用”Narraive Science的Quill软件撰写类似美联社的公司财务评论，供给读者更多的信息，同时解除记者枯燥劳力，把省下来的精力做更有意义的分配。

现在全球发展机器自动编写文稿的软件，越来越多，有的是媒体内部应自身需要发展的专用系统，有的是自然语言处理公司，比如前面提到的Automated Insights与Naritive Science。目前全球包括腾讯、新华社、路透社、美联社、彭博社、《福布斯》、网络新闻ProPublica、《纽约时报》、《洛杉矶时报》、Yahoo等多家媒体都在使用机器撰写稿件。

机器写稿的强势，在于制作例行重复性议题的报道，所采用的结构化的数据，如大批文字数据或数目数据，可以自动撰写成简洁、准确的报告，适合新闻报道。结构化的数据日益增多，机器自动报道可以节省人力，同时增加报道数量，是驱动使用机器写稿的主要诱因。

机器写稿有相当大的潜力，除了快速、大量制作，错误比人少，还可以用同一数据源做多种语言的报道，也可以从不同角度报道，更有潜力发展成按需报道，需要的时候才制作，像是依读者的问题回答。

机器自动写稿的成败，关键在所依赖的数据与假设，但数据与假设都可能有偏差或错误，所以机器写出的报道可能产生意外，甚至错误报道。所以目前的机器写稿受相当的限制，例如不能解释现象，不能建立因果关系，没有立场。机器写稿的文笔低于人类，目前的确如此，但随自然语言处理技术的发展，大有改善的余地。

回到最初的两个议题，一是记者这个行业是否就此终结，二是机器写的八股文永远赶不上人的文笔。这种说法都对，也都不对，因为现在的信息环境是动态的，不能用静态的思维考虑，如果有一位记者的工作正是例行的财经与体育的报道，那就危险了，因为机器做的一定比你更快、更准、更多，你没有办法胜过机器。

至于说机器写出来的无非是制式的文稿，有如八股，目前也确实如此，而且所报道的内容，也没有文笔的修饰，只要把事情说清楚就行了。但假设机器写作的能力仅此而已，则是低估了信息技术的发展能量，目前的机器可以从一份原始数据写出不同角度的文稿，但新的技术正在增加词汇，也就是文笔可能不再那么八股。比如，自己城市的报纸报道自己城市球队输球，机器会用婉转的字眼，不会直接说输了，机器记者也有归属感。

欧洲学界做了一个实验，请很多人阅读两篇相同文稿，一篇属名计算机，另一篇属名一个人名，然后评论两篇的差别。结果大多数人都说两篇相同，唯有新闻系学生说属名为人名那篇写的较好。当然这个实验用了一点技巧，两篇都是计算机写的，而且是同一篇，只能证明新闻系学生先入为主的概念。

自然语言处理的技术，正快速发展，机器取代多少人力的撰写，无可限量，学界已经讨论机器写稿发生错误的责任归属，特别是报道争议性议题或私人新闻，负责任的是计算机软件的设计人、使用机器写稿的记者还是报纸的发行人？所以更进一步，机器写稿的运算逻辑是否应该公开？

那现在的记者对于机器对手要怎么看待？哥伦比亚大学数字新闻研究员、也是德国慕尼黑马丁路德大学媒体研究员Andreas Graefe博士，提出了一个标新立异的想法，他要记者与机器记者产生“联姻”关系，也就是结婚关系，因为只有婚姻关系才能维持长久，双方取长补短，相互扶持，同时提高警觉，每当机器进一步，“另一半”要善加运用，提升编辑的功效，进而让自获得更多的工作经验。这听起来不无道理。