机器写作在新闻领域应用的思考

2016-02-14 06:15龚隽鹏任文张鹏洲
中国传媒科技 2016年5期

■文/龚隽鹏 任文 张鹏洲



机器写作在新闻领域应用的思考

■文/龚隽鹏 任文 张鹏洲

摘 要:机器写作应用以势如破竹的姿态登上新闻舞台,预示着新闻行业的又一次大变革。机器写作是通过程序算法即基于自然语言生成技术将数据库中的数据信息生成文本信息输出的一种应用技术,快速准确地实现了金融、体育行业新闻稿件的撰写。机器新闻写作已经成为新闻行业的新风潮,在财经、体育领域开始大展身手。本文针对机器写作新闻行业的应用进行思考,对机器新闻写作进行一个总览与展望,希望该技术在将来可以应用到更多的领域服务人类、服务社会。

关键词:机器新闻写作;自然语言生成;机器写作

本文系为北京市科学技术委员会2016年专项项目《基于类脑知识图谱的中文新闻自动写作系统研发与示范应用》成果,课题编号: Z16110000021614 ;国家新闻出版广电总局科研项目《广播电视监测监管数据挖掘与多维度检索研究》,项目号:2014-41。

机器写作追本溯源要推至20世纪50年代,源自机器内容翻译的研究。20世纪60年代,为了验证指定的语法理论的正确性和转换生成语法的有效性,学者开始研究使用机器生成与上下文无关语法的句子;20世纪70年代,计算机技术应用领域的拓展催发了其他领域机器写作的研究,如在游戏中利用机器写作生成游戏说明文本,同时学者开始尝试机器生成孤立句和复述自然语言;20世纪80年代,机器写作技术得到了突飞猛进的发展,并逐步开始应用于段落、篇章的生成,文本规划的概念首次提出;20世纪90年代,文本规划器和语言实现器的提出与实现促使机器写作开始应用到更多的领域中,如在军事上生成军事报告,气象局生成天气预报等等;21世纪初,机器写作技术基本成熟,各个领域也开始加快研究步伐,在医疗、新闻、教育等领域开始实现机器写作系统,机器新闻写作甚至于投入市场,对新闻行业产生了极大的冲击与挑战。

1.机器写作的概念

机器新闻写作是机器写作中的一个应用,是目前机器写作应用中关注度最高的。机器新闻写作最早的雏形是“Google News”,“Google News”本质上其实是一款web的新闻聚合器,通过聚合算法进行首页的更新和新闻推荐[1]。但是机器新闻写作的本质是新闻内容的实现是基于计算机算法程序的,计算机实现类似人脑的功能,将前期新闻采访的信息进行新闻稿件的创作,而不是像 “Google News”仅仅对生成的新闻进行聚合更新。所以“Google News”只能称作为机器写作的雏形,2014年地震机器人发布地震新闻报道,Automated Insights借助Wordsmith 平台发布财经报道,才在真正意义上将机器新闻写作推向了新闻报道的舞台。

所谓“机器写作”,又称“机器人写作”,是指自动根据算法将目标数据通过自然语言生成的方式输出文章的一种人工智能技术,核心在于自然语言生成技术。“机器新闻写作”则是使用这种技术进行新闻写作,是人工智能学科在新闻领域的应用[2]。简单来说机器写作是机器基于自然语言生成技术实现自动生成文本的过程,这个过程就是让机器模拟人脑实现撰写文本功能的算法程序。机器新闻写作是机器写作在新闻领域的应用,即使用机器创作新闻稿件。

2.机器写作的应用

机器写作还是一门很年轻的学科,虽然研究的历史不断,但真正实现文本生成并投入市场应用还是在近二十年间。机器写作最早源自于机器翻译,随着机器写作技术的发展推动了机器翻译在多语种间准确性、实时性方面的进步。机器写作在各个领域开始发挥自己的魅力,如在军事领域中撰写先行号令;在教育中为在线学习生成问答文本;在气象中生成天气预报;在医疗中生成病例记录;在知识查询系统中生成食谱,植物介绍等;在导航系统中生成景点问答等等。

机器写作在新闻中的发展和应用是最迅速和广为人知的。2002年,美国在阿富汗战场中使用机器人辅助进行采访记录,保障了记者采访信息的安全性、全面性、速度性;2006年Thomson Reuters集团网站宣称使用算法在本网站自动编撰财政新闻;2007年,Statsheet成立,成为美国第一家致力于自动化生产新闻的公司,即Automated Insights公司的前身。2010年美国的Automated Insights公司研发的Wordsmith投入市场,这是一款使用自然语言生成技术的平台,同年美国的Narrative Science公司将同样基于自然语言生成技术的软件Quill投放市场。2010年春季,Narrative Science公司开始采用自然语言生成软件生成体育比赛简要报道。在2009~2010年赛季的足球比赛中,该公司使用该软件撰写的赛事报道占40%,并被美国十大电视网使用。2014年3月18日,一则关于地震的新闻报道震惊了世人,这个报道是在美国加州发生地震后的8分钟由《洛杉矶时报》发出的,重点是这则新闻是由地震新闻自动生成系统Quakebot生成的。同年7月,美联社联合美国自动透视公司使用Wordsmith平台在博客中发布了《季度营收报道方面的一大飞跃》,此后该公司开始撰写公司财报新闻,并以每月撰写3000篇新闻报告的速度开始了工作。2015年9月10日,腾讯公司发布了《8 月CPI同比上涨2%创12个月新高》的新闻报道,成为国内首个机器新闻写作的尝试者[2]。该篇新闻包含了公众较为关心的统计数据,包括猪肉、鲜菜和蛋类食品的价格涨幅,数据选取于国家统计局,并且在新闻稿件中有高级统计师余秋梅的评论建议,撰写这篇新闻的是机器人Dreamwriter,用时仅一分钟;2015年11月7日,新华社推出“快笔小新”机器人,供职于体育部、经济信息部和中国证券报。越来越多的机器人开始加入新闻行业撰写新闻,这是一场新的技术革命,也预示着新闻行业开始走向自动化生产阶段。

3.机器新闻写作的意义

机器新闻写作的出现给新闻行业带来一场没有硝烟的战争,在将记者从繁重工作中解放的同时,也给新闻工作者带来了恐慌。机器新闻写作的实现是不是预示着记者的失业?事实上,这是不可能发生。机器新闻写作作为一种新的智能工作为新闻领域注入了新的动力,它的实现彻底改变了传统新闻稿件创作的模式。机器写作将代替我们去重复撰写基本新闻稿件,记者更多地去做更高深有意义的工作。我们需要建立一个全新的新闻创作系统,系统完美融合机器和人类并为人类和机器合理安排岗位,最大力度地发挥机器新闻写作的长处,共同创作新闻业的新春天。机器写作主要有以下几个优势促进新闻稿件的创作。

优势一:实时快速

目前,因为新媒体的出现,新闻消息的速度得到了快速的提升。作为新闻行业的竞争者,新闻报道的快速、实时成为占领头条的法宝。在信息化透明的今天,面对同样的信息资源,速度和及时性成为了人工的弱点,机器新闻写作的出现弥补了这些缺点。首先使用机器新闻写作将需要的信息输入数据库中,机器将自动生成信息,人对生成的稿件进行审查,仅需几分钟就可以发布新闻;其次机器新闻写作不仅可以大幅度地提高新闻报道生成的速度,同时善于应对突发事件,保障在行业竞争中立于先机。如2014年,美国加州早上六点二十五分发生地震,《洛杉矶时报》员工在地震发生8分钟后将这一消息发布在全美媒体上,这个消息是由地震机器人自动生成,人工点击发送的。它在一定程度上给人们带来了安抚,避免更多的人卷入灾害。

优势二:低成本

在大数据时代,新闻报道的需求量不断增加,但大量报道的撰写其实是一种机械重复的工作,这大大加重了撰写者的负担,浪费了很多的劳动力。机器新闻写作在一定程度上把人力解放出来,使得人们有更多的精力去做更重要的事情。同时机器新闻写作的劳动力是机器人,机器人可以不知疲倦地日夜工作,永不停歇,这在一定程度上减低了劳动力成本,大大降低了新闻报道生成的成本,人类只需要对生成的报道进行人工审查即可。

机器新闻写作的实现,推动了新闻行业质量的提升。在新闻行业中,新闻的准确性、价值性特点可以加大力度发展。近些年来,庞大的新闻稿件撰写,促使撰写者不得不集中更多的精力去拼量,而在质的方面有所放松。机器新闻写作的实现解放了撰写者的双手,将他们从繁重的体力劳动中解放出来,他们有更多的精力去思考撰写以外的工作,如可以有很多的精力去寻找更好的新闻信息,发现更好的新闻题材、表达方式,挖掘更多的新闻价值等等。机器新闻写作的实现不仅在劳动力上帮助人类,还在一定程度上推动新闻的发展,对新闻的升华奠定了基础。

优势三:客观公平

毋庸置疑,人在撰写新闻稿件的时候会不可避免地带入人的主观感情,虽然很微弱,但足以造成人们对新闻稿件的理解出现偏差。机器新闻写作在一定程度上可以完全做到客观性,只要没有人工的事前事后干预,机器新闻写作实质上就是对信息的一种结构化输出,这样传达到民众身边的信息就是客观公正的。

机器写作在新闻领域中日渐成熟,但纵观应用主要以财金、体育领域见长。究其源头是技术上的遭遇限制。机器新闻写作目前的基本流程是基于模板生成新闻稿件,即新闻稿件的内容框架取决于模板,造成新闻稿件的模板化。模板化的生成造成新闻稿件的应用类型受限,规范化的新闻资讯稿件如天气预报、体育赛事和财经年报等,机器可以准确高效的撰写,娱乐八卦新闻、健康知识、社会新闻等内容比较自由的新闻稿件则需要更多的精力实现。同时,因为技术上的不足使得新闻稿件缺失一定的价值性和人情味。目前机器无法建立自己的价值观和情感系统,无法在自动生成新闻稿件的过程中发现新的价值点,为不同的信息赋予不同的感情色彩,这使得生成的稿件只是一种信息的传递,而不是一种信息的发现,这种生硬的消息已无法满足人类的需求,阻碍机器新闻写作的应用推广。

4.机器写作在新闻领域应用的展望

机器新闻写作的模板化是目前机器新闻写作最大的问题,改变模板化是目前亟须解决的关键。机器写作的核心自然语言生成流程分为三个阶段,第一阶段是内容规划——决定文本的内容和结构。在目前机器新闻写作中使用的都是基于模板的,通过改进生成结构的方法改进文本,如使用Schema技术、修辞结构语法技术等来构建文本结构,使得文本的结构变得灵活多变,就可以在根本上解决文本模板化的缺陷。此外,在算法程序中添加一定的筛选机制弥补生成机制中判定机制缺失,确保生成的新闻是不会携带负面能量,适合人类阅读。

机器写作的实现对社会是一场改革,也代表机器自动化的发展前进了一大步,这种现状引起的不仅仅是欢呼还有担忧。机器新闻写作的应用让记者担心丢失工作,谷歌围棋人工智能AlphaGo以4:1打败韩国棋手李世石,让人们惊呼机器人将要统治人类,这都揭示了我们要制定相关的法律去约束机器人的行为,更好地管理机器,让机器写作成为人类的一把利器,在报业、通讯业中发光发热。

目前新华社已有机器人“快笔小新”供职于财经、体育报道生成中,我们还可以将机器人投入信息财经、整理、传播中。机器写作供职线上问答,信息资讯等新闻领域,还可以生成信息文本摘要制作头条。在未来,我们将与机器一起工作学习,共同服务于人类,服务于社会。

5.总结

本文对机器新闻写作技术的应用进行了一个简单的介绍,机器新闻写作可以快速准确地创作稿件,将人类从繁重的工作中解脱出来,但应用的局限也引发了思考,我们要发挥机器新闻写作的优势,改进弥补它的缺点,使得机器写作技术更好地应用在各个领域中,妥善处理机器人与人类的关系,创建一个写作平台,合理分工,让机器人和人类和谐工作,更大力度地实现机器新闻写作的价值。

参考文献

[1] 付松聚.我国首创机器新闻与人工新闻写作之实证性研究—— 以 8 月CPI 新闻报道为例[J].传媒观察,2015.

[2] 蒋枝宏. 传媒颠覆者:机器新闻写作[J] .新闻研究导刊,2016.

[3] 喻国明 .“机器新闻写作”带动传媒新变局[J].新闻采编,2015.

[4]孙瑛.机器人新闻:一种基于大数据的新闻生产模式[J],编辑之友,2016.

(作者单位:中国传媒大学)

中图分类号:G210.7

文献标识码:A