人工智能新闻写作的路径探析

2019-09-20 05:22黄国春
出版广角 2019年15期
关键词:模板自动人工智能

【摘要】近年来,人工智能写作应用的实例大多集中在新闻写作上。实验中,基于数据与算法的结构化自动文本生成系统在数据新闻写作的速度和数量上优于人工写作。5G时代,在大数据、物联网和云计算技术的不断推动下,人工智能新闻写作有望获得新的发展。

【关  键  词】人工智能;智能写作;新闻

【作者单位】黄国春,广西民族大学。

【中图分类号】G212 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2019.15.020

自从AlphaGo战胜人类围棋冠军之后,全球又掀起了新一轮人工智能热潮,人工智能从自然科学领域向社会科学领域发展。人工智能在语音识别、图文识别、自动翻译、智能写作和智能财经等人文社科领域稳步推进,人工智能投入新闻写作的应用引起新闻传播学界和业界的高度关注。

一、人工智能新闻写作的曙光

人工智能写作在2014—2016年集中爆发,三年间,全球有超过30款的写作机器人在媒体曝光,其在新闻写作和文学写作领域速度惊人,且产量可观。

1.国外媒体率先进行人工智能写作实验

据报道,2014年7月,美联社与科技公司AutomatedIns

ights合作开发了Wordsmith人工智能写作平台,并使其自动编写企业财报。该平台几秒钟便能生成一篇150—300单词的新闻快讯,比人力写作效率高十倍[1]。2014年3月,美国洛杉矶发生地震时,《洛杉矶时报》用写作机器人Quakebot在地震发生后三分钟就率先发布了地震消息。路透社宣布与语义技术公司Graphiq合作,采用人工智能从数据库中抓取数据,建立可视化图表,然后生成有图表匹配的图文报道。英国《卫报》推出了一份内容几乎完全由算法生成的报纸“#Open001”,机器人筛选社交网络上的热门话题,并将这些话题进行数据统计分析后,然后将内容编辑排版成报纸。2016年里约奥运会举办时,《华盛顿邮报》使用写稿机器人Heliograf与体育数据公司合作,将比赛数据自动生成短消息并即时发布。

这些人工智能写作系统的共同点是通过将数据导入模板自动生成模式新闻稿,在数据条件满足的情况下,可自动写作实用性的报道,在写作数据化、多批次和规律性报道时,其准确度与速度比人工寫作更胜一筹。

2.中国人工智能写作快步紧跟

2015年9月,腾讯财经开发的新闻写作机器人Dreamwriter写作并发表了《8月CPI同比上涨2.0% 创12个月新高》,引起了社会各界关注。2015年11月7日,新华社正式推出机器人写稿项目——“快笔小新”,用于写作体育赛事的中英文稿件和财经报道[2]。封面新闻宣称“小封机器人”不仅能写新闻,而且能通过语音识别、意图识别等AI技术与用户互动。阿里巴巴入股第一财经后,推出一款能协助记者快速写作财经报道的智能写稿系统。北京大学计算机研究所和今日头条联合研发机器人张小明,在里约奥运上投入应用。据称,该款机器人能结合语言处理、机器学习和视觉图像处理技术,通过语法合成与排序完成新闻写作。据人民网不完全统计,我国至少10家新闻媒体推出了13个智能新闻机器人产品或应用,进行线上线下采写报道。但到了2017年,人工智能写作发展速度似乎有所放慢,三年来鲜有人工智能写作新进展的报道。

数据库、算法和自然语言处理技术的长期积累,使人工智能写作技术步入实用化、成品化阶段。在确定数据条件和范围内自动生成新闻文稿,虽然对计算机界只是普通算法,但是在新闻界引起不少震动,甚至被认为会部分替代人类记者或改变未来传媒业的业态。

二、人工智能写作新闻的框架及透视

1956年,人工智能概念(Aritificial Intelligence,AI)得到确立。经历了数理逻辑的符号主义和基于神经网络连接主义的双重推理与验证,加上深度学习的重构,人工智能形成数据加算法的应用模式。人工智能写作的基本框架是基于自然语言处理规则的结构化数据生成算法。数据即变量,数据的实时变化反映事物的变化。数据变化越大,其新闻价值越大,反之亦然。

1.人工智能写作新闻的框架

目前,人工智能写作系统可用于财经、体育比赛、地震测报、交通监控和社交网络等项目的新闻写作。这些项目全部实现了计算化管理,项目运行过程中能产生完整的数据,人工智能系统只要提取其中的数据,并将其代入新闻模板,即可自动生成新闻文本。目前,人工智能写作新闻的框架大致有两类。

(1)测定自动生成类

此类人工智能写作的基本原理是新闻模板加数据填空,就编程而言便是常量加变量的字符串组合,编程并不复杂,算法也比较简单。模板是常量,数据是变量,用几个函数一次循环便能串起一篇新闻。比如,下面的新闻就是这个类别。

据中国地震台网测定:8月8日21时19分,在四川阿坝州九寨沟县发生7.0级地震。震源深度20千米,震中位于北纬33.20度,东经103.82度。

这是一则标准的短消息,时间、地点、事件清晰,数据准确。其编程模型为:“据中国地震台网测定:”+时间变量T+“在”+地点变量S+“,震源深度”+深度变量D+“,震中位于北纬”+纬度变量Lng+“,东经”+经度变量Lat+“。”。

常量是固定在模板上的,变量值由设备测定,监测软件直接将数据串联成地震报告,还可附上由测定的位置图及周边人口和环境数据生成的新闻稿。交通监管、体育比赛等也可运用此类测定报道。随着人脸识别、语音识别、图文识别、行为识别和环境识别等技术的成熟,测定自动生成报道的应用范围将不断拓宽。

(2)数据自动生成类

数据自动生成类系统是指从管理系统获取数据,将数据处理后自动生成文本的系统。比如,美联社与科技公司合作开发的Wordsmith人工智能写作平台可以自动编写企业财报新闻,提取企业财务报告的数据,套用美联社预定的新闻模板,并自动生成一篇150—300单词的新闻快讯。该平台每季度可生成3000多篇财报新闻。

数据类生产模式要比测定类生成模式复杂些。一是数据类生产模式数据量大且需要计算处理。智能系统提取数据后,需要对数据进行分类、汇总和排序,并计算出精确结果。二是该模式要对数据结果进行对比分析,找出新闻点。三是该模式要通过判断数据态势来选择模板。这种模式生成此类财经报道速度快,数量大,数据越复杂,越显优势,无须人工干扰,但对数据不完整、不可靠和超范围的项目无能为力。

目前,人工智能还进行一些社交网络新闻的自动写作测试。人工智能通过对社交网络的话题进行统计分析,并搜索社交网络的热门话题和新闻热点,抓取精华内容,并自动生成新闻。但由于自然语言处理技术滞后,文本到文本自动生成未能突破语义与语法关,此方面的研究试验尚未进入实用阶段。

2.人工智能新闻写作多面观

由于自然语言处理技术的瓶颈尚未突破,自然科学界对人工智能写作十分谨慎,而社会科学界对其期待很多。一些学者发表学术论文对人工智能写新闻的真实性、实用性、发展走向、版权问题、写作伦理、替代人工及对传播业的影响等问题展开讨论。对人工智能新闻写作的应用,我们要从多个方面来审视。

一是人工智能写作快速,人类记者不能企及。其实,智能写作系统能0.6秒生成一条500字符的文本并不算快速。对计算机来说,速度和数量都不是问题,问题是能否生产真正的新闻。人工智能生产的流水文本是否具有新闻价值,还需人工记者去辨别,真正决定哪些事实是新闻的是人,而不是机器。

二是人工智能写作数据准确,提升了新闻的客观性[3]。计算机的数据是经过设备测定或人工确定才录入数据库的,有限的数据只能体现局部的真实,不能反映全面的真实,且数据结构不能变动,不能转角度,不能用于其他项目,兼容性和使用率有限。

三是人工智能写作只能部分替代人类记者。真实的人工智能写作系统使用起来不仅技术复杂,而且设备繁多。比如,奥运会等大型体育比赛需要安装大量的测定计分设备和复杂的计算机网络系统,还需要人数众多的技术团队安装、调试,才能正常运行,成本较高。

四是智能写作系统能增强理解力。智能写作系统被用户用久了,会读懂用户的心理感受和思考方式,会写出更为复杂、更有个性的稿件[4]。这是对人工智能写作的超技术想象。用户可以自主设定智能写作系统的模式、线索、情景、细节、观点,甚至语言风格等写作要素,但离开用户设置和数据输入,智能系统不可能自主形成理解力和思考力。

三、人工智能写作的前行方向

业界认为,人工智能的发展将经历弱人工智能、强人工智能和超人工智能三个阶段,目前处在弱人工智能发展阶段。随着信息技术的发展,人工智能写作会向更高速度、更多维度、更大灵活度和更接近人类语言与思维的方向发展。省时、省力、低价高效和可靠是人工智能写作系统发展的基本逻辑。

人们期待着人工智能写作系统能通过深度学习增长知识,会思考,并写出自主创新的文章,但这些想法脱离了人工智能发展的技术基础。5G时代, 在大数据、云计算和物联网增强技术的推动下,人工智能写作有可能会在以下几个方向获得新的进展。

1.结构化自动写作将获得广泛应用

未来,基于数据自动生成文本的结构化写作功能模块将越来越普遍地镶嵌在各种管理信息系统中,依托数据实时生成文字报告或报表。一键生成文本报告将成为常态,其运算功能、分析功能和图表功能将会更强,智能化程度将会更高,其数据将更翔实、准确和可靠,并能生成长文本和深度分析报告,把大量人力从繁杂的数据读解中解脱出来。

2.智能识别推进现场报道自动化

5G时代,智能识别技术将得到质的飞跃,高分辨传感识别和物联网为人工智能写作提供大量的数据。人脸识别、语音识别、图文识别、行为识别和环境识别等识别技术可通过网络将新闻现场的内容收录到智能写作系统中,实时拍摄、拾音和记录新闻过程,捕捉、跟踪变动点、新闻点,并配合系统数据库进行背景分析,自动生成图文报道或视频报道,从而大大提高时效性。

3.自然语言编辑有望突破

随着研究的积累与深化,人工智能有望在语义网络分析、标记、语法关系和上下文关联等自然语言处理的关键技术上取得突破,实现语义分析的穷尽计算,及语义与语法的最佳匹配。复杂智能算法可实现对已有文本的智能编辑与重构,有望在文字编校、语法纠正、自动编目、文稿压缩、自动配图、图表生成、数据校验、条目化编辑和检索把关等方面获得质的提升,大大提升图文编辑与出版的效率。

此外,人工智能还有社交网络新闻自动生成等其他发展的可能。人工智能写作系统的发展除依赖技术进步外,还取决于系统的性价比和使用效率。巨额投入开发一套使用率不高的智能写作系统是不符合人工智能发展逻辑的。

四、人工智能写作的悖论

李国杰院士发表的《人工智能的三大悖论》提出莫拉维克悖论、新知识悖论和启发式悖论,并指出计算机的运行可以归结为已有符号的形式变换,结论已经蕴涵在前提中,本质上不产生新知识,不会增进人类对客观世界的认识[5]。人工智能写作系统毕竟是程序员用算法编码的自动文本生成系统,虽然可以重复循环,重构组合,但不大可能通过机器学习获得自主创新能力。

1.无法超越数据与模板局限

人工智能写作是机器程序,其写作实际是对材料进行重新组合。因而,人工智能必须依靠大数据,不然就无料可写。但系统的数据总是有限的,数据的获取无法跨越程序的安排,文本无法跨越模板,分析无法超越算法。所谓深度学习无非是往数据库多增加一些记录,多一些可选择的模板而已,无法超越数据与模板的局限。

2.难以自主创新

李国杰院士认为,计算机是机械的、可重复的智能机,本质上没有创造性。AlphaGo Zero 之所以通过机器深度学习而战胜对手,是因为它可以通过对弈将对手战法大量输入数据库中,经统计对比筛选出更强的战法。计算机可从已知产生已知,但不能从未知产生新知识。计算机在数据满足的条件下,对重复性和烦杂性工作的处理能力很强,但生成全新内容的能力有限。人工智能的数据局限和算法局限很大,识别能力不足,缺乏思维能力,无法对未知领域做出判断,难以实现超出已知的自主创新。

3.人工智能写作与新闻真实性悖論

新闻的本质是真实客观地描述客观世界存在的事实。人工智能写作记录的数据是局部的、片面的事实,并不能描述全面的事实,难以捕捉新闻点和判断新闻价值。比如,自动生成的地震报道虽然可以准确描述地震的测报数据,但是描述不了地震的损毁情况和损失数据,无人物、现场、细节和引语,也就失去新闻的整体真实性与价值。英国记者联合会主席TimDawson表示,目前,全世界新闻行业最主要的问题就是缺乏有事实根据的报道。机器人显然无法代替人类去完成这部分的工作[6]。

人工智能写作新闻还面临一个把关与把度问题。一是事实关,二是舆论导向关。对测定生成类和数据自动生成类人工智能写作的新闻,数据是经设备测定或经过人工录入核准和科学计算的。模板文字不涉及事实,制作时已经把关。对社交网络自动生成和现场识别自动生成的新闻把关的难度很大,事实与数据难以核实。

|参考文献|

[1]吕倩. 人工智能技术背景下的新闻业变革与坚守[EB/OL]. (2019-01-17)[2019-06-02]. http://media. people. com. cn/n1/2019/0117/c424555-30563039. html.

[2]唐淇. 智媒时代机器人写作对传媒发展的重构——以新华社“快笔小新”为例[J]. 卫星电视与宽带多媒体,2019(6).

[3]朱垚颖. 新闻写作的智能化趋势探析[J]. 写作,2018(5).

[4]米厚民. 智能写作对新闻人的冲击到底有多大?[J]. 中国记者,2017(11).

[5]李国杰. 人工智能的三大悖论[J]. 中国计算机学会通讯,2017(11).

[6]参考消息网. 新华社将人工智能引入新闻编辑部引海外关注[EB/OL]. (2018-01-15)[2019-06-02]. http://www. cankaoxiaoxi. com/china/20180115/2251847_2. shtml.

猜你喜欢
模板自动人工智能
自动捕盗机
人工智能与就业
基于STM32的自动喂养机控制系统
铝模板在高层建筑施工中的应用
城市综改 可推广的模板较少
Stefan Greiner:我们为什么需要自动驾驶?