白 贵, 王太隆
(河北大学 新闻传播学院,河北 保定 071000)
随着云计算、大数据等概念的兴起、升温,人工智能成为世界瞩目的焦点;关于媒介实践与人工智能结合的学术讨论也被推上新的高度。纵观传媒业的发展进程,技术一直是驱动变革的重要力量,每一次重要技术的引进都会对整个媒体格局产生颠覆性的影响。在技术革新的时代,了解、应用、改造甚至引领技术发展对媒体行业具有重要意义。作为人工智能技术在新闻实践领域运用的代表性产物,“机器新闻写作”是指运用机器算法对数据进行抓取、分析、整理和呈现的新闻写作模式,它使新闻生产开始走上了工业化、自动化和智能化的道路[1]。
Statsheet成立于2007年,是美国第一家致力于自动化新闻生产的公司。2014年3月18日,《洛杉矶时报》推出的地震预报机器人Quakebot成为最先报道南加州地震的“记者”,这一事实震惊了新闻界。2015年9月,腾讯开发出新闻写作机器人“Dreamwriter”,成为中国第一家正式运用机器自动撰写稿件的公司。同年11月,新华社推出新闻写作机器人“快笔小新”,它主要撰写体育赛事新闻稿件和财经信息稿件。2016年里约奥运会期间,“今日头条”写稿机器人“张小明”大放异彩。从此,体育赛事机器新闻写作在国内拉开了序幕。
1.1必要性随着社会对体育赛事关注度的不断提升,个性化、高品质化体育赛事报道成为时代之需。大型体育赛事通常具有筹办周期及比赛时间长,比赛项目及参赛人数多等特点[2],相关信息又为受众所喜欢,从而给体育赛事的报道带来了巨大压力。
体育赛事种类繁多,受众广泛,不同受众对不同体育赛事有着不同的兴趣。传统体育新闻报道受经济、人力、资源等方面的限制,只能致力于满足多数人的信息需求,主要针对热门赛事、关键比赛进行报道,无法满足所有受众的信息需求。随着互联网的普及,体育赛事报道需求的长尾效应被放大,冷门比赛报道占据一席之地。事实证明,在里约奥运会期间,那些看似很冷门、关注度不高的体育报道,却得到了相当可观的阅读量[3]。这就需要一种不仅能够报道热门比赛,还能对冷门比赛进行报道的工具,为用户提供私人订制的报道,满足受众的个性化需求,从而吸引读者,留住读者。
体育赛事往往具有海量信息。无论是综合性运动会,还是单项体育赛事,媒体记者很难对每一个项目、每一场比赛、每一名运动员的赛况进行面面俱到的报道。同时,体育赛事之外的明星公益活动、比赛花边新闻等也成为体育新闻报道的重要内容。疲于应付、分身乏术的媒体记者和编辑急需一种“新生”工具将他们从大量简单重复性的报道工作中解放出来,使他们在减小工作压力的同时,能够集中精力搜集生动鲜活的素材,完成更多具有创造性和趣味性的高品质报道。因此,发明并推广一种能够完成制式的、新闻要素齐全的常规报道的写作工具,被提到了议事日程。
可见,无论是从受众角度,还是从媒体角度考虑,均需要发展体育赛事机器新闻写作以应对海量数据,提高生产效率,缓解供需矛盾。
1.2可行性适逢人工智能第3次浪潮到来,机器新闻写作所需的技术条件逐渐完备。体育赛事规程规则明确,赛事报道新闻要素齐备完整,这些使得机器新闻写作能够在体育赛事报道中率先被应用。
20世纪90年代,计算机集群技术为第3代人工智能的发展提供了硬件基础,并一步发展出云计算技术。与此同时,互联网的出现和发展促进了网络数据的积累,推动了大数据的发展。大数据和云计算为深度学习算法提供的海量数据和近乎无限的计算能力,打破了限制人工智能发展的2个主要瓶颈[4]——数据量不足和计算能力有限,为机器新闻写作提供了硬件保证。2010年,Narrative Science开发出一款名为Quill的自动写作软件,实现了自行生成新闻标题、编写体育赛事新闻、撰写基金业绩报告等功能[5],为机器新闻写作提供了软件支持。
就新闻实践而言,机器新闻写作特别适合整合最基本新闻要素的模板式的体育赛事报道。首先,体育赛事的比赛过程会包含比赛双方甚至多方的结构化数据信息(如球队名称、球员姓名、所属国家、比赛得分等),这些信息易于被机器抓取、分析和整理。其次,每场比赛的大量结构化数据可以根据时间或空间进行排列拟合形成数据函数曲线,这些函数曲线的变化规则可以作为机器判断的依据,帮助机器对比赛进行“理解”和处理。再次,大量常规性的、模板式的体育赛事报道往往具有相似性和重复性,易于机器学习掌握程式化写作模板。因此,采用机器新闻写作的方式对体育赛事进行报道具有明显的可操作性。
综上可知,数据量的扩充、运算能力的提高、智能算法的优化,为机器新闻写作的发展提供了技术保障,运用机器新闻写作完成部分体育赛事报道的可行性成为行业共识。
2015年8月,腾讯体育购买了美国职业篮球联赛(NBA)的转播权和全套数据;同年9月,腾讯推出了新闻写作机器人Dreamwriter。既有数据支持,又有技术力量,腾讯体育对2016—2017赛季NBA的报道取得了成功,但在成功的背后依然可以看出体育赛事机器新闻写作面临的现实困境。笔者通过整理2016年12月9日—2017年6月13日腾讯体育平台上由Dreamwriter完成的953篇“机器人NBA战报”,对体育赛事机器新闻写作的文本特征进行整体分析,进一步总结其现存困境。
笔者对“机器人NBA战报”文本的分析主要从标题和正文两部分进行。
对于标题的分析,笔者首先将标题按语法结构进行划分,再将每部分用数字代替,对应的规则为:球员姓名用“1”代表,球员动作用“2”代表,球员数据、球队名称、球队数据、球队动词、空格及标点、其他成分分别用“3”“4”“5”“6”“7”“8”代表。例如“119-114!詹姆斯三双助骑士险胜步行者”就可以用数字表示为“57132464”。通过对全部标题的整理,可知标题语句制作结构大致有5种模式。
对于正文部分,笔者运用抽样方法对人工战报与机器人战报进行对比分析。该赛季“机器人NBA战报”的时间跨度约为6个月,采用间隔抽样方法最终合成月的方式,将31天分为6段,分别在不同的月份进行抽样,即在2016年12月13—17日、2017年1月3—7日、2月8—12日、3月18—22日、4月23—27日、5月28日—6月2日各抽取1场比赛,每场比赛选出人工战报1篇、机器人战报1篇,共计12篇报道进行对比,时间段内的抽样均采取简单随机抽样方式。
通过对标题和正文的分析,可以总结出体育赛事机器新闻写作面临如下3点现实困境。
2.1逻辑运算难以实现语义理解通过对机器人战报标题进行全面分析后可知,标题结构基本可以分为5种组合(表1)。
表1 “机器人NBA战报”标题结构组合与举例Table 1 A combination of robot NBA report headlines and examples
由表1可见,机器人NBA战报的标题结构较为固定,只是根据不同比赛的数据选择词语进行替换。如:有12个表示胜利的高频词,分别为“战胜”“击败”“击落”“加时胜”“险胜”“力克”“力挫”“轻取”“狂虐”“狂屠”“完虐”“大胜”;有4个表示失败的高频词,分别为“不敌(包括‘加时不敌’)”“惜败”“小负”“憾负(包括‘加时憾负’)”。这些词语的运用并未与比赛结果紧密贴合:如“维金斯31分唐斯两双 森林狼主场17分大胜雄鹿”(2016-12-31)和“112-95!库里27分助勇士战胜篮网”(2017-02-26)这2个战报标题中,虽然2场比赛的分差都为17分,却使用了“战胜”和“大胜”2个不同含义的动词;再如“117-101!杜兰特26分助勇士击败篮网”(2016-12-23)和“95-89!麦科勒姆43分助开拓者击败森林狼”(2017-01-02)这2个战报的标题中,虽然都使用了“击败”,但分差为16分和6分。分差相同(17分)的2场比赛,战报标题中却使用了感情色彩不同的2个词语(“战胜”与“大胜”),分差不同(16分和6分)的2场比赛却使用了同样的词语(“击败”)。可见,标题中词语的选择显示出机器新闻写作未能对比赛结果有深入的理解,只是逻辑运算的结果。
机器人战报的“4部分结构模式”组成了正文的基本框架,即“导语”“双方球员技术统计”“比赛回顾”“双方首发”。每一部分又有几种固定的结构和搭配。以“比赛回顾”为例,通过使用如“开场后”“次节回来”“异地再战”“第四节”或“首节开打”“次节回来”“下半场易边再战”“第四节”等词语组合作为段落的开头将报道分为4段;每段分别描写一节比赛,具体形式为在段首句后添加3句按时间顺序描述本节中的3个精彩瞬间,之后对比赛双方的表现根据新闻要素的数量加1~4句评论,最后以比赛双方比分情况作为本段的结束语。人工战报则相对灵活,如:2017年5月8日骑士以4∶0横扫猛龙的比赛战报中,机器人延续了以往的报道方式;而人工报道则以“东部决赛赛程已敲定!骑士至少获1周休息时间”为标题进行了报道,没有选择常规性的报道结构,而是从季后赛的赛程入手,未拘泥于本次比赛,体现了报道者对整个赛事的宏观理解。这一点是机器逻辑运算无法达到的。
究其原因,是“当代计算机系统只具有形式逻辑运算功能,而不具备人类智能系统的情感功能和意识功能”[6]。因此,它不能像人一样将对比赛的感受与自身的知识相结合,并从语义的角度完成写作,而是通过将比赛过程中的数据与预设数据点进行对比挑选新闻要素,并调用对应的语料库数据完成写作。
进而言之,虽然机器背后的逻辑推算与语义中的语法逻辑具有相似之处,但后者比前者多经历了一次对含义的处理过程,由此必然使得机器写作和人工写作之间出现了结构和含义、框架和内容上的区别。正视这个问题,首先要了解语言与思维发展的关系,语言是在人类思维发展过程中随着生产劳动的需要而逐渐形成的,却并非思维的全貌;语言是思维的一种分享手段,却因生理、经历、社会等诸多因素的不同而存在差异。“实验测量(机器人写作)与人文思辨(人工写作)的界限会越来越模糊,但是这两类变量仍是不可以化约的,其根本原因是人有自由意志,即人的主体性,他不可能被还原为因果性”[7]。因此,即使机器的逻辑推算能够通过语法在形式上高度模仿人类的表达,但不能理解语义的机器还是很难达到人类智能的高度,很难在这一高度上从事写作等高智能工作。
2.2数据处理复杂难以被机器理解数据处理复杂主要表现为部分数据难以进行量化处理以及机器对于可量化数据的错误判断。
在2017年6月2日骑士对阵勇士的比赛中,相较于机器人战报的“4部分结构模式”,人工战报增加了“本场之星:杜兰特统治全场”和“比赛花絮:杜兰特半场6暴扣”2个环节。“本场之星”是一个很难通过量化标准确定的概念,评判的依据往往不是单纯的数据统计,还会包括球员在比赛中发挥的关键性作用。一旦出现发挥最大作用的球员不是数据最好的球员时,机器将难以做出具有感情色彩的判断。再如“杜兰特半场6暴扣”这类人工战报中时常出现的描述,在机器战报中却少有出现。可见“暴扣”、普通扣篮和其他得分方式这类人工较易判别的动态数据,对于机器人来说区分时困难重重。究其因,在于文本、语音以及视频等隐藏着大量关键信息的非结构化数据的量化难度较大,不易转变为机器新闻写作中机器可以识别的信息[8]。
对于2017年4月23日灰熊对阵马刺的比赛,机器人战报中有这样的陈述:“灰熊对篮板发起疯狂进攻,本节共抢下17个篮板,包括4个前场篮板,其中康利一人就贡献5个篮板球。马刺3分如雨,全队本节投10个3分球,但命中率仅为30.00%。灰熊本节状态欠佳,失误多达6次”。其中“灰熊”同一节的“异常”表现有2个方面,不仅没有合并叙述,而且中间还被“马刺”的表现岔开。这就是为了满足设定程序而出现的一种“错误”信息,即预设的信息判断法则与信息、信息呈现之间存在不符合人类正常表述习惯的潜在错误。具体而言就是机器人测量到本节比赛中双方出现了3个与以往不同的数据,并认定应为报道要素。由于机器在预设时的规则为按照报道要素的先后顺序描述,而不是先将同一主体的新闻要素予以整合,再进行陈述,所以机器人战报描述的顺序为“篮板—3分—球队状态”,这不符合读者的信息接受规律,说明体育赛事机器新闻写作未能对本场比赛中可量化数据进行正确判断和优化组合。究其因,在于机器的判断是基于“数字”和“公式”的比较:一方面,当出现程序中未设定的情况时,在没有人工介入的情况下,机器往往会陷入死循环或执行跳出指令;另一方面,如果出现满足设定程序的错误信息时,机器便会被“误导”。
综上可见,目前体育赛事机器新闻写作的报道多停留在对比赛进程和比赛结果的简单报道和总结概括上,未能实现深入挖掘和综合分析,这与数据处理本身困难且复杂有很大关系。随着人工对数据挖掘技术的开发,相信更多的数据能够通过逻辑运算被机器“理解”。
2.3比赛数据难以转化为趣味表达体育赛事新闻有一个明确的价值取向,即要遵循“重要而有趣”的原则。通过机器人NBA战报与人工报道的对比可以看出,机器人战报的报道要素呈现方式单一且固定,无法像人工报道那样能从多个维度进行分析,更不能跟随事件的进展创造写作方式来突出新闻点和趣味性。
从机器人战报和人工战报标题的对比中可以看出,机器人战报的标题虽然具有重点突出、结果一目了然、简单易懂的特点,但不如人工战报标题具有更丰富的细节、更灵动的画面和更具冲击力的情感表达(表2)。
表2 “机器人NBA战报”与人工战报标题对比Table 2 Title comparison of the robot NBA report and the artificial report
在表2中,序号5和序号6提到的2场比赛——“灰熊对阵马刺”和“勇士对阵马刺”,均已进入季后赛阶段,人工战报用“2∶2”和“1∶0”对赛程进行描述,而机器人战报完全忽略了这一细节。对比序号1和序号4的标题可以看出,人工战报中的“擒”和“压哨绝杀”以动态的方式分别对比赛结果与比赛瞬间进行描述,增加了标题的画面感,而机器人战报的标题只使用了“不敌”和“险胜”这2个较为中性的动词,少了一份灵动感。此外,人工报道标题中还大量使用球队和球员的昵称,如:在序号3中将凯尔特人称为“绿军”,将托马斯称为“小刺客”;在序号5中将莱昂纳德称为“卡哇伊”。这些称呼带有明显的情感色彩,而机器人战报并未使用昵称的表述方式,过于冷静客观,缺少必要的感染力。
不仅在标题中,在正文中“机器人NBA战报”的表达方式依然缺少必要的趣味性。在2017年1月6日开拓者对阵湖人的比赛中,人工战报的第一段为“波特兰开拓者今日在主场以118-109击败洛杉矶湖人……湖人常规赛面对开拓者已经遭遇9连败”,而机器人战报的第一段则为“湖人客场对阵开拓者。最终开拓者以118-109战胜湖人”,二者形成了鲜明的对比:人工战报开始便埋下了湖人队常规赛对开拓者已遭遇9连败的伏笔,勾起了读者对以往比赛的回忆,丰富了观看此次比赛的情感体验;而机器人战报无法从双方对阵历史入手,突出本次比赛的特殊意义,丧失了趣味性表达的机会。
再如,2016年12月13日小牛对阵掘金的第4节,比赛早早进入“垃圾”时间,趣味性全无。人工报道为“末节,双方的分差再没能缩小到20分以内,比赛也早早进入垃圾时间。两队派上大量替补球员进行练兵,最终,小牛主场以112-92大胜掘金”。机器人战报为“第4节,第5分43 s,梅杰里在约基奇投篮时犯规,送给掘金2次罚球机会。第6分59 s,德隆出现传球失误,被埃尔南戈麦斯抢断。第11分39 s,穆雷妙传,穆迪埃3分远投命中。比赛结束,小牛以112-92战胜掘金,锁定胜局”。人工战报体现出了对赛况的主观判断,能够有效引发球迷的情感共鸣;而机器人战报依然执着于赛况的平铺直叙和数据的顺序呈现,比赛数据未能转换为趣味表达。
由此可见,体育新闻机器人写作的“思考”与“表达”多是基于框架的推演,而非内容的考量。机器人战报虽然没有错过由数据突显出来的各种重要性人物与比赛结果,但对于趣味性的把握显然不如人工新闻到位。
就目前腾讯体育“机器人NBA战报”而言,机器人可以“复制”出满足人们信息需要的报道,却无法主动创造出满足读者不同需求和爱好的文章。在强人工智能还是未来目标的今天,处于弱人工智能阶段的机器需要向人类学习,在被人类改造后才能发生变化和进步。虽然它可以通过丰富模板和语料库实现写作水平的提升,但若要实现对人工报道的完全取代,仍然需要新技术、新方法的出现。
由于人的自由意志即人的主体性不可能被还原为因果性,所以人工创作的报道是无法被目前只拥有形式逻辑运算功能的计算机直接通过语义理解实现的,需要通过模仿人工写作的文本写作方式和新闻点描写方式实现报道水平的提升。换言之,在技术出现革命性突破前,仍然需要对现有技术进行更好地总结归纳,并实现升级换代;即使无法同人工报道完全等同,也依然可以逐步在呈现的结果上逼近人工写作水平,从而减轻人工写作的负担,最后通过人机合作的形式实现媒体行业效率的提升。
有人将国外的机器新闻写作流程归纳为5个步骤:①读入大量结构化和标准化数据;②测量数据中的“新闻性”;③找出合适的报道角度,如有多个角度,则按报道的重要性排序;④将报道角度与数据中的具体事实进行匹配;⑤生成报道文本[9]。国内的实践将流程归纳为以下几个阶段:首先根据文字直播的特点构建球队的分差函数,并提出基于分差函数的数据分片算法和数据合成算法;然后对数据片进行分类,构建模板库,从而构建NBA赛事新闻自动生成的模型[10]。
2种方法虽然有所不同,但基本原理都是将“数据”“知识”“智能”3者进行有效结合,即将外部具有自然属性的数据转换为机械可获取的数据,根据输入机械可获取的数据和数据间的关系提炼出共同本质,形成“知识”,进而向“智能”提供判断的依据,让“智能”在预设和“知识”的支持下对输入数据进行处理,实现输出的过程。新获得的数据和数据间的关系又将作为新的“数据”纳入知识库,并与之前的数据合成新的“知识”(图1)。
图1 机器新闻写作的框架分析Figure 1 Frame analysis of the machine news writing
下面围绕“数据”“知识”“智能”3个环节着重讨论如何提升体育赛事机器新闻写作水平,实现新闻点的挖掘。
3.1数据积累与知识构建:从逻辑推算到语义模仿数据作为深度学习的依据、处理问题的根本,其作用不容忽视。对于数据的完善至少包括2个方面:数据量的不断积累和知识的不断构建。
只有数据量不断积累,才能让“机器人NBA战报”等体育赛事机器新闻写作有章可依、有据可循。要实现这个目标:一方面要对原有数据进行整理,并实时更新数据;另一方面要逐步通过语言表达形式的复杂化模仿人工写作。欲解决文章框架单一、句子雷同的问题,应通过读入大量文本数据以获取新的框架和句子。当比赛数据拟合成的曲线发生变化时,根据曲线的特征和变化趋势使用不同的预设框架、句子进行报道,甚至同一类数据曲线可以预设多种报道框架和句子。除文本数据外,在赛事实时数据方面,还可以将机器人的数据终端与大型体育赛事的新闻服务(如INFO信息系统等)[11]进行连接,将官方提供的即时引语、新闻发布会摘要等信息及时汇入以赛后消息为主的机器人新闻中,提供更加全面、准确的数据来源。
同时应不断构建知识,进一步建立有效的统一标准,升级文本生成机制。如对机器人设置情感参数,对于国内球迷好感度高的球星,在文章中可以使用更多的形容词、动词,并添加报道环节,以满足受众需要。这就要求完善语料库、词汇知识库,实现数据由单一用途向多元转变,充分挖掘数据价值,加强情感分析,编写泛化算法。这些目标的实现有赖于专业记者、编辑的介入,将他们的意见与建议同技术人员分享,从而整合出合理的方法对现有程序进行调整,逐渐使体育赛事机器新闻写作不断接近人工报道的水平。
3.2数据升级与知识优化:从信息推送到深度报道目前机器对数据的分析和运用还处于初级阶段,其深度和广度仍有待挖掘,以进一步实现知识结构的优化。
在深度上要解决自然数据到机械可获取数据转化的问题。可以通过网络众包标记的方式,将文本、语音以及视频等隐藏着大量关键信息的非结构化数据上传至网络,“雇佣”网民对其进行分类标注,从而实现量化,帮助机器人识别比赛中的“暴扣”“绝杀”等劲爆瞬间。同时要重组数据结构,进行分级处理,通过知识建立起关联性更强的数据网络,使已识别“首三双”等信息的机器人能够寻找到对应的原数据、相关数据、文本库进行挖掘和呈现,以及对如多次出现“灰熊”而未能归纳并列的文本实现数据的归总,减少重复描写。
在广度上要通过建立标准数据模型实现数据的共享,实现多源异构、跨域关联,保证数据流畅通,让更多知识互通起来实现知识的拓展。目前,得益于计算方法的完善和互通互联技术的提高,不同模型的专家系统逐步打破各自为政的限制,实现了多种模型的综合运用,出现了以“通用性”“分布式”“协同式”[12]等为代表的“多专多能”的专家系统。媒体应该借助现有的专家系统,让体育赛事新闻写作机器人不仅懂得写作,更懂得体育。要完成这一过程,就需要将专业人才引入媒体,或者媒体与专业数据公司合作,让更多的数据和知识在机器中“活”起来,从对数据的初级处理向深度分析运用方向发展,使知识由简单的评判向多维度的评估转变,逐步实现深度报道。
3.3人工智能与人的工作:从单向辅助到相互协作目前,体育赛事机器新闻写作所涉及的智能体现为一种判断,即发现机械可获取的数据后按照预设进行判断、分析并输出文本。所以,与其说它在模仿人类的“智能”,倒不如说它是在模仿人的部分认知能力。它虽然具有高效率、全时段、高精度、全方位等特点,但正如缉毒犬具有灵敏嗅觉能够精准判断毒品,但不能完全代替缉毒警察一样,它们只是人类根据其特点制造或培育出的“帮手”。对于新闻记者和编辑而言,机器人是他们在“时间愈发紧迫”的今天高效完成信息收集、分析、过滤和撰写报道的“帮手”。因此,从功能的角度看,对于机器新闻写作的完善不能仅限于关注如何写好文章、如何挖掘新闻点,也应加强对数据合法性、准确性和有效性的判断,并对知识系统的正误保持谨慎的态度。这就需要技术人员加强对机器人性能的完善,同时也需要记者、编辑对机器人作品进行审核和监督。
另外,前文述及机器无法摆脱人而独立完成有创造性的撰写报道,它所撰写的报道都是对人工报道的模仿以及对预设的实现。那么,对于体育赛事报道而言,何种报道易于由机器人代替,何种又难以代替呢?从目前计算机逻辑推演的属性出发,凡是重复性写作和在可表达的框架下具有一定创造性的写作将会被机器人替代。由于体育赛事的规则具有统一性且日程具有周期性,所以常规的赛前预测、实时报道、比赛战报以及一般的评论都具有被替代的可能;而对于体育赛事中具有创新性的报道、对球员或球队的深度访谈报道、体育赛事中的调查性报道、情感关怀性报道以及具有深度价值评论类的报道,人工写作难度较大,目前很难被基于逻辑推演制造的机器替代。此外,机器所学习的报道均为人工报道,因此人类的工作还包括为机器学习提供新的模板,对机器出现的错误进行更正,监督机器的运行是否符合伦理和法律规范等。
体育赛事机器新闻写作目前像是刚刚上路的孩子,会因为一次华丽的表现而让我们惊喜,甚至恐慌,也会因为一次错误而让我们沮丧,甚至否定。从古至今,技术进步和社会系统总是像孩子和父母一样难以同步发展,旧有的社会系统与新生事物的发展之间难免会出现碰撞,而这种碰撞有时是痛苦的,社会需要给体育赛事机器新闻写作一些空间。相信在未来的某天,“他”会写出深入浅出、酣畅淋漓的报道。