■ 尹凯民 梁 懿
康斯坦丁·多尔将算法新闻定义为,“从私人的或公共的数据库中选择电子数据,对预选或未选数据进行相关性分配,通过自然语言生成语义结构并在特定范围的线上或线下平台中发布的最终文本”①。总体而言,算法新闻是计算技术应用于新闻业中的产物,但由于其具有复杂性、智能性、集成性等特点,因此计算技术在应用于传统新闻行业时所产生的伦理问题具有重要的研究价值。
伦理问题始终是新闻学研究的重要组成部分,传统伦理研究主要关注新闻组织的日常运作与专业实践,但由于新闻行业与技术发展连接紧密,因此技术不断塑造着新闻研究的道德话语及伦理准则。
进入21世纪,科学技术的快速发展使整个社会对于新闻时效性的要求提升到了前所未有的高度,传统的“确证式新闻”开始逐渐被非专业化的新闻形式取代②,“断言式新闻”成为当今全球的主要新闻生产模式③。新闻记者不再专注于对事实的调查,而倾向于采用已有的背景信息对现实进行建构,以往确立的新闻应该报道事实的价值规范受到冲击。与此同时,“肯定式新闻”的出现进一步与新闻客观性发生冲突;“聚合式新闻”将算法引入新闻业,难以证明的数据来源、算法本身的客观与否以及价值观念的固有偏见等因素将这一矛盾激化,冲击了新闻业本身树立的伦理规范④,新闻业本身的合法性变得岌岌可危。
算法的出现颠覆了传统新闻业的生产模式与组织架构。搜集数据、生成文本、分发推送皆可交由计算机处理,这种方式极大地提高了新闻业的生产效率,改变新闻分发模式,进一步满足了受众“及时”“个性”的信息需求,但却引发了一系列伦理探讨。从算法推荐上看,伦理风险最主要体现在“信息茧房”与“主流价值观的缺乏”两方面。⑤推送机制从表面上看能提高新闻内容的分发效率,但其背后的价值逻辑却是谋取用户“注意力经济”的伪个性化推送。⑥例如,基于协同过滤的算法推送,目的在于反映群体偏好,并不完全依赖于目标受众的兴趣⑦,阅读的决定权反而转移至算法及平台当中。此外,有学者认为算法推送还会导致低俗化现象,为了迎合人的猎奇心理,大量的庸俗、低俗内容充斥网络平台⑧,经过算法推送其传播得到加强,最终导致优质的内容无人问津,“劣币驱除良币”现象频现。从算法生产上看,算法本身存在的固有缺陷以及人类对数据的盲目信任容易引发更大的危机,例如新闻真实性、偏见性⑨以及数据隐私等问题。由于算法的不透明性,其本身被视为“黑箱”存在,这对传统的伦理判断造成了极大干扰。同时,当前的算法技术还未达到完全的成熟,人工智能只能执行命令,无法实现自我纠错也被视为挑战了传统编辑把关的伦理规范。⑩同时,当前我国算法新闻伦理研究存在两项不足,一是研究体系零散,缺少对算法新闻伦理问题的详细归类;二是研究多局限于算法本身,偏重于考察影响,忽视算法新闻在不同环节可能产生的伦理风险。
根据多尔对于算法新闻的定义可以将自动化新闻生产划分为三个阶段:输入——从数据库提取数据;处理——用于预先设定的语言和统计规则处理数据;生成——最终用自然语言输出文本。在所有环节中,自然语言生成是关键,也即从数据库中抓取数据并根据事先定义好的规则将其处理为自然语言文本是算法新闻的核心过程,而自然语言的起点是数据库,数据伦理问题由此成为对算法新闻伦理讨论的开端。
1.数据来源:追溯难题与间接信源影响可信度
首先,“数据从何而来?”是伦理问题争论的起点。由于数据由自然语言生成,是生产算法新闻的重要依据,因此数据的来源明确与否对于新闻业而言至关重要。传统的新闻生产由专业记者进行调查采访、搜集材料,虽然过程中不可避免地存在偏见或失实的问题,但能够做到资料来源明确,主体清晰,新闻行业能够对报道内容负责。相比之下,算法新闻使用的数据很难追溯其确切来源,海量的数据内容也使得对数据进行逐一确认难以实现。从我国的情况来看,商业数据库中的数据是新闻业常用的数据来源,这类数据库通常只集中在某一个方面,其所能描述的用户特征也只是片面或单一的认知,数据来源的片面性也是导致“信息茧房”的重要因素之一。其次,大多数新闻机构都会选择从第三方数据供应商中购买数据,经过多次交易的数据的来源更加扑朔迷离。如果算法新闻中的数据来源模糊不清,新闻内容的真实性、可靠性也难以实现,这违背了新闻行业最初设立的“提供信息”“报道事实”的行业目标,新闻业伦理问题随之产生。
2.数据质量:影响新闻内容真实与否的关键
结构化数据是自然语言生成的前提。原始数据需要被“清洗”,以算法能够理解的结构化形式输入,因此数据本身的准确性和可靠度对最终报道的真实准确性具有决定性的影响。数据是否存在项目缺失或者信息不完整?如果不加验证地使用数据很难保证新闻内容的真实性。当前的人工智能并不具备自我纠错的能力,算法会不加区别地处理数据库中显示的数据信息,因而数据的缺失或不完整极易导致算法新闻产品的错误与偏见。美联社全球业务编辑丽萨·吉布斯说:“算法不会造成拼写错误或者算术计算错误,错误通常是由于数据有问题。如果数据不好,那么只会得到一个不好的故事。”因此,数据不但关系着算法新闻内容质量的高低,更关系新闻本身是否客观、真实,这是新闻组织不容忽视的伦理问题。
3.数据隐私与使用权利:提供新闻服务与保护用户权利的困境
数据隐私同样涉及到重要的伦理问题。算法新闻利用数据生产新闻,但在满足公众信息需求的同时也对公民个人的隐私造成极大风险。国内外互联网巨头企业都掌握着庞大的用户数据信息,包括用户的浏览内容、行为习惯、使用偏好等。2018年3月17日,媒体曝光了震惊世界的Facebook(全球用户数量最多的社交平台)数据泄露事件,超过5000万的用户数据在使用者不知情的情况下被政治数据公司“剑桥分析”获取并利用。在国内,许多互联网公司以算法推荐的名义将用户圈养在“信息茧房”之中,实现流量的商业变现,这种服务模式在受到追捧的同时也引发很多网民的强烈反思,自己的数据究竟在何种程度上被算法新闻平台获取?用户在网络场域中如同身处于杰里米·边沁所构想的“圆形监狱”之中,使用者不知道自己的数据是否被监视、如何被监视,更无法有效察觉自己的数据是否流失或者被滥用。目前来看,全世界缺少平衡算法新闻服务与用户隐私边界的统一规定,这也成为了新闻组织与互联网企业需要共同面对的伦理难题。
此外,传统新闻生产中曾属于个人责任层面的问题现在也被转移至整个媒体组织或是第三方数据提供商,因此衍生出的另一个问题则是谁有权使用这些数据以及能够在多大程度上披露这些数据?数据的权限问题以往很少出现在新闻业,但如今也不得不纳入新闻伦理问题的考虑范围。
1.算法中的新闻价值:代码能否承载新闻价值?
新闻价值是新闻学研究的重点领域,至今仍存在较大争议。西方对于新闻价值的理解倾向于商品意义上的“交换价值”,约翰·菲斯克等人在《关键概念:传播与文化研究辞典》中对于新闻价值的定义为“在公司化造就的主流报刊与广播中,用来选择、建构与表述新闻报道的专业化符码”。因此,新闻价值在于满足新闻业的生产要求,虽然遵循新闻应当真实、客观的原则,但仍将满足受众需求放在首位。我国学者认为,“现代新闻价值理论应当回归价值的本义”,即应以“新闻”为本位,而不是用“价值”限制新闻,并突出了新闻传播活动和事业对于人类社会的有用性。
两种新闻价值的探讨同样适用于算法新闻带来的争议,算法新闻究竟是应着眼于满足受众需求,还是凸显媒体的社会责任?今日头条创始人张一鸣曾表示“媒体是有价值观的,但今日头条不是媒体,我们更关注信息的吞吐量和信息的多元化。我们不能准确判断这个是好是坏,是高雅还是庸俗。”这种说法遭到了业界的多方批评,今日头条本身已具备媒体属性,却披着技术外衣,公然忽视新闻价值,违背了新闻传播活动中的价值取向与品德规范。因此,算法新闻能否承担诸如客观性、透明性、责任感和真实性等新闻价值成为这一环节首先需要面对的伦理探讨。
2.代码中的价值观预设:算法如何体现社会价值观
美国数学家凯西·奥尼尔曾言:算法是嵌入代码中的观点。算法新闻即便由算法生产,也离不开人的设置,其本质体现的仍是设计者的观念。由于算法新闻的生产过程几乎没有人为干预,所以代码规则的预设显得十分重要。但这引发了算法层面的又一伦理探讨,即创作者如何通过代码实现社会期待的价值与道德观念。巴蒂亚·弗里德兰曾提出“价值敏感性设计”技术哲学理论,这一方法将价值伦理、社会规则与技术设计结合,旨在将技术设计活动中的人类价值嵌入计算机信息系统之中。弗里德兰认为可以从三个角度展现价值与技术的存在关系:内含性观点、外因性观点和互动性观点。其中,内含性观点可以为代码设计提供一定的指导意义,该观点认为,设计者将他们的意向和价值“刻入”到技术产品之中。因此,算法在设计之初就已包含设计者的价值倾向,算法负载的价值又将呈现在结果之中,一旦涉及价值倾向则有必要纳入伦理问题的考量。
3.算法代码本身的遮蔽性:技术不透明性遮蔽价值偏见
算法在被引入到新闻业之初时曾被视为推进新闻更加客观、真实的重要动力,因为凭借算法进行数据抓取、新闻创作能够避免人为干预,也不会受到记者个人价值观念的影响。但目前,更多人将其称为“黑箱”,因为算法的运算过程更加不透明。传统的新闻作品能够通过记者的署名确认其责任,但在算法新闻中,记者与算法的著作权归属本身就是尚待解决的重要法律问题,民众更不了解数据的来源与计算机的计算逻辑,甚至无法区分一篇新闻报道究竟是由人类作者完成还是算法制作,这种技术本身所带来的不透明性加剧了责任纠察难度。其次,一旦媒介组织将商业逻辑嵌入到算法模型之中,这种偏见将更加难以察觉。有学者质疑,算法的所属机构是否会操纵算法权威,通过算法新闻的推送让民众看到其所属机构想让大家看到的新闻内容。目前国内还没有任何一家数据公司或媒介组织愿意公开自己的算法,因为算法技术一旦公开就有遭受到外界篡改、攻击的可能,也涉及到对于商业机密的保护。因此,算法本身不透明也难以透明的属性与传统新闻业的透明性、客观性相冲突,成为新闻业难以平衡的伦理难题。
1.算法新闻生产者责任困境:多主体导致权责难以判定
在传统的新闻行业中,记者个人被视为新闻业职业道德的代理人,应具备专业素养、可靠的道德品格与极强的洞察能力,此类规范在大学开设的新闻教育中也反复被提及,但这种价值观念在当代却逐渐变得局限且开始受到质疑。随着媒介系统的不断分化,新闻生产参与的主体越来越多元,几乎不可能只让记者对新闻负责。在算法新闻生产的过程中,参与者至少包括媒体组织、专业记者、服务提供商、数据提供商、程序员等。在专业的算法新闻生产过程中,社会文化、组织结构、新闻工作的专业要求以及记者个人的价值观念被混杂在一起,共同嵌入代码之中,因此需要新闻记者与程序编码员共同合作,使新闻产品符合新闻业的伦理标准。Just与Latzer认为,这种新闻生产模式主要依靠授权,即给予算法一定程度的自治,也正因如此,记者与算法代理之间合作的复杂程度会引发道德伦理挑战,如低透明度、低可控性与责任不明晰。例如,如果判定新闻在生产过程中出现了问题,谁应对代码/机器负责?由于大多数新闻机构的算法服务需要外包给相应的服务提供商或聘请计算机专业人员,那么代码的编写者和新闻记者谁的责任更大?多主体生产的情况无法改变,对于责任进行分类归属是必由之路,但难以厘清的多层责任正是算法新闻带来的新伦理问题。但这并不意味着记者责任的减弱,因为记者需要将更多的工作转移到对最终产品的把控之中,记者个人的职业素养与道德水平仍不容忽视。
2.新闻产品把关难题:算法劳工与模糊且缺乏可操作性的把关标准
生产主体面临的另一个问题是对于新闻产品的监控。目前,世界上所有的新闻机构均不会完全允许机器自我生产、自我发布,人为的监控与把关是必要的,编辑需要核查上传的内容、时间、地点和上传者身份等信息来判断内容源的真实性。Storyful作为世界可信度最高的信源调查和事实核查机构,雇佣的人工编辑团队占到了团队总人数的一半,创始人Mark Little表示:“一个已经验证了的事情就是,在新闻领域,技术不可能完全取代编辑,纯靠技术有时反而会产生让人失望的结果。”在我国,对于内容审核编辑的需求也大大增加。2018年4月,国家互联网信息办公室对今日头条、天天快报、凤凰新闻、网易新闻四款新闻聚合类app下架整顿后,国内算法新闻机构以及互联网公司开始大规模招聘内容审核编辑,加强对于产品的内容审核。
但是新闻内容的审核要求无法一概而论,导致把关标准十分模糊,审核工作充满盲目性与无序性。此外,随着算法在新闻业的应用越来越广泛,算法生产的海量新闻文本为媒介组织带来了难以负担的监控成本,对每一个新闻产品进行监控难以实现,不仅耗费大量的人力资源,审查效率还很缓慢,反而增加了媒介组织的工作负担,但如果不及时对发布的内容把关又会衍生出一系列伦理问题。
此外,算法新闻的生产形式使得记者仅仅作为新闻产品的把关人而不需要在新闻生产过程中付出劳动,新闻从业者不得不被限制在算法技术主导的生产结构之中,从业者的主体性被削弱,日益沦为替算法打标签的一种廉价劳动力即“算法劳工”,这也是技术应用于新闻业后对主体伦理地位的挑战。
1.社会背景:过度依赖技术的工具理性
新闻业并非是人类社会唯一受到算法技术影响的行业,算法作为一项计算技术早已渗透到社会各环节之中并承担起愈发重要的角色,不同学科、不同行业内部均呈现出一派急于与人工智能技术适配的慌乱景象,这些现象折射出的是人与技术关系的失衡,也是“工具理性”与“价值理性”间的博弈。随着人工智能技术在世界的兴盛,整个社会沉醉于科学技术带来的前所未有的新体验之中,并将其带入各行各业,企图实现全方位的革新与升级。算法技术也为新闻业带来了多项益处,例如提升写作效率、为调查事实提供了便利、使定制化得以实现。因此在享受到技术红利的同时,整个社会开始向工具理性主义倾斜,效率使新闻业让渡价值,技术使媒体人让渡真实,数据使用户让渡隐私,人对技术的过度依赖使行为本身的后果被忽视,导致了一系列伦理问题。传统的新闻伦理研究几乎都是站在价值理性的视角对新闻业进行批判思考,这也是为什么在工具理性观念占据优势地位的今天,这些观念不断受到批评和质疑的原因,传统新闻伦理研究已无法完整覆盖算法新闻伦理,需要与技术伦理学相结合。
2.传播环境:受众对信息体验的盲目追逐
每一种新媒介形式的应用都将进一步满足人的信息需求,例如纸张满足了人类对于信息传输的需求,广播满足了人类对于声音的需求,电视满足了人类对于视觉的需求,互联网综合了以往媒介的特点全方位满足人们的信息体验,但人类信息体验的标准也在盲目提高,甚至超过了对于信息本身的关注,这种盲目性主要体现在两方面。一是信息的时效性。自然语言技术提升了新闻的撰写效率,一则新闻只需数秒即可完成;大数据省去了记者调查和记录的过程,足不出户就可以生产新闻,这导致新闻的专业性不断被削弱,专业新闻人员在行业内的重要性不断降低,数据来源、数据质量、新闻价值、新闻真实难以得到保证。二是信息的观感,受众对于私人化、定制化的追捧促使智能推荐算法成为当前互联网产品的主流应用技术,其代价是对用户数据的攫取与利用。可以预见,随着技术的进一步发展,在算法技术基础上叠加的VR/AR新闻以及5G技术对“物”的媒介性塑造而带动的传感器新闻将使隐私泄漏风险达到前所未有的程度。
3.技术诱因:算法技术本身的不完善
虽然算法技术近年来发展的如火如荼,但从技术史的长河来看,算法仍是一项年轻的技术,其本身还存在很多缺陷与不完善之处,这也导致了一部分新闻伦理问题。上文论述的数据质量问题正是由于算法技术目前无法实现数据自动纠错所导致的,如果算法能够快速且准确地纠察海量数据,这一环节引发的伦理问题风险也会大大降低。新闻价值问题同样也是当前技术局限的后果,目前的机器撰写只能处理结构化数据,这也是财经和体育类新闻领域算法新闻技术发展较快的重要原因。但即便处理结构化数据,算法产出的新闻文本也与人类记者撰写的新闻有一定差距,在深度报道领域更是存在天壤之别,因此需要大量的人工监控,造成对从业者主体性的消磨。随着算法技术的发展,机器生成与人工撰写内容的差距将不断缩小,新闻内容的专业性也会逐渐提高,专业的新闻工作者也将能够从算法劳工的窘境中得到解放,重新占据新闻创作的主导话语。此外,减少能够避免的技术失误也有助于降低算法新闻的伦理风险,例如错误的假设和判断、不恰当的建模技术、错误的编码等,这可能需要建立对算法的审计机制,在有限的技术条件下尽可能将负面影响降到最低。
被誉为“第四次革命”的人工智能技术是人类社会进步的重要标志,也是未来社会的发展方向。所以尽管算法与新闻业的结合引发了诸多伦理风险问题,新闻业也不可能摒弃对算法技术的应用。新闻传播学科需要建立一套合适的原则来正确审视算法技术的应用,因此本文尝试从包容性、谨慎性与专业性角度提出对于算法新闻伦理的审视原则,为审视算法新闻的伦理问题提供一定参考。
1.包容原则:全面认识算法新闻的作用
包容不意味着不加批判地接受,而是全面认识算法新闻带来的正负影响。在互联网技术占据中心地位之前,其他媒介技术也都或多或少遭受过批判,例如电视曾被批判干扰受众对信息的价值判断,对正功能有阻斥、滞退等消极作用。电视的娱乐性也被认为与新闻的严肃性相悖,不利于受众对于重要信息的理解。著名学者格伯纳曾认为,“电视可以制造现实,控制受众对事件的理解,并达到特定的目标”。如今看来,电视技术似乎并没有造成如此强烈的负面效果,反而成为民众获取新闻的重要渠道,在互联网成为批判的焦点后,人们的担忧转嫁到网络技术之上。尽管对于媒介伦理的批判具有重要的学术价值,但也要看到许多研究存在过于放大伦理影响的一面。本文虽然重点研究算法新闻的伦理争议,列举了算法新闻的伦理问题,但同样认为面对算法新闻这样一种新生事物,应秉持包容的审视原则,全面看待其作用,给予技术一定的成长空间,不能过分强调负面伦理效应而忽视算法新闻的重要益处。
2.谨慎原则:最大程度规避技术风险
在全面认识到算法新闻的价值后,对其正向作用应继续保持并优化,但对于伦理风险问题应谨慎对待,尽量将伦理风险降至最低。应当看到,算法新闻的伦理问题一部分是新技术应用增加的伦理风险,另一部分则是传统新闻伦理问题在技术环境下的加剧。对于技术引发的伦理问题,应对算法技术的应用保持足够谨慎的态度。如上文所述,数据质量、数据隐私等伦理问题根源于技术本身的缺憾,因为对于新闻质量、网民人身权利影响重大,新闻业必须谨慎对待。目前来看,算法技术对数据不加区分地利用容易产出有问题的新闻文本,这要求新闻组织必须谨慎对待组织采用的数据,减少错误新闻的产出。针对算法技术对网民数据的侵入也暂无行之有效的解决办法,这也要求新闻机构在搜集用户数据时应持有谨慎的态度,关键信息的获取必须做到知情同意,不能乘技术之便而肆意侵犯用户的数据隐私。
3.专业原则:回归新闻价值本位
显然,对新闻价值、新闻真实的讨论并非首见于算法新闻,这些问题作为新闻伦理研究的重点内容早在传统新闻时期就已屡见不鲜,但算法技术却加剧了这些问题的伦理风险。面对算法逻辑下的传统新闻伦理问题,新闻组织与新闻从业者应持有专业原则进行审视。具体而言,传统新闻时期对新闻真实的探讨主要集中在新闻报道与客观真相之间的区隔无法弥合的伦理反思,因为彼时的大多数新闻能够满足提供基本事实信息的要求。但在错误的数据、代码不完善下生产出的许多算法新闻已经完全不贴合事实,甚至引发诽谤情形,这种现象的出现概率远高于人工新闻,新闻的专业性已难以得到保证。与此同时,新闻价值也在急剧丧失,算法生产的新闻常出现语句不通顺、逻辑不连贯等问题,新闻应承担的社会关怀更无从谈起,这些都与传统的新闻伦理要求相差甚远。专业原则要求新闻从业者应重回专业意识,提升新闻质量,不能将新闻生产放任给技术,自身仅作简单把关,新闻只满足于能够阅读的低标准,对新闻本身应具备的真实性、客观性、价值性仍应存有敬畏之心,用专业性来消解技术加剧的伦理风险与新闻业和新闻学科面临的危机。
注释:
① Dörr,Konstantin.MappingtheFieldofAlgorithmicJournalism.Digital Journalism,no.10,2015.p.701.
② Kovach,Bill,and Tom Rosenstiel.TheElementsofJournalism:WhatNewsPeopleShouldKnowandthePublicShouldExpect.New York:Three Rivers Press.2007.p.113.
③ Debatin Bernhard.DasEndederJournalistischenEthik(TheEndofEthicsinJournalism).Neuvermessung der Medienethik.2015.p.65.
④ 陈嬿如、谢欣:《断言式新闻——媒介技术驱动下的新型新闻模式研究》,《国际新闻界》,2019年第5期,第90页。
⑤ 张潇潇:《算法新闻个性化推荐的理念、意义及伦理风险》,《传媒》,2017年第11期,第84页。
⑥ 赵双阁、岳梦怡:《新闻的“量化转型”:算法推荐对媒介伦理的挑战与应对》,《当代传播》,2018年第4期,第52页。
⑦ 陈昌凤、师文:《个性化新闻推荐算法的技术解读与价值探讨》,《中国编辑》,2018年第10 期,第12页。
⑧ 任莎莎、田娇:《算法新闻的伦理困境及其解决思路——以“今日头条”为例》,《传媒》,2018年第6期,第90页。
⑨ 张超:《新闻生产中的算法风险:成因、类型与对策》,《中国出版》,2018年第13期,第38页。
⑩ 董天策、何旭:《算法新闻的伦理审视》,《新闻界》,2019年第1期,第31页。