新闻分发算法的黑箱问题及对策

2021-12-02 20:08张冰清

蚌埠学院学报 2021年3期

张冰清，钱利

(1.合肥学院语言文化与传媒学院，安徽合肥 230601；2.蚌埠市广播电视台，安徽蚌埠 233000)

随着新闻业的智能化转向，推荐算法开始普遍用于新闻分发。牛津大学路透社新闻研究所的《数字新闻报告》显示，基于用户新闻内容消费情况而做出的算法推荐比编辑、记者的人工推荐更受大众喜爱，算法推荐已成为最受欢迎的新闻分发方式[1]。新闻分发算法能够迎合用户的喜好，但也带来种种负面影响，如假新闻肆虐、新闻内容低俗化、“信息茧房”(Information Cocoons)问题等。此外，新闻分发算法根据用户偏好推荐新闻内容，用户接收到的信息日趋单一，固有态度不断强化，催生“信息茧房”问题。不同群体之间愈发难以达成共识，容易造成社会分裂。

在这样的现实状况下，研究者指出新闻分发算法构成了无法观察和理解的黑箱(Black Box)，而解决新闻分发算法带来的现实问题需要打开算法黑箱，实现算法透明(Algorithmic Transparency)。算法透明理念虽然描述了一种应然的理想状态，却缺乏可操作性，难以落地实行。立足信息技术革命的时代背景，聚焦新闻分发算法黑箱问题不仅为解决种种现实问题提供了依据，也有助于推动新闻业的智能化发展，更能够促进新闻业担当起守望社会、整合社会的责任。

1 新闻分发算法的黑箱问题

1.1 算法黑箱问题与算法透明理念

1984年，图灵奖得主唐纳德·尔文·克努斯(Donald Ervin Knuth)提出了经典的计算机算法定义：“(计算机)算法是一组有穷的规则，能够给出解答特定类型问题的运算序列[2]。”黑箱概念则指人们无法了解其内部结构、运行状况和原理的输入输出系统。现实实践中，包括新闻分发算法在内的诸多计算机算法通常令人无法理解，从而构成黑箱。1984年，计算机科学家W·E·坎迪夫(W.E.Cundiff)提出算法透明度的概念[3]，指的是算法透明、公开的程度。大数据和人工智能技术兴起后，计算机算法广泛应用于辅助人类决策，参与到公共生活方方面面。决策算法是否公平、是否公开因而成为重要问题，要求算法可见、可知、可解释的算法透明理念也由此获得了关注和认同。

随着信息技术革命的发展，新闻业出现了智能化转向。在新媒体领域，基于人工智能技术的新闻推荐算法开始取代传统的人工推荐，成为新闻分发的主要方式。同时，新闻分发算法也造成假新闻泛滥、新闻低俗化，带来“信息茧房”问题，种种负面影响也日益凸显。由此，研究者将算法透明理念引入新闻业，希望通过实现算法透明破解新闻分发算法的黑箱问题：“要对无处不在但又不透明的算法权力加以有效规制，需要迈出的第一步就是破解算法黑箱、推进算法透明。”[4]算法透明理念无疑为解决算法黑箱问题提供了一种思路。然而，在现实实践中，研究者也发现算法透明理念面临着诸多现实阻碍[5]。总体而言，算法透明理念目前仍然停留在设想之中，难以落地实行。

1.2 算法透明理念的现实困境

算法究竟是否可见、可知、可解释，不仅取决于算法本身，也与认知过程有关。具体到新闻分发算法，推荐算法自身的特性、公众的技术素养以及环境因素都是导致算法黑箱问题的重要因素。

第一，黑箱是推荐算法自身的特性。基于人工智能技术的推荐算法本身就是黑箱，即便可以公开具体的代码，其决策机制仍然不透明，就连算法设计者也难以对其做出明确解释。这是人工智能算法自身的技术局限。传统的计算机推荐算法以因果关系为核心，算法本身展现了推荐决策的内在机制。然而，基于大数据和人工智能技术的推荐算法仅检验相关关系就可以做出预测、推荐[6]，这类算法并不追究因果关系，其决策机制往往无法清晰解释。

此外，机器学习等人工智能算法也增加了推荐算法的复杂性，机器学习分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)两类。监督学习算法通过人为标注的训练数据集进行机器学习、建立预测模型，其中的人为标注尚可解释。但在无监督学习算法中，算法直接通过未标注过的数据进行机器学习，算法的决策机制难以解释。

近年来，有计算机科学家致力于改进算法，试图通过技术革新使得人工智能算法能够进行自我解释，但这方面的研究尚未取得突破性进展，更谈不上广泛应用。

第二，公众缺乏理解新闻分发算法的技术素养。具体到新闻分发算法，社会公众大多不具备理解算法所需要的技术素养。计算机语言的语法和结构与人类语言迥异，理解特定的程序和代码需要对计算机语言进行专门学习。除了算法实现，理解算法的设计思路、决策机制也需要一定的编程知识，公众却通常并不具备这样的技术素养。有鉴于此，新闻透明理念的推动者们提出应当通过广泛教育提高公众的技术素养，使公众具备理解、评估和批判算法机制的能力，但实际执行层面存在诸多困难，短期内很难取得成效。

第三，环境因素的制约难以解决。从环境因素来看，算法常常作为商业秘密被保护而无法公开。对企业而言，算法保密能够维护自身的竞争优势，而实现算法透明却需要承担经济负担和商业风险。因此，算法透明理念很难得到算法所有者的响应。如果通过制定政策强制公开算法，算法所有者很容易被竞争对手模仿，可能影响算法所有者的创新动力。强制执行算法公开并不具备可行性。

推荐算法牵涉到海量数据，算法透明不仅要求解释推荐算法的机制，还需要公开推荐算法使用的数据，这将带来严重的隐私问题。2018年1月，今日头条举办题为《让算法公开透明》的交流会，其中一个重要部分是介绍今日头条的新闻分发算法的输入数据。这些数据包括用户的年龄、性别、职业等，甚至涵盖用户何时、何地浏览过哪些内容、停留多长时间。离开对数据的了解就谈不上真正了解推荐算法，一旦公开数据，势必严重威胁用户的隐私权。

2 重新理解算法黑箱问题

面对算法透明度理念的现实困境，新闻业需要寻找解决算法黑箱问题的新思路、新方法。从广义的算法概念来理解算法，可以发现算法黑箱不仅在社会中普遍存在，也长期存在于新闻生产中。只不过在新闻业发生人工智能转向之后，算法黑箱的问题才引起了广泛关注。

2.1 算法黑箱广泛存在于人类社会

从词源上来看，英语中的“Algorithm”源于拉丁语的“Algorismus”，出现于12世纪，来自对阿拉伯数学家阿尔·花剌子模(Al Khwarizmi)姓氏的拉丁文翻译[7]。算法一词在近现代主要用于数学领域。实际上，“千百年来，人类一直在设计、修改并分享着算法……算法无需用到高等数学，甚至可以和数学领域无关。”[8]计算机科学领域的论文和著作中常将算法阐释为计算机算法，实际是把算法概念狭义化了，以计算机算法为代表的符号算法只是算法的一种，算法一词具体指代的对象并不相同，可以是配方、规则、过程，是逐步解决问题的一系列方法和步骤。法国科学院院士瑟格·阿比特博(Serge Abiteboul)指出，“人类的一切活动中都有算法的身影”，同时人类也经常无法解释自己所用的算法：“我们很容易就能辨认出猫和狗，却难以解释是如何做到的：是计算腿和耳朵的数量呢？还是观察头的形状或毛发的纹理呢？”[9]

2.2 传统新闻生产同样存在算法黑箱

传统新闻生产中，从选择特定事实进行报道到筛选、编辑新闻，再到新闻之间的排列和最终分发，新闻生产的所有环节都离不开新闻选择。解决新闻选择问题的过程就是一种算法，新闻选择标准是这一算法的核心。由此，新闻价值成为新闻选择的标准，实际上也成为了一种新闻选择算法。从表现上看，新闻价值的要素是明确的、透明的。但在新闻生产实践中，新闻从业者们所实际执行的新闻选择算法远没有这么简单。新闻从业者对新闻价值的判断往往始于一种习得的“直觉”，出自某种“心照不宣”的判断[10]。除了显性的、正统的新闻价值，新闻从业者也从隐性存在的新闻价值(如排他性等)习得新闻直觉的规则[11]。对于公众来说，新闻从业者进行新闻选择的算法并不透明。事实上，就连新闻从业者也很难清楚解释自己的新闻选择算法。总之，跳出算法概念的狭义定义重新审视新闻业就会发现，新闻生产中一直存在着新闻选择算法，算法黑箱问题也并非新问题。

3 新闻分发算法黑箱问题的对策

3.1 算法黑箱背后是算法价值观问题

从广义的算法概念来看，算法黑箱广泛存在于社会生活之中，传统新闻生产也存在黑箱问题，因而有可能通过借鉴过往经验应对算法黑箱带来的现实问题。早在19世纪末，以《纽约世界报》《纽约新闻报》为代表的大众报刊大量刊登耸动的“黄色新闻”，建立了一套以“震惊，惊奇，惊呆”为准绳的决策方法[12]。这种决策方法本质上是一种新闻选择算法。

然而，面对“黄色新闻”风潮，19世纪末的批评者们并没有把矛头指向新闻选择算法，而是直指算法背后的价值观。钢铁巨头安德鲁·卡内基(Andrew Carnegie)曾经设想建立与大学、医院、慈善组织所享有的捐赠基金类似的新闻业捐赠基金，希望借此改变新闻业，使得新闻业更正派、更负责任[13]。“黄色新闻”浪潮已经过去了百余年，今天新闻业的境况又与当年颇为相似：互联网企业以盈利为目的，而其盈利方式主要是广告和内容付费，两者都与用户数量和点击量正相关。为了提高用户数量和新闻点击量，互联网企业以迎合用户喜好为目标进行新闻生产和新闻分发。在这样的背景下，假新闻、低俗新闻泛滥，误导性标题层出不穷，新闻业呈现出种种乱象。归根到底，价值取向决定了新闻选择算法，带来各种负面问题是唯利是图的新闻价值观。

算法所有者决定着算法价值取向，人工智能算法也是如此。当下的人工智能算法还停留在仅能解决特定具体问题的“弱人工智能”(Weak Artificial Intelligence)阶段，与具有自主意识、可以自发解决各种问题的“强人工智能”(Full Artificial Intelligence)相距甚远。总之，推荐算法体现的是算法所有者的价值取向。在追求利润最大化的价值取向驱使下，能否迎合用户喜好几乎成为所有新闻分发算法的核心评价标准，由此引发了假新闻、低俗新闻的泛滥，带来了“信息茧房”问题。

3.2 以算法伦理规范应对黑箱问题

新闻分发算法的黑箱问题背后是新闻价值观问题。作为新闻分发算法的所有者和运行者，互联网企业已经掌握了过去为传统新闻媒介所有的传播权力，也就应当承担起传统新闻媒介所应肩负的社会责任，这是解决新闻分发算法黑箱问题的根本途径。大数据技术和人工智能技术兴起之后，新闻业发生了智能化转向，新闻生产也产生了变革。曾经由新闻媒体、专门的新闻从业者所掌握的传播权力开始消解，部分转移到了搜索引擎、内容平台和社交媒介平台等互联网企业手中。在全球范围内超过40种具备世界范围影响力的社交媒体网站和应用程序提供专门的新闻发布模块，新闻分发算法直接左右了用户的新闻获取[14]。借由掌握算法权力，以脸谱、谷歌(Google)、推特(Twitter)为代表的互联网企业开始成为新闻生态系统中的关键参与者，主导着新闻的分发和呈现。

在新媒体日益普及、分发算法无处不在的当代社会中，算法权力应受到规范和约束。然而，目前新闻分发算法缺乏伦理规范，其价值取向几乎完全倒向商业利益，以公众利益为优先的算法伦理规范亟待建立。具体来说，新闻分发算法的伦理规范应当包括维护新闻真实性、保障用户自主选择权、保护数据隐私权、正面引导公众等方面的内容。

第一，维护新闻真实性。新闻分发算法应当把维护新闻真实作为基本的算法伦理规范，将新闻核查纳入算法设计，切实维护新闻真实性。需要建立算法核查规范，新闻内容在通过新闻核查之后方能进入分发环节。算法工程师需要充分理解新闻真实性的要求，积极发展算法核查技术，开展智能化核查。

第二，保障用户自主选择权。应当树立充分尊重用户主体性的伦理规范，为用户提供多样化的选择。首先，应当在算法推荐之外提供订阅式新闻分发、人工推荐新闻等其他新闻分发方式，由用户根据需要自主选择获取新闻的方式。其次，应该允许用户设置算法推荐的参数，譬如算法推荐的话题领域、频率、次数等。

第三，保护数据隐私权。新闻分发算法应当尊重和保护用户的数据隐私权，建立相应的伦理规范。在收集、分析用户数据时，应当主动进行提示，征求用户许可。此外，新闻分发算法应当为用户提供删除个人数据的选择，允许用户在任何时间删除存储于服务器的个人隐私数据。

第四，正面引导公众，推动社会进步。新闻业承担着守望社会、整合社会的重要责任。新闻分发算法应当将判别新闻价值纳入到算法设计中，并在执行新闻分发时优先推荐具有积极意义的新闻内容，正面引导公众，发挥凝聚社情民意的作用。

4 结论

新闻分发算法的黑箱问题成因复杂，难以消除。正如人工智能学者皮埃尔·巴尔迪(Pierre Baldi)所言，对黑箱问题不必太过紧张，因为就连每个人的大脑对自己来说都是黑箱，人们并不知道自己的大脑是如何运作的，但这并不妨碍大家使用自己的大脑、信任自己的大脑[15]。其实，新闻分发算法黑箱问题的背后是算法价值观问题。解决假新闻肆虐、新闻低俗化、“信息茧房”等现实问题的根本途径在于改变算法的价值取向。新闻业应积极维护新闻真实性、保障用户的自主选择权、保护数据隐私、积极引导公众，建立起公共利益为先的算法伦理规范，以此更好地实现智能化发展，推动社会的发展和进步。