张博文
图书馆自其诞生以来就始终面对着如下问题:如何能够为潜在读者提供更高效、更广泛的知识服务。随着科技手段的不断进步,图书馆先后经历了从传统图书馆到数字图书馆,再从数字图书馆到智慧图书馆的变革。在这一变革过程中,图书馆知识服务的深度和广度都经历了前所未有的深刻改变。如果说数字图书馆时代的变革着重表现为电子化手段带来的知识服务广度提升,那么智慧图书馆时代的变革就是人工智能技术引领的知识服务深度增加,尤其表现为智慧图书馆对算法推荐技术的应用。
算法推荐技术基于特定而精准的逻辑运算,将海量用户的网络行为数据化,通过相关数据模型将输入数据转化为可预期的编码指令,据此分析挖掘用户的兴趣习惯、行为偏好、社交图谱等,从而为用户提供个性化的内容精准分发服务[1]。算法推荐技术的大规模应用在当下已经深入到社会的方方面面,并有愈演愈烈的趋势。短视频平台会利用算法为用户推荐其感兴趣的内容,以增强用户粘性;电商平台利用算法向消费者推荐可能购买的商品,以增加平台的成交量。在智慧图书馆未来发展的讨论中,多有观点将通过算法为读者提供个性化推送服务视为智慧图书馆的典型场景之一。即在智慧时代,图书馆应改变过去被动的服务模式,主动感知用户需求,为其提供精准化、个性化服务[2]。这要求智慧图书馆应能够面向用户提供智能分析能力,以满足用户高层次、不断深入的服务需要,解决用户对图书馆新型服务的需求与图书馆服务能力不足间的矛盾[3]。诚然,算法推荐技术的应用将大幅满足读者更为个性化、更高层次的阅读需求,但这并不能抹杀算法推荐技术应用所带来的潜在风险。正如部分观点已指出的,智慧图书馆应用算法推荐技术时必须意识到,大数据算法带来的个性化并非万能,要警惕算法偏见,避免被数据规定自身的思考与行为方式[4]。就此,本文将以在智慧图书馆中应用算法推荐技术所引发的风险及其规制必要为切入点,并就智慧图书馆应如何控制这种风险提出解决方案。
算法是执行任何和解决问题的指令集,算法的应用则是将算法与特定应用场景相结合的过程。将算法推荐技术应用于智慧图书馆即是算法与图书馆这一具体场景的结合。该项技术的应用可以在用户尚未主动提出明确需求的情况下,自动根据用户画像和信息检索行为实时分析用户的信息需求,智能化地向用户推荐他们最需要、最感兴趣的资源,提升信息利用效率和用户满意度[5]。采用算法推荐技术的重要前提是用户画像,也即挖掘读者的需求特征。为此,需要收集用户的相关个人信息,具体包括读者的借阅记录、检索历史,以及读者情境、状态和阅读行为等数据[6]。为此,可能需要用到许多智能设备,如利用人机交互系统记录用户的需求和反馈,利用可穿戴设备和传感器采集读者入馆时间,所处位置、移动路线、停留时长等动态信息,利用视觉搜索、语义搜索等智能搜索技术掌握用户的信息搜索习惯[7]。相应的,算法推荐技术的应用也可以区分为如下两种情形:其一,在通过移动App进行远程访问的情形下,可利用算法推荐技术收集读者的阅读记录、搜索记录等展开个性化推荐;其二,在读者入馆访问的情形,可利用穿戴设备或传感器进行更深入和细致的信息收集,以提供更具个性化的知识推荐服务,但图书馆在应用算法进行文献推荐中存在一些潜在风险。
算法在执行任务或解决问题的过程中可能产生偏见。算法偏见是不可避免的,主要来自开发者的偏见、数据的偏见和算法自身的偏见。其中,显性偏见是容易被发现并剔除的,隐性偏见则不可避免地存在于算法中[8]。智慧图书馆在应用算法推荐技术时当然也无法免除这种风险。其产生原因可能是因为算法训练时的数据使用失当,如阅读时的同样情景或表现对不同人来说代表着不同的心理表现;也可能是供算法作出决策的数据失当,如检索记录或浏览记录并不能真正反应出读者的阅读兴趣;还可能是算法技术无法精准感知读者处于变动中的“兴趣点”,导致对读者兴趣的判断出现偏差。算法偏见会导致对读者的画像不准确,进而使智慧图书馆的个性化知识推荐服务无法切合读者的真实阅读需求。
“信息茧房”是桑斯坦在其著作《信息乌托邦》中提出的概念,意指公众若只注意自己选择的东西和使自己愉悦的通讯领域,久而久之会将自身束缚于像蚕茧般的“茧房”中[9]。信息茧房涉及的核心问题是:我们在交流的世界里,只听到自己选择的声音,只听到令我们感到舒适和愉悦的声音[10]。对于图书馆的读者来说,由于他们的兴趣爱好具有相当的稳定性,图书馆的推荐算法可以基于用户需求数据分析结果向其推送大量指定内容信息,造成用户需求被图书馆人工智能所引导[11]。算法推荐技术的原材料是用户的信息痕迹,由于信息痕迹与用户信息兴趣存在时间差,算法推荐技术可能在读者兴趣改变后继续推送过往的同质化内容,以至于用户之前形成的价值观念不断强化,最终造成信息茧房效应[12]。信息茧房是随着互联网技术的普及和信息爆炸逐渐产生并蔓延开来。而随着算法推荐技术应用效果的不断增强,读者将逐渐信任并依赖于算法向他们推荐他们感兴趣的内容,使他们始终处于算法提供的狭小知识空间内。这无疑意味着,旨在满足读者个性化服务的算法推荐技术最终可能异化为限制读者获取知识的手段。
信息茧房具有很强的隐性危害。一个人掌握的信息越充分,其在进行个人价值实现方面的决策时就越能处于有利地位,在做出一些行为选择时也会趋于理性[13]。信息茧房的形成则会极大限制读者获取信息的宽度,尤其是在缺少强大反思自省能力以摆脱对算法技术的依赖的前提下[14],算法的广泛应用使公众愈发依赖算法进行分析、预测、决策,甚至于沉迷算法推荐的信息中,处于信息茧房中而不自知,最终被困于“算法牢狱”难以自拔[15]。这会导致他们丧失改善自身知识结构、扩展自身知识背景、实现个人更全面发展的机会。
上述风险的存在并不意味着一律禁止公共图书馆采用算法推荐技术为读者提供文化服务,毕竟算法推荐技术对于提高图书馆的服务水平和智能化水平具有不可替代的关键作用。但于此也要注意到,在智慧图书馆的建设中,任何技术设备都只是赋能的手段,都是为了人的智慧的发展[16]。也就是说,为了保障读者智慧的发展,公共图书馆在应用算法推荐技术时应尽量削弱前述两种风险的潜在影响。在这两种风险中,算法偏见是采用算法推荐技术时的长期性固有问题,须随着算法技术的提高而逐渐改进,且其带来的主要影响是读者兴趣识别偏差,服务质量降低,并非在智慧图书馆这一场景下应用算法推荐技术时须予规制的典型风险。相比之下,信息茧房效应可能与智慧图书馆的发展目标相悖,因而具有较强的规制必要,其必要性可从此种信息茧房效应对读者文化质量权的妨碍和使公共图书馆的使命价值落空两个方面分别展开。
未成年人保护始终是公共图书馆提供服务时的关注重点。《公共图书馆法》从正反两方面规定了公共图书馆的未成年人保护义务。积极方面表现为该法第三十四条的规定:“公共图书馆必须为未成年人提供优质服务。”消极方面则表现为该法第三十七条第一款的规定:“公共图书馆向社会公众提供文献信息,应当遵守有关法律、行政法规的规定,不得向未成年人提供内容不适宜的文献信息。”后者是要求公共图书馆从文献资源角度为儿童提供高质量的文化资源,从而保障儿童的文化质量权[17]。这种对未成年人文化质量权的保障也应延伸到智慧图书馆采用算法推荐技术时。有观点据此提出,未成年人心智尚未成熟,算法推荐技术的应用可能导致未成年读者在阅读时陷入由负面信息编织的信息茧房中,使其面临沉迷网络与不当模仿的风险,因而应将这种信息茧房效应解释为《公共图书馆法》第三十七条第一款中的“内容不适宜”[18]。
但这种文化质量权并非未成年人所独有,而是所有读者共享的。步入智慧图书馆的一般读者的文化质量权同样会受到信息茧房效应的妨碍。虽然在《公共图书馆法》的视域下,仅儿童、老年人和残疾人等特殊群体的文化质量权受到特别规定,但这并非否认了一般读者的文化质量权,而是在既往情况下对一般读者的文化质量权予以一般程度的保障即可,典型如通过充足的图书采购。原因在于,不同于那些特殊群体,一般读者因法律已假定其具备独立从事社会交往的能力和自由,无论他们对文献信息的选择,对其所获取的文化质量存在何种影响,他们均可自负其责,无须公共图书馆进行干涉。然而,在引入算法推荐技术的智慧图书馆情境下,情况则有所不同:在强大的算法面前,即使是法律上心智成熟的成年人在文献选择时也无法完全摆脱对技术的依赖,从而陷入信息茧房效应。更重要的是,信息茧房效应对读者的影响是外在技术应用的结果,其对读者信息质量的影响已超出读者可自负其责的范畴。
使命与价值决定了公共图书馆的发展方向。如果不能正确认识和把握公共图书馆的价值和使命,就必然导致公共图书馆的发展偏离方向,亦会削弱公共图书馆的社会价值,乃至使公共图书馆失去存在的意义[19]。就其使命而言,《公共图书馆法》第二条明确规定:“本法所称公共图书馆,是指向社会公众免费开放,收集、整理、保存文献信息并提供查询、借阅及相关服务,开展社会教育的公共文化设施。”根据该条的定义,公共图书馆是一项公共文化设施,公益性是使其与商业性图书机构得以区分的本质属性。就其使命而言,包括向公众免费提供文化服务及开展社会教育两大类。社会教育职能具有两个方面的表现:其一,图书馆是一所没有围墙的大学,任何人都可以来这里进行终身学习;其二,图书馆能提高人们的信息素养,培养科学思维能力[20]。就其价值而言,公共图书馆的内核是作为实现信息与人之间相对自由交互的场所[21]。作为一种高度综合的社会教育和公共文化服务设施,公共图书馆能够以其广泛的网络布局、丰富的内容构成、完备的服务手段、强大的服务支撑,成为“普遍均等、全民共享”核心价值的最佳载体[22]。
智能时代的公共图书馆,始终致力于通过提升图书馆线上和线下的智慧程度,以更好地为读者提供文化服务。这虽是公共图书馆践行其使命与价值,但其中蕴含的信息茧房效应风险却可能导致公共图书馆偏离其使命与价值,并违背其设立宗旨。算法推荐的核心优势在于为更精确高效地满足人类需要,这一优势在电商平台应用场景下尤为明显,如消费者本来要通过自行设定关键词检索等方式寻找自己需要的商品,但在算法推荐技术之后,电商平台可以根据用户的浏览和购买记录推荐其可能感兴趣的商品,这会极大减少消费者在购物上消耗的时间。对这种优势的扩张运用符合电商平台追求商业利益的自身定位,外界批判也主要集中在诱导过度消费的问题上。对短视频平台来说,算法推荐技术的应用提升了平台内容的分发效率,用户可以轻易获取自己感兴趣的内容,在很大程度上也起到文化传播的功能,但信息茧房效应也相伴而生。短视频平台在优化算法推荐技术的过程中即须采取措施适度削弱信息茧房效应,短视频平台虽也负有社会责任,但这更多表现为对色情暴力等违法内容和侵犯著作权内容的审查和处理,其自身仍是一个服务于大众娱乐的商业平台,以追求商业利益为首要目标。
但如果将视角从商业领域转到公共图书馆领域,应对算法推荐技术的思路将会发生极大变化。虽然在这两个领域采用算法推荐技术均会引发信息茧房效应,但算法推荐技术与商业平台自身的定位更加契合,却可能与公共图书馆的使命价值相抵触。这主要表现为两个层面:自消极层面而言,公共图书馆作为公共文化设施负担着提供公共文化服务的任务,信息茧房效应会导致公共文化服务的质量下降,以至于公共图书馆的使命与价值落空;自积极层面而言,在进入智能时代之后,伴随着算法推荐技术的广泛应用,信息茧房效应必将大量存在,作为提供公共文化服务的文化设施,公共图书馆正是规制信息茧房效应,拓宽读者信息获取渠道的重要途径。
基于算法推荐技术在内容分发上无可比拟的有效性和精确化等优势,监管机构并不禁止算法推荐技术在商业领域的应用,而是要求算法推荐服务提供者采取相应措施减少负面影响。为此,国家互联网信息办公室于2021年11月16日颁布了《互联网信息服务算法推荐管理规定》(以下简称为《规定》)。在算法设计环节,《规定》明确提出,算法推荐服务提供者不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型,并鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性。这仅是对商业化领域推荐算法的设计提出适当的优化要求,并不改变算法设计的核心,即仅以相关性为唯一标准,旨在充分挖掘用户或消费者的兴趣点。然而,智慧图书馆的算法设计策略明显区别于商业领域,这种算法设计策略却无法满足智慧图书馆应对信息茧房效应的需要。
这种算法设计策略上区别的成因,恰在于二者使命价值定位上的差异。在以营利为目标的商业领域算法推荐技术的应用均是为了提高服务质量,以增强用户粘性。这一目的决定了它们在算法内容设计上应最大限度了解用户的兴趣点,并满足用户需求。对旨在提供公共文化服务的公共图书馆来说,为读者提供更精准、高效的服务只是其服务内容的一部分,除此以外,它们还必须尽力破除由此可能产生的茧房效应。这意味着,公共图书馆在其推荐算法的设计上,不仅要考虑读者会对哪些文献信息感兴趣,还要考虑读者应当了解哪些文献信息。即其算法设计并不完全以读者的兴趣为导向,而是要根据读者个人的情况进行更高强度的干预,转而进行更广泛的文献信息推荐组合。这也是算法设计的过程,只不过不再是基于读者主观兴趣的算法内容设计,而是基于相对客观化的合理标准。该标准须由图书馆根据符合其公共文化设施定位的方式确定,典型如为仅对专业书籍感兴趣的读者推荐通识类读物,或为仅对文学作品感兴趣的读者推荐其专业的相关书籍。当然,公共图书馆为提供公共文化服务所要做的也仅限于,在算法设计上为读者提供弱化或消除茧房效应、提高读者拓展阅读领域的选择机会[23]。读者最终是否实际阅读这些文献信息改善自身知识结构,则非公共图书馆所能干涉。
3.2.1 内部监管
公共图书馆作为《个人信息保护法》意义上的个人信息处理者,同样须根据该法第52条的规定聘任个人信息保护负责人。个人信息保护负责人是内部的个人信息处理合规监督者,其职责范围同样延伸到信息处理者采用算法推荐技术的过程中。在采用算法推荐技术的智慧图书馆中,个人信息保护负责人的任务具体包括算法记录和算法报告两种。
算法记录的对象应涵盖从算法设计、测试,到算法运行的全过程,是有效评估、追溯和验证复杂算法,并对算法进行解释的基础性工具[24]。我国现行法目前尚缺少针对算法记录的一般性规则,仅《规定》第28条第2款提出:“算法推荐服务提供者应当依法留存网络日志。”
算法报告则是指为配合监管机关的监管而向其提交所采用算法推荐技术的相关记录或其他文件。这一方面表现为为配合监管机关的调查而向其提供资料额义务,如《规定》第28条第2款后半句规定:“算法推荐服务提供者应当配合有关部门开展安全评估和监督检查工作,并提供必要的技术、数据等支持和协助。”另外一方面则表现为算法备案义务,如《规定》第24条第1款规定:“具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。”该条要求进行算法备案的主体仅限于“具有舆论属性或者社会动员能力的算法推荐服务提供者”。之所以在备案范围上有所限定,是因为一般性的算法备案会加重算法推荐服务提供商的负担。因而,对于那些偶尔使用算法的中小形企业,应当免除其算法备案的义务。对于公共图馆来说,在其发展到智慧图书馆这一形态后,算法推荐技术应用的广泛性和影响的重大性均要求其进行算法备案。
3.2.2 外部监管
针对算法推荐技术应用的外部监管的核心是算法评估制度。算法评估是指依系统制定的衡量标准对自动化决策系统的应用流程、数据使用和系统设计等内容进行系统评判,以确认该系统影响水平和风险等级的算法治理实践[25]。《规定》第28条明确规定:“网信部门会同电信、公安、市场监管等有关部门对算法推荐服务依法开展安全评估和监督检查工作,对发现的问题及时提出整改意见并限期整改。”现行法上针对推荐算法技术的评估也有对象限制,《规定》第27条也将之明确限定为具有舆论属性或者社会动员能力的算法推荐服务提供者。就智慧图书馆而言,尤其考虑到其算法设计上的特殊性,在未来应将之列入算法评估的范畴。
智慧图书馆采取算法推荐技术是为了更好地向读者提供文化服务,但这是非强制性的,而且就现阶段而言,应用算法推荐时无论如何都难以避免算法偏见以及完全撇除茧房效应。为此,读者可以选择拒绝接受智慧图书馆的算法推荐,或在选择接受前要求智慧图书馆对推荐算法作出一定解释,此即读者的算法拒绝权和算法解释权。《个人信息保护法》第24条第2款和《规定》第17条均规定了算法拒绝权。基于此,在读者以线上方式访问图书馆的移动端或网站时,智慧图书馆应向读者提供不针对其个人特征的选项或向其提供便捷的拒绝方式。在读者以线下方式亲身访问图书馆时,应允许其在入馆时选择,是否允许图书馆收集其在馆内活动的相关个人信息并进行个性化推荐。在未来,为使读者最大可能地保有拒绝权,智慧图书馆在线下对读者个人信息的采集应最大限度地使用传感器等可允许读者拒绝的方式。
此外,保障读者算法解释权的行使也具有非常重要的意义。因为只有使读者更好地了解算法的运行基理,他们才更愿意接受算法。唯须注意的是,虽然智慧图书馆应用算法推荐技术会使读者陷入信息茧房,但这并不构成《个人信息保护法》第24条第3款和《规定》第17条第3款意义上对个人权益的重大影响。因此,读者的算法解释权并非指向对这种重大影响决定合理性的解释说明。相反,读者的解释权应当以《规定》第16条为基础,即“算法推荐服务提供者应当以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。”对图书馆来说,这种限度的解释义务也不会向其施加不合理的负担,因为不仅内容上相对简单基础,形式上也可以采用显著位置公示或批量印制的方式完成。
从古至今,人们的阅读方式经历了数次伟大变革,图书馆的智能化发展当属其中一种。自动化算法的应用是智慧图书馆建设的技术支撑,自动化算法在智慧图书馆中最典型的应用场景则是基于算法对读者进行画像,并向读者推荐其所需的文献信息。这虽然对提升图书馆的文化服务质量大有助益,但与此同时也可能产生算法偏见、信息茧房等诸多风险,尤其是信息茧房效应会妨碍读者的信息质量权,并有悖于公共图书馆的使命和价值。技术的发展应当始坚持人的主体地位,因而有必要对上述风险予以规制。规制方式的选用要充分考虑现行法的规定及公共图书馆的自身特点,具体可以从算法设计、算法监管及读者权利保障三个方面分别展开。