“AI+档案”应用的算法风险与治理路径探析

2021-11-04 21:24于英香李雨欣
北京档案 2021年10期
关键词:人工智能档案管理

于英香 李雨欣

摘要:各国政策既鼓励应用人工智能技术辅助档案工作,也强调对人工智能算法应用引发的风险进行治理。算法及算法权力介入档案工作可能会带来诸多风险,如算法攻击导致档案数据泄露、算法鸿沟引发档案管理决策的信任危机、算法的技术理性牵制档案价值理性的发挥、算法的偏好原则弱化档案用户的信息权利等。为了应对风险,应从算法应用回归价值理性、制定防范算法风险管控策略、依据法律法规来规范算法应用行为等方面进行算法治理。

关键词:人工智能 算法权力 算法风险 算法治理 档案管理

Abstract:Policies of various countries not on? ly encourage the application of Artificial Intelli? gence technology to assist archival work, but also emphasize the management of risks caused by the application of Artificial Intelligence algorithms. The involvement of algorithm and algorithm power in archival work may bring many risks, such as the leakage of archival data caused by algorithm at? tack, the trust crisis of archival management deci? sion caused by algorithm gap, the technical ratio? nality of algorithm restricts the good value of ar? chives, the preference principle of algorithm weak? ens the information control right of Archives Us? ers, etc. In order to deal with those risks, we should be taken for algorithmic governance, such as returning value rationality in applying algorithm, formulating the control strategy to prevent the al? gorithm risk, and adopting laws and policies to reg? ulate the algorithm application behavior, etc.

Keywords:Artificial intelligence;Algorithmic power;Algorithm risk;Algorithmic governance;Ar? chives management

“人工智能+”(Artificial Intelligence Plus,简称“AI+”)是指人工智能(Artificial Intelligence,简称“AI”)与各个行业的深度融合并创造新的行业发展生态。“AI+档案”即将人工智能技术应用于档案管理工作中,以创造档案事业的新生态。算法是指应用计算机程序解决问题的方法,人工智能技术赋能档案管理,如档案的分类、鉴定等工作均可转化为计算机程序,即算法问题。目前,有关“AI+档案”的研究主要有三个方面:一是探讨AI技术应用于档案工作的适用性,如AI技术嵌入档案管理的逻辑和特征[1]、可行性[2]及必要性[3];二是“AI+档案”工作的变革,如探索采用人工智能技术构建新型系统[4]、驱动智慧档案馆建设[5]、优化档案网站[6]等以及探讨人工智能在档案管理理论创新、档案管理模式优化、档案管理人员能力提升[7-9]等方面的推动作用;三是档案工作面临的挑战,包括技术安全可靠性[10]及档案管理、档案数据、机器信任、法律环境、专业能力[11]等方面的挑战。目前大多研究着眼于采用人工智能技术创新档案工作路径,也有研究反思人工智能应用可能带来的负面影响及对策等,但鲜有从算法的视角探讨“AI+档案”应用存在的管理风险,对“AI+档案”应用中的算法风险进行治理成为档案管理不可规避的议题。

一、算法风险呼唤对“AI+档案”进行算法治理

随着人工智能技术的进步,国际档案组织倡导要协同人工智能技术发展档案事业,如2017年英国国家档案馆颁布的《数字战略》提出研究机器学习技术辅助数字敏感性审查及处理数字文件工作,以便更好地实现数据的价值[12];美国信息自由法联邦咨询委员会提交的《2018—2020年报告草稿》中要求档案管理员应加强与其他部门合作,利用人工智能技术提高文件搜索响应能力以及识别敏感材料[13];澳大利亚国家档案馆出台的《2019—2022年信息技术战略方向》中提到要采用人工智能技术打造现代化技术平台以提供服务[14];加拿大图书馆和档案馆公布的《2020—2021年部门计划》表示将探索AI在提供现代化参考咨询服务的可能性[15];国际档案理事会发布的《2021年至2024年战略规划》提出将继续探索与数据和计算机科学领域建立新的伙伴关系[16];我国中办国办印发的《“十四五”全国档案事业发展规划》中倡导要积极探索人工智能技术在档案信息深层加工和利用中的应用等[17]。这些政策在宏观层面鼓励档案部门采用人工智能技术辅助档案工作,成为“AI+档案”事业发展的动力。然而,人工智能技术的应用也带来了潜在的风险。人工智能算法作为一种技术手段,本身不具有权力的属性,但由于其具备对数据、人的行为和公权力资源的调动能力就形成了技术权力[18]。算法的设计是有逻辑有目的的,算法权力既包含算法本身的权力和数据的权力[19],还包括算法设计和研发过程主导者的权力[20]。具体而言,算法提供的运算结果有可能会代替人类进行决策,甚至具备影响人思想观念、意识形成和价值观的能力。当出现算法滥用、数据滥用、算法歧视等问题时,则可能对国家安全、政府运作、公共秩序、社会运行等方面带来消极影响,因此引起人们对算法应用产生风险的担忧。人工智能与档案领域的深度融合催生出以算法辅助决策为核心的算法治理新模式,档案界也意识到了算法可能带来的风险,并通过政策都传递出对“AI+档案”应用的隐忧,如美国国家档案与文件管理署(NARA)2020年7月出台的数据管理委员会章程中规定,数据治理委员会要指导机构对机器学习和人工智能的投资,并围绕该技术的道德使用提出建议[21],2020年10月公布的新白皮書《认知技术:文件管理对物联网、机器人过程自动化、机器学习和人工智能的影响》中着重关注AI应用时的信任问题、偏见问题和道德问题[22];澳大利亚国家档案馆发布的《信息和数据治理框架》中就将澳大利亚政府出台的《AI伦理原则》纳入参考范围[23]。这表明,各国政策既关注人工智能的应用,也关注如何防范应用中算法可能带来的风险。

二、“AI+档案”应用的算法风险

当算法介入档案整理、保管、编研、利用服务等工作时,算法“盗窃”数据、算法信任问题、算法价值问题、算法偏好问题等带来的消极影响也随之而来。

(一)算法攻击导致档案数据泄露

算法可以是良器也可能是武器。在档案工作中,当算法是良器时,它可以参与档案工作从而协助档案工作者完成任务;当算法变成武器时,会成为一些不法分子窃取档案数据的工具。档案数据面临的外来风险可能来源于网络的攻击,这对档案数据的安全带来极大的威胁。自从计算机技术发展以来,网络安全事件频发,政府数据、企业数据、个人数据等数据资源因算法攻擊导致数据泄露或数据篡改的事件屡见不鲜,其中不乏涉密性和敏感性的档案数据。如2018年12月,法国外交和欧洲事务部发生个人档案信息失窃事件,随后其发表声明称黑客利用其计算机系统漏洞进行算法攻击,导致多人信息被泄露。[24]不难看出,算法作为治理工具的同时,还有可能成为损害利益的武器,档案部门担负着保管档案数据的重任,保护档案数据的行为已经上升到维护国家主权及社会秩序的高度。

(二)算法鸿沟引发档案管理决策的信任危机

算法参与档案管理决策,意味着档案业务处理规则从“透明”到“黑箱”,算法鸿沟引起信任问题也随之出现。传统的档案工作是显性运行的,档案收集、整理、鉴定等业务的标准和规章有据可循,可明确追溯责任。人工智能算法介入下,档案业务的处理规则由算法编制而成,人的决策由算法决策替代。算法规则对于大多非算法研发者透明度不高,“透明”的规章制度与“黑箱”的算法规则之间存在矛盾,档案主体与算法决策间的信任危机应运而生。以档案分类问题为例,2017年,澳大利亚新南威尔士洲档案馆数字档案团队应用机器学习算法得到的分类结果准确率最高84%[25],实验结果意味着算法的出错率达16%。因此,当利用算法处理档案业务时对于提供的学习结果是否能完全信任难以下定论[26]。若档案部门无条件地完全依赖于算法提供的决策,当发生错误时以算法规则透明低、算法程序不可解释性和算法模型不确定性等为由推卸责任,将会削弱档案工作者的地位,导致他们在档案工作中趋向虚拟化或边缘化。

(三)算法的技术理性牵制档案价值理性的发挥

当算法应用于档案编研工作中,算法的技术理性往往会忽略档案用户的情感需求,这是因为价值观并非算法可计算的对象。档案编研工作是对档案内容的重组加工,当算法作为编研成果的“撰写人”时,实质是利用智能算法对档案数据内容进行深度分析和挖掘,对主题事件进行深层、全面的分析。而传统的编研工作,呈现的编研成果倾注了个人对编研主题和档案素材的理解和情感,面对不同的编研主题叙述事件时会聚焦人文关怀。这时,算法的“全面”与人工的“侧重”叙事原则之间形成冲突。尽管算法生产具有高质量、高效率的特点,但若涉及情感问题与价值问题时,算法劣势明显。如弱势边缘群体的档案文件中可能存在对记录对象的不当描述,又或针对创伤性事件档案,算法在“创作”的过程中难以共情,从而造成对该类群体的情感创伤,有悖于价值理性的发挥。因此,编研工作中考量读者的情感体验,实现档案工作价值理性的发挥也是档案管理智能化探索过程中不可规避的问题。

(四)算法的偏好原则弱化档案用户的信息权利

在档案智能推荐系统中,算法能决定推荐给档案用户的信息,从这一层面看,用户选择信息时失去了主动权。算法设计时会无形地将偏好原则纳入研发规则,一是面向档案用户的偏好,二是面向算法编写者的偏好,两者均可能对档案用户思想和行为产生影响。

一方面,当算法面向档案用户的偏好时,算法旨在将采集到的个人数据进行分析和关联,并在以“用户为中心”服务理念的指导下进行定向推送。其原理是算法根据采集到的档案用户的个人信息及行为数据进行分析,通过构建用户画像,主动将用户感兴趣的主题信息推送给该行为用户。基于智能算法推荐的这一服务方式符合个性化、精准化的档案服务目标,但也可能造成“信息茧房”。“信息茧房”实质是将用户束缚在一定的“信息牢笼”中,导致其所接触到的外部信息主要是以个人兴趣为主导,久而久之会给人的心智带来负面的影响。

另一方面,当编研规则过分融入算法编写者的偏好时,服务宗旨由“用户为中心”转向“算法开发者为中心”,算法的服务理念将随之变质。对档案用户而言,在选择信息时实际上处于被动地位,其思维认知与行为方式被算法开发者间接操控。例如应用算法对某一档案用户的学籍数据、医疗数据、土地登记数据等档案数据进行分析,根据分析结果对用户进行分类,有目的性地将某类信息传递给某类特定用户以达到支配用户行为的目的。由此可见,档案用户可能会成为算法权力者的利用对象,即“被利用”的对象不仅是由档案用户所产生的数据,还有其本身。可见,算法滥用不仅限制档案用户的主观能动性发挥,加大了对档案用户的控制,还削弱了档案用户的信息权利。

三、“AI+档案”应用算法治理路径

(一)意识维:算法应用回归价值理性

在多元协同治理的理念下,档案工作者、算法开发者作为治理主体在开发或应用算法时应该秉持价值理性。档案部门的职责应体现在以下几个方面。

首先,档案部门要避免以技术为工作导向,坚守档案职业要求。算法不能完全代替档案工作者的角色,如算法缺乏人文关怀、道德判断,算法能够精准服务但也会阻碍档案用户接受多元信息,这些缺陷与档案工作原则不符。因此,档案工作者在AI应用背景下,应强化自身责任意识,将公平、向善、真实、客观等原则嵌入工作准则中。其次,档案部门应全程监控档案算法设计、研发和应用。为防范数据和算法滥用行为,档案部门应发挥起“他律”的监督作用,结合算法开发者的“自律”,双管齐下将算法“价值理性”规范根植于算法设计和应用中,研发秉承“安全、可靠、公平、权责可追溯、行为可追踪、易管理”的原则,确保档案数据利用过程的合理性及服务目的的正当性。最后,档案部门要促进档案用户对信息安全和算法应用的认识。如通过移动应用程序、知识服务平台、网站等软件采集档案用户基本信息时,为其提供采集数据的目的、采集数据的范围、数据应用场景等信息,并强调这些数据对提供知识服务的重要性,深化对数据价值的认识。同时,可以在利用服务过程中促进用户对算法应用的认识,如按主题内容、作者等分类方式整合档案用户某周期内的浏览内容,反馈其知识接收情况,有助于帮助陷入“信息茧房”的用户戳破“过滤气泡”,增强档案用户的信息甄别与选择能力。

(二)管理维:防范算法风险管控策略

算法风险既有可能来源于外部环境,也可能是产生于内部业务工作中。档案部门需要制定算法治理的管控措施,营造良好的信息生态环境。

首先,完善管理制度。一是完善风险管理制度,确保档案数据的安全性、可用性与可靠性。充分识别档案数据管理各个阶段中潜在的算法风险,界定风险管控的范围,制定风险管理的标准和目标及风险应对方案,将风险管理贯穿于整个业务流程。二是构建审查机制,审查对象包括数据和算法。档案部门应审查如档案数据利用服务目的、监督档案数据使用的合规性和合法性、設立算法评估的指标、核查算法传播内容、定制监督流程、完善评估报告机制等内容。为提高审查效率和质量,还可以引入第三方技术机构对“AI+”档案管理应用系统的程序算法及时核查并纠错。

其次,凝聚监管合力。为增强算法应用监管力量和明确监管范围,档案局可牵头成立档案数据治理委员会,从宏观层面上完善权责体系和健全信息保护机制,为应用新技术提供专业咨询和业务指导。档案业务部门可联合技术部门成立档案数据监管小组,尤其把涉及档案数据利用的合法性和合理性作为重点监管内容,确保各项业务工作的权责可追溯。为聚焦档案工作特色,档案部门可吸纳多学科领域人才组建“智囊团”,例如NARA的AI团队成员包括档案管理员、项目经理、IT专家、外联联络员、文件管理者和数字化专家[27],有效地改善档案部门技术缺位的现状,增强抵御风险的力量。

最后,确保算法透明。算法在非开发者面前是一个“黑箱”,档案部门只有了解算法可解释性内容,才能了解哪些档案数据被使用,用来达到什么目的,进而缩短与算法黑箱的距离,降低风险事件的发生概率。从目前的“AI+档案”应用看,算法设计多数采用外包形式,因此,档案部门可以与外包单位签署有关合同,分阶段获得全部代码源,尽可能了解可解释性部分的算法,以此维护档案部门的话语权和保障公共利益。

(三)法规维:规范算法应用行为

应对算法带来的挑战,还需以法律和行业标准来引导和规范算法应用行为。一是强调对档案数据的保护,包括保障档案数据内容安全和监管档案数据利用;二是聚焦算法开发和应用的规范。

一方面,参照上位法律法规来规范算法应用行为。档案数据的利用规范可参照国家或国际颁布的信息保护条例,如参考我国颁布的《信息安全技术个人信息安全规范》(2020年版)关于个人信息安全影响评估、个人信息的使用的规定及欧盟发布的《统一数据保护条例》中对用户画像构建活动的规定,防控档案用户隐私权被侵犯、数据滥用等风险。档案数据还可能面临源自外来算法攻击,当管理和技术不能抵御风险时,应考虑档案数据涉及的利益主体、涉密等级,划分风险等级,通过法律法规约束不正当的算法应用行为。具体可借鉴我国《数据安全法》中对开展数据活动的要求及《个人信息保护法》中对利用个人信息支持决策的条令,结合《民法典》《网络安全法》等多部法律作为追溯档案数据活动中相关利益者责任的依据。

另一方面,构建档案数据利用和算法应用的专门性规范。国家档案局曾于2017年发布的《电子档案利用规范》(以下简称《规范》)征求意见稿中对利用范围、利用方式、利用手续、安全控制等方面提出了要求,主要强调以管理和技术手段保障电子档案利用环节的内容安全。在数据环境下,需增加档案数据利用过程和利用目的相关规范。AI技术介入档案工作拓宽了利用服务方式,档案数据需经过算法“加工”这道工序才被档案用户利用,由于档案数据加工过程不透明,加工后利用价值呈现多元化,导致该《规范》对档案数据利用工作的指导作用不明显。为防范档案工作中潜在的数据滥用、算法歧视、算法偏见、算法营销等风险,档案部门可构建适合于“AI+档案”应用的专门性规范,规范中可要求算法开发者解释算法开发流程,如训练数据集选择的依据、算法规则研发目的,一旦发现问题,及时干预算法权力者的行为、评估涉事方相关的责任,进而平衡档案部门和档案用户的利益。还可以选择将技术伦理原则纳入《档案法》以及其他档案工作标准中,以法理来深化档案工作者的责任意识。

四、结语

AI技术对档案事业的发展产生了深远的影响,理性看待并采取手段控制AI技术可能带来的隐患是维持档案工作良性运行、保持业务与技术之间发展协调与平衡的关键要素。本文以算法为基础,审视AI算法应用于档案工作可能产生的负面影响,并从意识层面、管理层面、法规层面提出治理对策。未来,仍要具备忧患意识,在智能技术赋能档案事业的同时,推进“AI+档案”应用算法治理的创新。

*本文系国家社科基金项目“大数据背景下档案数据管理理论构建、技术选优与实践创新研究”(项目编号:18BTQ092)阶段性研究成果。

注释及参考文献:

[1]于英香,赵倩.人工智能嵌入档案管理的逻辑与特征[J].档案与建设,2020(1):4-8.

[2]陈会明,史爱丽,王宁,等.人工智能技术在档案工作中的应用与发展刍议[J].中国档案,2020(3):72-74.

[3]周枫,吕东伟.基于“智能+”档案管理初探[J].北京档案,2019(9):39-41.

[4]赵雪芹,李天娥.智能化环境中档案信息服务研究现状及未来研究展望[J].北京档案,2020(1):11-15.

[5]杨靖,朋礼青.人工智能对智慧档案馆的驱动作用研究[J].北京档案,2019(1):9-13.

[6]周文泓,李新功.人工智能背景下档案网站优化策略研究[J].档案管理,2019(3):52-54.

[7]李子林,熊文景.人工智能对档案管理的影响及发展建议[J].档案与建设,2019(6):10-13;9.

[8]丁晶晶.人工智能时代档案管理革新路径分析[J].档案管理,2020(3):67-68.

[9]韩洁,史江.人工智能赋能背景下中外档案管理创新比较与启示[J].档案与建设,2020(2):40-44.

[10]沙洲.人工智能在档案工作中的应用研究[J].档案与建设,2018(2):36-39.

[11][26]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J].档案学通讯,2019(6):48-56.

[12]The National Archives UK.Digital Strategy[EB/OL].[2019- 12- 25].https://www.nationalar? chives.gov.uk/documents/the- national- archives- digi? tal-strategy-2017-19.pdf.

[13]National Archives of the United States.DRAFT REPORT TO THE ARCHIVIST OF THE UNITED STATES[EB/OL].[2020- 05- 20].https://www.ar? chives.gov/files/ogis/fin-report-with-appendices.pdf.

[14]NationalArchivesofAustralia.Information Technology Strategic Direction 2019- 2022[EB/OL]. https://www.naa.gov.au/sites/default/files/2019- 10/in? formation-technology-strategic-direction-2019-2022. pdf.

[15]Library and Archives Canada.Library and Ar? chives Canada Departmental Plan 2020-2021[EB/OL].[2020- 04- 27].https://www.bac- lac.gc.ca/eng/aboutus/report- plans- priorities/departmental- plan- 2020-2021/Pages/departmental-plan-2020-2021.aspx.

[16]中国档案资讯网.国际档案理事会发布2021年至2024年战略规划[EB/OL].[2020-12-04].http:// www. zgdazxw. com. cn / news / 2020 -12 / 04 /con? tent_314891.htm.

[17]中华人民共和国国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].[2021-06-09]. https : //www.saac.gov.cn/daj/toutiao/202106/ ecca2de5bce44a0eb55c890762868683.shtml.

[18]张凌寒.算法权力的兴起、异化及法律规制[J].法商研究,2019,36(4):63-75.

[19]陈鹏.算法的权力和权力的算法[J].探索,2019(4):182-192.

[20]陈鹏.算法的权力:应用与规制[J].浙江社会科学, 2019(4): 52-58;157.

[21]National Archives of the United States.Nation? al Archives and Records Administration Data Gover? nance Board (DGB) Charter[EB/OL].[2020- 07- 17]. https :// www. archives. gov / data / dgb ? _ ga = 2.156275005.789216578.1610286192-1148343308.1601992695.

[22]National Archives of the United States.Cogni? tive Technologies: Records Management Implications for Internet of Things, Robotic Process Automation, Machine Learning, and Artificial Intelligence[EB/OL].[2020- 10- 19].https://www.archives.gov/files/recordsmgmt/policy/nara-cognitive-technologies-whitepaper. pdf.

[23]National Archives of the United States.Informa? tion and data governance framework[EB/OL].[2021-02- 24].https://www.naa.gov.au/about- us/our- organi? sation/accountability- and- reporting/information- anddata-governance-framework#environment.

[24]搜狐網.2018年数据泄露事件概要汇总[EB/ OL]. [ 2019 -03 -11 ]. https : // www. sohu. com /a / 300519296_120056080

[25]ROLAN GREGORY, HUMPHRIESG, et al. More human than human?Artificial intelligence in the archive[J].Archives and Manuscripts,2019,47(2):179-203.

[27]National Archives of the United States.Digital Transformation:Exploring AI[EB/OL].[2020- 02- 24]. https://aotus.blogs.archives.gov/2020/02/24/digitaltransformation-exploring-ai/.

作者单位:上海大学图书情报档案系

猜你喜欢
人工智能档案管理
我校新增“人工智能”本科专业
如何规范档案管理
档案管理中的电子档案管理
人工智能与就业
档案管理与企业内部控制关系的思考
数读人工智能
论科研项目档案管理
加强工程项目档案管理的有效途径
电子档案管理的一些认识和思考