岳幸晖 杨智勇
(上海大学文化遗产与信息管理学院,上海,200444)
当下,人工智能正加速与经济社会各行各业深度融合,档案行业也概莫能外。《“十四五”全国档案事业发展规划》明确指出“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,推动数字档案馆(室)建设优化升级”[1];2023年度国家档案局拟立项的科技项目中涉及人工智能的多达28个[2]。与其他信息技术相比,人工智能的特殊性主要体现在其具有生物智能的自学习、自组织、自适应、自行动等特征[3],借助数据、算力和算法来模仿人类认知过程和思维能力,在面临复杂且多样的档案管理场景时能够自主学习和适应,进而做出最优选择。目前,人工智能在档案管理中的应用这一主题已引起国内外学者的广泛关注,相关研究主要集中于三个维度:一是从宏观层面探讨人工智能应用于档案管理的影响,如人工智能的方法与技术将推动档案管理理论创新、档案管理实践优化、档案管理人员角色转变等[4-5];二是从中观层面分析人工智能嵌入档案管理的具体环节;[6]三是从微观层面剖析人工智能中的某一类技术如何应用于档案管理,如机器学习[7]、ChatGPT[8]、图像和语音识别[9]等。
总体而言,上述研究表明人工智能在档案管理领域已得到一定的发展与应用,但现有文献对人工智能可能给档案管理带来的风险鲜有提及。基于此,本文落脚于中观层面,系统分析人工智能在档案管理中的应用现状,深入探讨档案管理应用人工智能技术所面临的潜在风险,并提出风险的防范策略,以期提高档案管理智能化、科学化水平,助力档案工作智慧化转型升级。
人工智能的主要技术领域包括:计算机视觉、自然语言处理、机器学习、智能机器人、模式识别等[10],这些技术目前在档案“收管存用”的具体环节中已实现不同程度的探索应用,切实提高了档案管理的效率与水平。未来,利用人工智能逐步实现档案管理全流程智能化将成为实践发展的重要方向。
大数据时代,各类电子文件指数级增长,迫切需要信息技术的嵌入来满足电子文件的归档要求,而人工智能可介入电子文件前端控制,提高电子文件归档质量。借助机器学习、自然语言处理、模式识别等技术,提前将电子文件的归档范围、分类方案、归档时间、通用文件格式要求、元数据方案、命名规则、封装要求等配置在业务系统或归档接口中[11],根据预先设定的形式实现电子文件的在线自动归档和全程留痕,从前端确保电子文件的真实、完整、可用、安全。如上海市浦东新区档案馆运用人工智能技术,将电子档案管理和“四性”检测需求融入受理平台和业务系统,确保电子文件在审批服务过程中即符合归档要求,实现事项随办随归、要素自动归集。[12]
在网络环境下,档案数据广泛产生于电子办公、电子业务、信息系统、网站网页、新媒体及传感设备等环境[13],而人工智能可辅助档案数据全域采集。通过融合智能感知终端、网络爬虫、数据采集、智能转录等人工智能技术,感知采集多模态、多来源档案信息资源,有效提升档案收集质量与效率,构建立体多元的馆藏档案资源体系。如浙江省档案馆与科大讯飞公司合作,综合运用卷积神经网络、AI识别等技术,实现对音视频档案的采集、整理和有效利用,有效盘活音视频档案资源。[14]
就档案形态而言,档案资源包括实体档案资源和数字档案资源。针对实体档案资源,OCR识别、人脸识别、语音识别等技术的应用,能够自动识别并提取档案中的关键信息和文字内容,将其转化为可供计算机编辑处理的数字化、数据化信息。如荷兰国家档案馆和KNAW人文小组联合开发了开源转录软件Loghi,目前该软件对手写、打字、印刷文本转录识别率已达到96%,有效提高了历史档案数字化的效率。[15]针对数字档案资源,借助自然语言处理、机器学习等技术,可对档案进行聚类分析,发现不同文本间的关联与特征,实现文本型数字档案资源的自动著录标引、分类排序;还可基于模式识别技术,实现照片档案、录音录像档案等媒体型数字档案信息资源的一站式检索。
借助专家系统、机器学习、语义分析等技术,在对已开放鉴定的成果进行模型训练的基础上,结合专家提供的理论知识和已有的鉴定规则,预制敏感词库和规则库,实现档案目录、原文信息审读和段落、词句语义理解,进而作出档案内容的价值判断与开放结果的预测。如辽宁省档案馆结合人工智能技术,构建多维语义理解算法模型,从敏感字段、敏感词、敏感语句、敏感图像等多层次对档案全件进行语义分析,提升档案开放审核业务的智能化水平。[16]
一方面,人工智能有助于实现档案资源的多层次开发。运用数据挖掘、数据分析、知识图谱、知识地图等智能技术对档案资源进行细粒度、内容级开发,发现档案数据间的内在关联和趋势脉络,并以可视化的形式构建知识要素的关系网络,以便最大限度激活档案信息资源的潜在价值,赋能政府决策、城市发展等宏观场景。如上海市档案馆综合运用人工智能、知识图谱等技术,打造“跟着档案观上海”数字人文平台,将建筑、历史事件以及身处其中的人有机融合,为了解城市文脉与历史记忆提供档案数据支撑。[17]另一方面,人工智能助推档案资源的个性化供给。借助自然语言处理、用户画像、智能推送等技术,可从关键词理解提高到语义、知识级别的理解,深度分析档案用户在利用过程中的需求、偏好、行为等信息,获取档案用户个性化的服务诉求,主动为其推送更加精准的档案信息。如可利用对话式语言模型ChatGPT,对大规模档案数据资源进行训练,并构建档案领域知识库,以知识问答的形式提供智能化的档案利用服务。[18]
人工智能技术的应用也会对档案管理带来诸多挑战。全面理解人工智能在档案管理中的应用风险,是促使其良好发展的先决条件。
制度风险指人工智能介入档案管理的过程中,由于相关部门针对这一新型领域的制度制定和修改不及时、不到位而可能引发的风险。一方面,顶层设计尚不完善。当下档案领域涉及人工智能的政策更侧重于宏观层面的方向引导,缺乏微观层面具体性、针对性、配套性的实施办法和操作指南,如人工智能在档案领域中的应用范围和准入条件、相关主体的职责分工和权属规范、人工智能研发成果应用的评估体系等。人工智能的应用需要更为全面系统的战略规划进行引导和支持,而相关制度的缺失则成为掣肘。
另一方面,行业规范有待健全。人工智能在档案管理中的运用需依赖大量的档案数据作为语料投入,但当前缺乏体系化的档案数据标准规范。现有国家标准较多局限于数据存储、系统功能等方面,如《档案数据硬磁盘离线存储管理规范》(DA/T 75—2019)、《电子档案管理系统基本功能规定》等[19],在档案数据获取、数据传递、数据利用、数据隐私保护等方面尚无明确规定,致使档案数据化程度较低、数据质量参差不齐、数据共享利用受限,直接影响和限制了人工智能在档案领域的应用成效。
技术风险指由于人工智能自身技术缺陷以及人类认知局限,在应用过程中可能产生技术滥用、技术误用等现象,导致档案数据泄漏、系统遭受攻击等风险。一方面,内部技术缺陷而引起的风险。人工智能技术本身具有高度的专业性、复杂性和不可解释性,犹如不透明的“黑箱”,除少数技术设计者外,多数外部人员无法理解算法做出智能决策的逻辑和结果,一旦算法结构具有缺陷、模型数据出现问题,则会对档案安全造成威胁。如档案鉴定环节涉及诸多复杂问题,算法无法完全量化,若由算法掌握档案的“生杀大权”,可能会导致鉴定结果出现误判、错判。
另一方面,外部技术攻击而引起的风险。档案数据是人工智能应用于档案领域的基础和“燃料”,随着各种智能感知终端、采集终端在档案系统、档案网站中的落地,大量非结构化的档案数据在汇聚流转过程中易被未授权人员或非法组织窃取、篡改,尤其是档案用户在利用档案信息的过程中,个人行为轨迹、敏感信息等被不可避免地记录在网络中,极易造成档案用户隐私信息的泄露。此外,部分档案部门的基础设施存在老化现象,加之档案服务开放共享的天然特质,一些不法分子可能会利用平台漏洞以及病毒传播、恶意代码、智能技术等手段对档案管理系统、人工智能模型、训练数据集等进行非法攻击、肆意删除、违规使用,严重危害档案信息安全和公共服务秩序。如2021 年11 月,美国执法机构的1.9TB监控录像机密数据被黑客组织窃取,致使美国警方400 万份档案永久丢失,影响到大约17500 个案件。[20]
伦理风险是由于人工智能研发与应用中的诸多不确定因素,导致其应用于档案管理的过程中,可能引起歧视偏见、公平破坏、人机矛盾等负面影响。一方面,算法歧视引发档案用户的话语流失。算法是人工智能应用于档案管理的核心要素,但算法本身是人的产物,在算法设定和开发的过程中不可避免会存在设计者的主观意愿,如因设计者的性别歧视、个人经历、行为动机而忽视弱势边缘等特定群体的档案需求;设计者的数据选择、运用偏差等控制档案用户的信息推荐,这与档案促进社会公平正义的价值理念相悖。由于算法的精准推荐机制,用户个体只关注自身选择和偏爱的档案信息,长此以往,阻隔其他额外信息的传播,档案用户被束缚于“信息茧房”“回音室”当中,容易导致用户价值偏离、思想僵化、视角局限等问题。
另一方面,人机关系的“矛盾冲突”引发主体的认同危机。智能技术在推动档案管理发展的同时也变革了其中的人机关系,人工智能的应用一定程度上加剧了档案工作者、业务部门的职业危机。一部分档案工作者对于人工智能技术产生的抵触、恐慌、畏惧等情绪,认为其会取代自身职业;一部分则陷入“技术唯上”“技术决定论”的泥沼,期望通过人工智能技术来解决档案管理中的一切问题。此外,截至2022 年底,在全国各级档案主管部门和综合档案馆共有专职人员中,研究生学历仅占比10.5%,本科学历占比达68.7%,大专及以下学历占比20.8%,具有档案学专业程度的仅占比18.12%。[21]现有的档案人才队伍专业程度和文化水平整体较低,尚处于技术弱势和被动地位,这与人工智能所要求的技术素养和知识储备不相匹配,难以保障人工智能在档案领域的应用。
监管风险指在档案业务管理活动中,相关行为主体缺乏对于人工智能技术的控制或调节而引发的风险。一方面,档案主管部门监管力度不够。目前,档案领域虽然积极拥抱人工智能技术,但尚未意识到人工智能在应用过程中的合规性问题,面临监管责任不明确、监管手段不能及、监管能力与监管要求不匹配等监管风险。若人工智能在档案管理中使用不当,将进一步加剧其带来的制度风险、技术风险、伦理风险等,进而弱化人工智能在档案领域的应用成效。
另一方面,缺乏多元主体的协同监管。针对人工智能的监管不仅是档案主管部门的责任,更是在人工智能设计研发、生产制造、服务使用等过程中各方主体都需应对的问题。[22]其中,技术企业是人工智能程序与算法的设计者,扮演着“吹哨人”的角色,但现阶段缺乏一定的激励机制,使得第三方监管组织参与和评估的积极性不足;公众是人工智能研发成果的应用者和监管者,可帮助档案主管部门发现人工智能产品存在的问题。但通过对智能检索系统、智能查档机等档案领域已有的人工智能产品调研发现,较少产品开通了用户满意度评价、匿名意见反馈等功能入口,致使公众参与人工智能监管的渠道缺失。
有效识别、管控、规避风险是提升人工智能应用效能的必然要求。为此,文章按照“制度先行—技术集成—伦理规约—监管防控”的路线,提出应对风险的防范策略。
完备的制度体系是档案领域应用人工智能技术的基本前提,推进人工智能管理制度的构建能够遏制人工智能所带来的风险。第一,加强人工智能应用的顶层设计。自2019 年以来,国家层面针对人工智能技术已相继发布《新一代人工智能治理原则——发展负责任的人工智能》《国家新一代人工智能标准体系建设指南》《生成式人工智能服务管理暂行办法》等指引性文件,为人工智能应用提供治理框架和行动指南。档案主管部门应以上述文件为指引,发挥“元治”角色,从前端性、全局性、系统性的视角,科学谋划人工智能等新一代信息技术在档案领域的应用规划和行动计划;从制度层面明确人工智能应用的权责分配、管理模式、安全保障、组织架构等,并将人工智能风险管理贯穿于档案管理的全过程;积极支持企业、高校、科研院所等主体协同参与人工智能的前沿课题研究,鼓励和引导人工智能在档案领域的持续健康应用。
第二,健全档案数据标准规范体系。一方面,构建包括档案数据管理标准、技术标准、安全标准、隐私保护在内的标准体系,明确档案数据管理的职责权限和组织架构,强化档案数据质量控制和权益保障;另一方面,制定涵盖档案数据全生命周期的配套细则,确保其来源可靠、程序规范、要素合规,为推进人工智能在档案领域的应用提供数据资源保障。如2022年,浙江省出台的《浙江省公共数据条例》,从公共数据收集、归集、存储、加工、传输、共享、开放、利用等方面作出明确规定,促进了公共数据依法有序自由流动。[23]
人工智能不是一项自成体系的技术,其应用场景的深化需要与其他技术手段相互支撑,因此,加强区块链、数字孪生等新一代信息技术的集成运用,构筑技术风险防御屏障是保障档案安全的重要途径。一是区块链技术。可通过可信时间戳和非对称加密技术,为档案数据创建唯一标识符,防止其被篡改、损坏、盗取,确保在传输过程中的真实性和可靠性;通过智能合约和共识机制,控制档案数据访问权限,以节点对节点的形式加强数据的互联互通和溯源追踪;通过去中心化存储,将档案数据分散于多个节点并实现实时备份,提高档案数据的安全性和稳定性。
二是数字孪生技术。数字孪生是以数字化方式创建物理实体的虚拟模型, 借助数据实现物理世界与数字世界的虚实映射。[24]利用数字孪生技术可将档案馆建筑、档案实体、系统设备的状态以可视化的形式呈现,根据实时数据感知、监测、溯源档案馆运行过程中面临的不确定因素和风险状况,从而提高档案馆的风险防御水平。如上海市静安区运用数字孪生技术实现档案库房、馆藏资源在数字空间中的映射,提高了数据积累、分析和挖掘能力,为后续人工智能的应用奠定基础。[25]
第一,档案工作者应坚持人本理念,秉承包容审慎的原则。“明确人工智能应先‘人工’再‘智能’,即智能技术在档案工作的辅助性作用,人的‘智慧’始终占据主导地位”[26],避免由于过度依赖技术而导致档案管理人员角色地位的边缘化与削弱。同时,数智化的发展潮流也为档案工作者提出新的要求,档案工作者既要顺势而为,具备驾驭新技术的能力,密切关注外部技术环境的发展变化,提高自身数字素养;又要应势而动,充分了解人工智能等新一代信息技术的应用风险及其负面效应,提升风险认知能力。
第二,推动算法设计的不断优化。一方面,档案部门应充分发挥主观能动性,主动介入算法研发和设计的前端,将档案专业理论、服务理念与算法设计高度融合,把公平、正义、平等等主流价值观念嵌入算法应用的全过程,适时优化和完善算法模型,加强论证、测试与审核,以人的价值理性规约智能技术的歧视与偏见,提高算法决策的科学性;另一方面,进一步扩大算法模型的信息推荐范畴,增加更加多元化的信息推送内容,例如可采用逆向推荐思维,为档案用户提供可能“不感兴趣”“应关注但没有关注”的档案信息,从而构建立体化的信息推送机制,避免由“信息茧房”效应带来的认知窄化现象。
我国《新一代人工智能发展规划》明确指出“建立健全公开透明的人工智能监管体系,实行设计问责和应用监督并重的双层监管结构,实现对人工智能算法设计、产品开发和成果应用等的全流程监管。”[27]档案领域针对人工智能应用的监管是多方联动的动态过程,亟须构建覆盖事前、事中、事后的全生命周期的协同监管机制,推动人工智能风险预警与化解。
在事前阶段,档案部门应加强人工智能技术的前瞻预防与约束引导,强化质量认证的准入监管,建立由业务部门、技术企业、第三方监管组织、专家等多方力量组成的监管小组,对人工智能设计、产品和系统的复杂性、风险性、可解释性等进行安全评估,未达标或未通过安全评估的算法、产品或系统不能使用,将风险防患于未然。在事中阶段,按照“谁使用谁负责,谁运行谁负责”的原则,明确监管主体必须遵守的原则和义务,重点监督和审查相关使用者应用人工智能系统或产品的合规性和合法性,强化组织内部风险管理的技术和安全保障,避免技术失控、技术滥用风险的发生。在事后阶段,构建问责机制,整合分析在人工智能系统应用、算法应用、档案数据使用过程中的现存问题,及时调整和优化监管措施、使用流程、评估体系等,实现人工智能应用风险的闭环控制,进而确保人工智能在档案领域的应用成效。