生成式人工智能对档案工作的影响
——从ChatGPT 谈起

2023-12-11 12:17:06刘丽吉林省档案馆

浙江档案 2023年9期

刘丽/吉林省档案馆

王兆伟/吉林省延吉市档案馆

张明智/ 上海桉源文化信息咨询有限公司

刘谨铭/上海民桥精密科学仪器有限公司

《“十四五”全国档案事业发展规划》对数智时代档案数字化管理提出了新的要求和挑战。档案作为基础性文化资源和战略性信息资源，对国家各项事业的支撑作用愈加明显。近年来，以互联网、大数据、区块链、机器学习和web3.0等技术的出现为档案行业带来了诸多的变革，而ChatGPT（Chat Generative Pre-trained Transformer）的横空出世更是给档案工作创造了无尽的可能和想象空间。借助新技术新方法，创新档案治理理念、范式和路径，推动档案事业数字化转型和智慧化升级显得重要而迫切。作为奋斗在档案事业一线30余年的档案工作者，笔者认为ChatGPT深度影响档案事业已经成为必然，今日之ChatGPT就是“掀起波澜”导致档案事业发展模式嬗变之肇始，横空出世的ChatGPT就是“未来已来”的重要标志。

1 ChatGPT给档案工作带来新机遇

Chat GPT的基本原理。Chat GPT是由Open AI公司于2022年底推出的一款基于深度学习技术的人工智能模型， Chat GPT 的基础架构是Transformer，使用多头自注意力机制，采用大规模文本语料的无监督训练方式，模拟人类自然语言处理能力，直接根据前文内容，对文本进行编码和解码，自动生成后续文本，是典型的生成式人工智能。截至2023年3月15日已迭代至GPT-4版本，该版本回答准确性显著提升，全面支持多模态输入和输出，文字输入达2.5万字，在歌词生成、创意文本和风格多样方面有质的飞跃。

Chat GPT在多行业和多场景中均表现惊人，在各种基准测试中表现出超过人类平均水平。例如在模拟律师资格考试中分数排在前10%；在医学诊断方面与经验丰富的医生相当；在创意写作方面可以生成比较高水平的故事、诗歌和歌词。上述技术特点可以广泛运用于档案领域，将是对传统档案信息化手段的全面而彻底的革新。如在档案智能搜索、智能推荐、智能解释、精准分析等方面提供档案利用智能化服务，根据档案数据分析和挖掘的结果，生成可视化报告，为政府决策提供支持。其优异表现使程序员、编辑、科研人员等专业化岗位的从业人员感受到了前所未有的挑战和机遇。笔者认为，Chat GPT在档案领域的广泛应用必将大大提高档案管理的智能化水平。

1.1 ChatGPT与档案事业发展的需求高度匹配

作为历史文化遗产的重要组成部分，档案具有极其重要的文化价值，具有超乎寻常的特殊性和复杂性；档案管理工作兼具知识密集型和劳动密集型特点，既需要极其丰富的专业知识，又需要完成大量程式化、机械化的重复劳动。一直以来，档案信息的数字化处理和智能化利用都是世界级难题。而ChatGPT为人类完成海量程式化、机械化的重复劳动提供了可能。

第一，档案行业可为ChatGPT提供巨量数据。ChatGPT通过对海量的信息进行深度学习，模拟人类的反应做出回答。ChatGPT 作为信息整合和转译的载体，高度依赖于其学习和参考数据的质量，但却缺乏甄别和筛选能力，常常陷于“低劣数据”和“数据污染”的泥淖；而档案信息作为历史的真实记录，能够在较大程度上保持原始性、真实性和完整性，弥补ChatGPT的技术难题。笔者认为，档案领域特别适合ChatGPT “训练容量大”“支持多元输出”“专业领域内学习能力更强”的新特点，将给ChatGPT等生成式人工智能技术发展提供更广阔的空间。

第二，ChatGPT可以弥补传统技术的缺陷。ChatGPT具有的非结构化提取、海量信息训练、跨专业跨语言输入输出等特点，能够较好地解决档案智能化管理中的传统难题。传统的技术对数据的结构化程度较高，但档案材料往往是以文本、图片、视频等非结构化形式存在，ChatGPT则无结构化数据要求；传统的技术对海量数据处理效果并不理想，而ChatGPT则与海量信息相辅相成、相得益彰；ChatGPT能够适应档案材料语言种类繁多，无需进行翻译处理；ChatGPT能够全面充分地抽取档案材料中蕴含的历史、文化、政治等各方面信息，降低档案馆等文化机构的档案整理、数字化、分类、索引和智能化处理工作强度，提高档案材料的管理和利用效率，最大化发掘其中的知识价值。

1.2 ChatGPT在档案领域的应用方向

笔者认为，ChatGPT可以极大地提高档案管理的现代化水平，为档案管理提供新的思路和技术支持，可大幅度提高档案管理的效率、质量和效果。

1.2.1 助力档案信息智能检索。档案信息检索是档案管理的基本环节。档案馆馆藏档案涵盖不同历史阶段形成的不同内容和载体的档案，采用关键词检索等传统检索方式，查全率和查准率都不高，远远无法满足档案利用需要。ChatGPT具备去伪存真、去粗取精的加工和汇总能力，可以通过对用户提供的查询语句进行分析和理解，更好地理解用户的意图和需求，并在对话过程中不断修正、聚焦、锁定，根据查询语句和档案记录之间的相似度，匹配最佳的档案记录给用户利用。ChatGPT解决“搜不准、搜不到、搜不好”的问题，使人们能够定位自己希望解决的关键问题，进而提高档案检索效率和实际效果。

1.2.2 创新档案编研模式。档案编研工作是档案基本任务之一。传统的档案编研工作是以编研人员对档案资料的熟练掌握为基础，而档案资料的质量、数量又从客观上制约着档案编研成果的质量。笔者认为，创新档案编研模式，引领传统人工编研为主走向自动化智能化编研为主，大幅提高编研效率，并能够克服残缺破损不完整等档案“先天不足”带给编研工作的困难，能够根据大量数据在不同的专业领域中构建知识图谱，发现编研脉络及相关资源，大幅提高编研效率，得出具有高可靠性的结论，产生优秀的调研成果。

以吉林省档案馆馆藏的日本侵华档案为例，该档案馆馆藏日本侵华时期档案10万余卷（件），真实地记录了日本帝国主义对华的侵略活动，是揭露日本军国主义罪行的铁证。但由于日军的销毁破坏，目前仍有部分档案内容残缺或者不成体系，导致档案编研人员无法还原侵华日军的罪行，成为难以产生编研成果的“孤品”和“孤证”。ChatGPT的应用将会大幅度还原日本侵华的种种罪行，产生大量无可辩驳的编研成果，对中华民族和世界反法西斯胜利具有重大意义。

1.2.3 深度挖掘海量档案潜在价值。ChatGPT具有迅速识别文本并将相近文本内容进行关联的功能。档案部门借助ChatGPT不仅能够大量节约人力，而且能通过系统对比档案内容形成新发现，发现海量档案信息间的共性或紧密关联，为深入研究提供新的切入点和灵感。通过深度挖掘海量档案信息，帮助用户快速了解档案信息，形成档案资源开发新成果。西班牙国家图书馆通过将每部匿名作品与350名作家使用的精选词语进行对比，确定每部作品的作者身份。荷兰乌特列支大学最近发布了一款基于机器学习的开源系统综述软件ASReview（https://asreview.nl/），通过该软件可自动形成系统综述。

1.2.4 提升政府信息公开和资源共享水平。群众申请公开政府信息，需要到制作或获取该政府信息的行政机关进行申请，并需要提供该政府信息的名称、文号或者其他特征性描述。实践中，各行政机关提供的政府信息往往是文件原文，需要申请者自己进行加工整理，并且一次能够获取的数量有限制。若是进行科研，需要大量政府信息，不仅会对研究者自身形成较大压力，而且也会对有关政府部门形成较大压力。通过引入ChatGPT等生成式人工智能技术，可有效化解上述问题，提高政府信息公开和资源共享水平，为政府与民众沟通开辟新的智能界面。

1.2.5 辅助档案开放审核效率。数量庞大的档案数据开放审核是档案共享利用的重要基础。传统的开放审核又称为划控鉴定、开放鉴定，主要依靠档案管理人员长年累积的划控经验，审核标准具有一定的主观性。ChatGPT能够有效解决长期制约馆藏档案开放的基础性业务瓶颈问题，取代简单和重复的公共部门工作。。福建省档案馆承担的科技项目《基于数字档案的人工智能档案开放审核系统实现研究》通过国家档案局专家组验收，该项目设计训练了深度神经网络辅助开放审核算法模型，编制了档案开放审核关键词表，提出了档案开放审核工作流程，有助于提升档案开放审核工作效率，解决制约馆藏档案开放的业务瓶颈。

1.2.6 增加档案知识趣味和文化魅力。助力档案宣传，讲好档案故事，能够为档案工作营造良好环境。ChatGPT通过对大量的档案文本和相关图片进行处理和分析，从档案材料中提取相关的知识和信息，发掘出充满生机活力的有趣档案故事，能够通过档案的存史事实、档案人的敬业形象，向世人讲述档案里的中国精神、档案记录的民族情感、档案蕴含的人生道理，更有利于通过事实说服人，通过形象打动人，通过情感感染人，通过道理影响人，通过作用带动人，引导社会各界和人民群众参与档案事业，充分发挥档案工作存史、资政、育人的重要作用。

2 生成式人工智能应用于档案领域存在的风险

ChatGPT发布以来，全球各行业竞逐AI赛道。然而，自2023年5月以来，似乎无所不能、颠覆行业、成为未来发展趋势的ChatGPT也迎来了越来越多的争议之声。当前，人们对ChatGPT担忧主要表现在以下四个方面。

2.1 信息安全问题

ChatGPT 拥有超强的信息汇总、整理和分析能力，这一能力打破了传统的政府信息保密形式。在中美竞争日趋激烈、美国叫嚣“脱钩断链”的背景下，我国需要对ChatGPT可能引发的国家信息安全问题需要高度警惕。当前的ChatGPT被国际金融大资本支持的跨国高科技企业所研发，对我国来说存在巨大的技术“黑箱”。

2.2 网络犯罪问题

ChatGPT可能被不法分子恶意使用，对开放性公共平台的登录页面进行修改，从而肆意地进行网络犯罪行为。犯罪分子可以利用 ChatGPT 强大的编程能力，极大地缩短编写软件的时间和提高自身的编程能力，可以快速生成木马程序或密码破译程序，对城市电子信息平台和城市基础设施网络展开攻击。

2.3 侵犯隐私问题

隐私本来就已经是网络或者是人工智能诞生以来一个让人焦头烂额的问题，ChatGPT 更加恶化了这种状态。ChatGPT需要使用大量的文本数据进行训练和处理，如果数据泄露或被恶意利用，将会对个人隐私造成威胁。更让人担心的是，人们现在无法清楚判断个人隐私在什么样的程度上可以得到保护，因为ChatGPT用的数据可能都是公开的合成数据，对是否构成侵犯隐私权较难定性。

2.4 知识产权问题

ChatGPT依据海量的语料数据库和人对话、互动，完成撰写各种文本、翻译、代码等任务，甚至能生产出极好的文本，但它使用的语料数据库是否存在对原创知识生产的贬低和亵渎，甚至是剽窃，这是一个值得关注的问题。以复制使用文本数据为例，ChatGPT抓取大量受著作权法保护的第三方文字作品内容投入数据库作为训练素材，将触及著作权侵权、挖掘行为授权、二次创作许可等问题。

3 档案工作者拥抱生成式人工智能技术的对策建议

我们应当理性看待科技的进步，既要看到机遇，也要看到风险挑战，以理性的眼光审视科技进步带来的挑战，做好积极的应对防范措施。档案部门应积极接受突破性技术的赋能，推动档案事业发展现代化。

第一，高举旗帜，努力践行习近平新时代中国特色社会主义思想，走档案发展正确道路。做好新时代档案工作，关键是要深学细悟习近平关于档案工作重要批示精神及习近平新时代中国特色社会主义思想的核心要义、精神实质、丰富内涵和实践要求，做到了然于胸、融会贯通，坚定历史自信，把握历史主动，强化历史担当，牢牢锚定“国之大者”，把政治标准放在首位，坚持党管档案的原则，不断提高政治判断力、政治领悟力、政治执行力，守正创新、真抓实干，不断提高解决问题、化解矛盾、深化改革、推动发展能力，为党和国家事业发展做出积极贡献。

第二，开放包容，积极探索ChatGPT在档案领域的应用，实现档案事业发展现代化。

一是应对“黑箱”，把握科技自主，维护国家安全。当前的ChatGPT等生成式人工智能技术背后是数据和算法。ChatGPT背后的数据算法是具有不透明、不稳定、不可靠、权力再造等特性的 “黑箱”；ChatGPT技术还为大规模集成生产虚假的、误导的、伪造的信息，进行舆论操控和信息战等提供了很大便利；类 ChatGPT 的行为可能超出人类所预设、理解、可控的范围，对人类安全产生负面影响。美国的技术壁垒使得我们无从得知也无法监管。档案工作者应该时刻关注ChatGPT等生成式人工智能技术发展，从档案专业角度积极参与相关领域制度建设建言献策，推动我国应尽快将“人工智能法”提上立法清单，以应对日渐复杂的人工智能发展现状。

二是争取试点，大胆探索和主动训练档案领域专用生成式人工智能工具。ChatGPT展示了强大的语言生成能力和语言理解能力。其作用的发挥依赖于训练数据的质量。丰富的档案资源能成为人工智能程序训练的素材，人工智能程序在训练过程中也将形成更丰富的档案资源开发成果。训练与反馈的过程实则是档案部门与技术企业资源互惠的过程，也是档案部门与人工智能开发企业的资源互惠方式。档案部门可以在保障国家信息安全的前提下，适当开展人工智能技术的应用试点，为技术企业提供用于人工智能训练的档案资源，及时总结先进经验并加以推广，为我国的科技自主贡献力量。在这一点上，北欧一些国家已经做出了前沿的探索，可以作为我们借鉴的范例。瑞典国家图书馆以储存着26 PB 可读格式存档的瑞典语闻名世界。该馆正在借助AI技术将数万亿的档案信息转化为数字资产，并将其提供给研究人员用于训练AI模型。AI 研究人员使用NVIDIA DGX系统开发了20多个开源 Transformer 模型。使用此模型，研究人员可以创建专门的数据集，帮助语言分析人员回顾瑞典语几个世纪以来的变化，高效辅助研究人员开展历史、语言学、媒体等方面的研究。三是奠定基础，加快档案数字化，为迎接生成式人工智能技术奠定坚实基础。ChatGPT逐渐融入社会生活的方方面面。在这样的大趋势下，档案部门应以开放包容的态度去面对，积极主动探索新技术与档案工作的融合。我国的档案数字资源在数据格式、数据来源、数据库类型、数据真实完整性等方面已经取得了阶段性成果，但也仍然存在一些不适应ChatGPT的问题，需要各级档案部门整合异构资源，促使馆藏资源向机器可读迈进，提高档案数字资源的可用性。需要特别说明的是，笔者认为应该以机器可读为目标，降低结构化要求，因为随着技术发展，生成式人工智能技术将像人一样并超越人能够阅读各种各样的数据。

四是转变角色，遵循“人机协同”发展原则，全面提升档案工作人员的智能科技素养。明确自然人在高度数字技术化的环境当中的角色定位非常值得思考。“机器换人”“机器取代人”是无法绕过的一种恐慌悲观情绪，但实践告诉我们“人有人用，机有机用”。因此，ChatGPT在档案管理领域的落地需要人和机器的共同参与，缺一不可。档案机构应进一步厘清档案管理任务中的人机边界，实现“人机结合、知行合一、虚实一体”。档案人员在将ChatGPT应用于档案管理的同时，也应加强自身自主创新能力，不断提高自身的核心竞争力，向档案数据工程师、档案知识工程师、档案业务架构设计师等角色转变。

综上所述，Chat GPT在档案领域的应用为档案管理的发展提供了新的思路和技术支撑。但与此同时，也需要考虑新技术应用过程中存在的风险和挑战。政府机构、档案机构和人民群众都应当持有理性的支持态度，积极参与到新技术的应用和体验中来。政府方面应该及时合理制定相应的政策法规来服务和监管新技术的运用和推广；档案馆需结合自身业务定位和阶段发展规划，既要继承经典的研究范式，也要创新应用新技术新方法，助力自身发展，服务行业进步；人民群众应持有科技向善的理念，努力培养自身的数字档案的素养，提升自身信息获取和处理利用的能力。除此之外，促进国际合作与共享，寻求广泛的国际合作和共享科技成果，确保人工智能的公平使用和可持续发展在全球范围内的也是非常重要的方面。人工智能的社会治理是一个开放性的、国际性的问题，广泛的国际合作可以促进达成共识，形成人工智能发展的基本原则和治理框架，确保数据的使用价值、流通价值、学问自由、人的尊严、促进革新、保护隐私、经济成本，保证联结性、透明性、可控性、安全性、隐私性、公正性等原则。

与其担心未来被人工智能操纵历史，更需要担心的是现在我们是否会被这么大数据级别的信息给压垮。澳大利亚籍的档案专家Frank Upward在《网络化时代的文件信息学》（Record Keeping Informatics for a Networked Age）中提醒档案界关注新技术的应用，否则淹没在海量数据中将是必然的结局。

生成式人工智能对档案工作的影响——从ChatGPT 谈起