大语言模型与档案资源开发：前景、挑战与应对＊

2024-01-26 03:04张丹

山西档案 2023年5期

张丹

（鞍山市退役军人服务中心鞍山 114001）

0 引言

档案作为重要信息资源和独特历史文化遗产，价值日益凸显。档案工作是维护党和国家历史真实面貌、保障人民群众根本利益的重要事业。经验得以总结，规律得以认识，历史得以延续，各项事业得以发展，都离不开档案。[1]随着新一代信息技术的发展与应用，档案工作环境、对象、内容发生巨大变化。[2]以ChatGPT 为代表的生成式AI 应用于档案资源管理与开发活动成为大家关注的重点问题。档案工作要及时关注技术环境的飞速发展，要拥抱数字转型，要即时融入数字化的浪潮中，运用大语言模型等生成式AI赋能档案工作具有重要的研究空间和发展前景。

1 大语言模型和档案资源开发的内涵与外延

大语言模型（Large Language Model）是一种旨在理解和生成人类语言的人工智能模型。通过对海量文本进行训练，学习语言的结构、规则和语义，可以生成具有自然语言风格的文本或者回答自然语言的问题。大语言模型是深度学习的应用之一，它的发展与深度学习技术密切相关，并且应用领域非常广泛，包括但不限于自然语言处理、机器翻译、对话系统、文本生成等。随着智能技术的不断迭代和训练数据的不断扩充，未来ChatGPT 等大语言模型将会有更为出色的产品表现和更为广阔的应用场景。

档案资源是指由档案馆、档案室等档案保管机构所收藏和管理的各种档案文献的总和，包括历史档案、文化档案、科技档案、经济档案、社会档案等。这些档案文献记录了社会发展的历史、文化和科技等方面的信息，是人们了解和研究一个国家、一个地区、一个时期的重要信息来源。档案资源作为原始信息的载体，是历史的记录凭证，拥有优秀的可信度。它不仅涵盖科技、红色、军事、文化等多个领域，还有文本、音频、视频等多种储存形式。另外档案资源还会随着社会的发展与时间的推移，不断产生和积累，内容变得更加丰富。因此，档案资源在作为历史或者社会研究资料方面、作为人类获取知识、方法与技能的途径方面、作为承担社会文化记忆、促进人类文明进步方面都有着重要的指导作用和实践意义。

2 大语言模型与档案资源开发的前景

2.1 大语言模型赋能档案资源开发过程

在自然语言处理领域，大语言模型可以通过对输入文本进行分析和学习，将其归类到一个或多个预定义的类别中，在机器翻译、对话系统、文本生成等领域都有广泛应用。

大语言模型能凭借强大的自然语言处理能力，在档案资源开发利用过程中持续赋能，挖掘和分析更多档案知识内容，并自动将其归类到相应的主题或类别中，还能提供多样式、智能化的档案服务，方便用户查找与利用。比如大语言模型的智能分类与检索功能可以应用于数字档案馆的建设中，从而实现智能化档案服务。用户通过与AI 大模型进行沟通问答即可高效获取所需要的档案资源内容，大模型在多次人机对话反馈中，对用户的档案信息需求和检索偏好有更深入的了解和分析，检索与提供的档案资源更为精准，并且生成式AI 还可以提供个性化定制检索服务。[3]

大语言模型进行深度学习的前提是需要接受并分析大量的信息与数据，而档案馆藏在为大语言模型的训练提供优质的、丰富的、原始的训练文本方面具有天然优势。档案资源因模态多、类型广、数量大的特点，在大语言模型出现之前，借助智能技术对其进行深度挖掘与开发存在一定难度，也难以保证其准确度与可用性。总之，大语言模型的出现与应用加快了档案资源开发的信息化进程，提升了档案管理与开发的效率。

2.2 大语言模型挖掘档案资源的多重价值

档案中包含大量历史文献、资料和数据，是研究历史、文化、社会等方面的重要素材。档案资源的开发与利用可以为文献研究提供真实、全面的历史记录与证据。其次，档案作为人类珍贵的智慧结晶与知识财富，存在丰富的潜在价值。对其蕴含的丰富知识进行挖掘与分析，对文本内容进行情感分析、关键词提取等，整理成具有价值的公共档案资料，可用于学术研究以及文化传承等领域，可以提高公众对档案资源的认识和理解，推动学科的发展进步，也为公众的知识传承奠定基础。

基于大语言模型的文本分析与文本总结功能，生成式AI 不但可以自动生成档案文本的摘要、目录与索引等，还能自动生成智慧数据，优化档案工作者的工作内容与方式，减少简单重复类工作耗时耗力的同时也降低人工干预和出错率。此外，研究者可以利用生成式AI 技术构建基于语义关系的知识图谱，连接不同时代、不同地方、不同领域的档案资源，有助于提高档案资源开发的广度与深度。再者，在AI大模型的加持下，文化遗产资源可以带来可视化与沉浸式展演的交互体验，用户直接与大规模资源对象中的分布式内容和隐含知识实时交互。既实现了文化遗产再活化，又降低了使用门槛，提升了服务体验。

3 大语言模型在档案资源开发中的挑战

3.1 档案资源的多样性和复杂性对于大语言模型的挑战

档案资源具有多样性和复杂性的特点，不仅涵盖多种类型，如历史档案、文化档案、科技档案、经济档案、社会档案等，还会涉及到不同的历史、文化阶段以及不同的社会背景。大语言模型要有广泛的文本训练量以及足够的深度来理解和解释特定时期、特定环境下的档案文本信息。档案资源的多样性还体现在多模态上，除了常见的文本类型，还涉及图像、音频以及视频等多种模态的数据类型。大语言模型不仅需要识别和解析多模态信息，还要分析多模态信息之间的联系，挖掘档案之间的关联与共性，进而形成同一馆藏内的档案关系网。不同历史阶段、不同地区的档案资料记载语言差异较大，机器翻译技术虽可以帮助消除语言障碍，但这对于生成式AI 技术在执行机器翻译任务的准确性与自然度有较高要求。

3.2 档案资源中的稀缺数据和文献缺失的问题

档案资源作为重要的信息资源，具有数量庞大的显著特点，档案数据集通常来自多个数据源，并且难以保证完整性与可靠性。档案资源中会存在语言表述不够完备、晦涩难懂、模糊不清等情况，部分还可能存在稀缺数据和文献缺失的问题。档案资源中低质量的数据直接影响到大语言模型的应用结果，大语言模型需要能够在数据可靠性、完整性不足的情境下，对档案资源进行处理、分析与加工，并解决数据噪声等问题。这些复杂任务不仅要求大语言模型能够提供高效的运算能力，还需要具备通过智能分析来完成深度加工的功能。再者，生成式AI 在需要逻辑判断或者处理最新信息的任务过程中可能会产生虚假、不可靠信息以及生成可信度不高的内容，这对于档案资源的开发与利用以及传播过程带来挑战。

3.3 隐私和版权问题对于大语言模型应用于档案资源的限制

隐私问题在信息技术与智能技术高速发展的数智时代是一个始终绕不开的话题。大语言模型的一个显著特征是模型训练数据量庞大，需要有大量的相关数据支撑。随着其功能不断开发和在多领域的广泛应用，在内容生产的能力和特性被认可的同时，隐私和版权等潜在问题也引起人们的重视与担忧。以ChatGPT 为代表的大语言模型在档案资源开发利用的过程中，需要使用大量的档案资源数据进行训练和分析。档案资源尤其是红色档案、历史档案、科技档案等，作为国家与民族的宝贵知识财富，有着独特的地位和全面的价值，对红色档案资源的开发、利用与保护不仅体现出其文化价值，还展现了深远的历史意义。档案资源能够保持健康、可持续被利用的一个前提就是档案资源中的隐私以及版权问题被予以重视和保护。

4 应对挑战的方法和策略

4.1 数据预处理以提高大语言模型的效果

档案资源中的数据质量会影响大语言模型对档案资源开发与利用的效率。对于档案资源中的原始数据，在开发前需要进行数据预处理。数据预处理是对原始数据进行一系列操作，以准备或调整数据，使其更符合后续分析或模型使用的需求。一般包括数据集成、数据清洗、探索性数据分析和数据转换等步骤。

经过数据预处理，档案资源中的一些缺失、重复、异常的数据会被发现；原始数据中的数据类型和数据格式可能并不符合分析需要，数据预处理可以帮助将数据转换为适合分析的形式；不同的数据来源和数据格式，数据命名和单位可能存在差异，会被整合到一起，并进行规范化处理。数据预处理操作对于利用大语言模型对档案资源进行开发的过程有着至关重要的意义与作用，将会直接影响到其分析与挖掘结果的准确性与可靠性，是档案资源开发前不可或缺的一步。

4.2 加强数据共享与协作解决缺失遗漏问题

目前ChatGPT 等主流的大语言模型通常是黑盒模型，难以解释其决策和推理过程。背后所依靠的算法具有不透明、不稳定的“黑箱”属性。因此会引起使用者对生成过程与生成结果的可靠性与公平性进行质疑。大语言模型如果在未来的发展迭代过程中增加显示其运算推理与决策生成的过程，以解决“黑盒”的透明度问题，可以减少部分使用者的质疑与顾虑。

档案资料自身数量庞大，难免出现文件缺失与遗漏的问题。[4]部分档案机构在归档时，会在盲目追求效率的过程中对档案资源的取舍没有做出准确的判断。把一些看似不重要的档案文件进行舍弃，或一系列文件全盘收入，从而导致在存储的过程出现档案资源的缺失或重复。[4]档案资源开发过程面临数据稀缺以及文献缺失等问题时，生成式AI 可能会因数据质量问题受到干扰和影响，导致生成结果偏离预期而无法满足档案资源开发的预期需求。这需要通过档案工作者采用人工复核与校对、电子与纸质两种媒介下保存的档案资源相互参照、鼓励不同档案机构建立部分数据共享以及加强档案馆内、馆间档案资源协作等方式解决。

4.3 大语言模型在档案资源开发中的隐私保护和版权合规

档案部门要加强对档案工作人员的培训管理，不断提升档案管理人员专业知识与技能。从业者对于档案资源要有清晰的定位和分类，能精确识别出涉及敏感问题或隐私问题的档案资源内容。对于此类档案或档案中的部分内容，采用传统开发方法进行分析、整理与开发，暂不借助大语言模型。此外，还要提高档案工作者的隐私与版权意识，对隐私与版权问题做到高度重视和高度敏感。再者，档案工作者需要采取数据脱敏、访问控制和加密等相关措施，确保大语言模型在档案资源开发过程中的隐私信息安全。

在政策层面，还需要通过制定与发布详细的数据隐私和安全政策，以及完善相关法律法规体系来加强对AI 大模型的监管。如何处理好数据安全和监管防控过度之间的平衡问题是目前多个国家都要考虑的难题，不但要做好隐私保护、规避隐私泄露的风险，而且要避免过于绝对的“一刀切”做法。

5 结语

大数据与人工智能技术的迅猛发展正在推动人类社会快速向数字文明迈进。在以Chat-GPT 为代表的大语言模型加持下，人类的内容生产范式即将迎来新一轮革命，档案资源开发与利用领域的发展有了新的思路与新的技术支持。

新技术、新工具的出现总是同时伴随着机遇与挑战。在数智化时代背景下，要重视档案领域的人才培养，未来档案部门从业者要掌握更为先进的技术方法、工具与更为全面的专业知识技能，跟上技术发展的脚步，做到与时俱进。在充分发挥数字技术潜力的同时，还要重视与之俱来的隐私与版权、伦理与法律、数据的安全等问题，享受技术与工具带来的便利和高效的同时，也要注意自身的信息安全、隐私安全。面对即将来临的数实共生新世界，大语言模型与档案领域将会碰撞出更绚烂的火花。