大语言模型在科技档案管理中的应用研究

2024-12-16 00:00:00王建品
档案管理 2024年6期

摘 要:从剖析科技档案管理的现状及存在的问题出发,基于大语言模型在信息处理中的优势,分析大语言模型在科技档案管理中的三个应用场景,分别为聚焦服务知识应用的场景1.0,支持知识生产的场景2.0,激发科技行业新生态的场景3.0;最后指出了大语言模型应用带来的挑战,包括AI生成内容的知识产权问题、信息安全风险、内容质量控制及人员的人工智能素养要求等。为大语言模型赋能下的科技档案管理智能化、高效化发展提供理论框架与实践导向。

关键词:大语言模型;科技档案;档案服务;人工智能;知识产权;个性化服务;知识生产;科技创新

科技档案是国家机构、社会组织及个人从事各项社会活动形成的对国家、社会、本单位和个人具有保存价值的应当归档保存的科技文件,[1]是国家重要的战略科技资源,具有丰富的经济和智力价值,具有促进生产力发展、提高经济效益的作用。2023年国家档案局启动了40年来《科技档案工作条例》的首次修订,科技档案工作受到了前所未有的重视。[2]但是,目前我国科技档案的管理和使用还存在很多问题。

随着大语言模型(Large Language Model,LLM)等人工智能技术的快速发展,信息管理和知识服务的格局正发生深刻变革,也为科技档案工作带来了前所未有的机遇和挑战。相关部门也纷纷出台相应的政策,要求加强科技档案的管理,建立符合并体现新质生产力发展要求的科技档案资源体系。

本文将从剖析科技档案管理的现状及存在的问题出发,基于LLM在信息处理中的优势,探析LLM在科技档案管理中的三个应用场景,并指出应用中所面临的挑战,以期能够促进LLM技术与科技档案工作的深度融合,为推动科技档案管理的现代化转型提供理论依据和实践参考。

1 科技档案管理的现状及问题

1.1 数据资源海量化,数据类型多样化。在科学研究“第四范式”和知识经济时代背景下,随着科学技术迅速发展和科技研究的多学科交叉不断增多,科技档案数据的产生源也急剧增加,无论是基础科学研究、工程技术实践还是日常办公活动,都产生了前所未有的大量数据。

在基础科学研究领域,随着实验技术和仪器的不断进步,研究人员能够收集到更加精确和详细的数据;在工程技术实践中,随着物联网技术的发展,各种监测设备能够实时收集环境、设备状态和操作过程的数据;在日常办公活动中,随着信息技术的普及,电子邮件、文档、会议记录等电子文件的数量急剧增加。[3-5]此外,科技档案数据也不仅仅局限于科研报告、实验数据、专利文档等可以被结构化存储和管理的文本信息,还包括大量的多媒体数据和非结构化数据。例如,图像、视频、音频、传感器数据、社交媒体内容等非结构化数据急剧增加。

这些数据的积累不仅为科学研究提供了丰富的资源,也为科技档案的管理、保存和利用带来了新的挑战。如何有效地管理和利用这些庞大的科技档案数据,成为了当前科学研究和知识管理领域亟待解决的问题。

1.2 开放共享程度低,数据孤岛化现象较严重。当前,我国科技档案开放力度还比较小,共享程度还很低,究其原因,主要有以下三点:一是科技档案往往涉及知识产权、商业秘密或国家安全,因此,在没有明确的共享规范和保障机制下,很多单位倾向于保守秘密,不愿意开放共享。这种情况在科技领域尤为突出,因为科研成果的商业价值和战略意义往往与知识产权紧密相关,单位和个人对于科研成果的保护意识较强,担心开放共享可能会带来信息泄露的风险。二是许多科研机构、高校和企业内部建立了各自的科技档案管理系统,但这些系统之间缺乏高效、安全的共享平台和技术支持,缺乏有效的互联互通机制,导致存在较严重的数据孤岛障碍。科技档案的分类和管理需要遵循一定的标准和规范,但由于不同领域和机构之间的标准差异,导致档案的统一管理和共享利用难度增加。三是科技档案涉及专业领域众多,分类、编码、描述等标准不一,导致开放审核面临许多问题,在跨机构共享时也存在兼容性问题,使得档案的整合与交流变得困难。[6]

1.3 科技档案开发深度有限,服务质量有待提高。当前,我国科技档案管理仍以保管为主,档案信息资源的开发停留在浅层,深加工成果较少,服务质量有待进一步提高,主要的表现有以下三点:一是科技档案的知识更新速度滞后,不能及时反映最新的科研成果和动态,降低了服务的时效性和实用性,无法满足用户对高效、智能化知识服务的需求,尤其是在数据密集型科学发现日益普及的今天,科研人员需要能够快速访问到最新的科研数据和成果;二是科技档案共享和开发程度低,影响了档案的组织和检索效率,使得档案信息的价值未能充分挖掘,限制了其在科研创新和决策支持中的作用;三是对科技档案价值的认识和利用方法的普及不足,使得许多潜在用户不了解如何有效利用这些资源,限制了知识服务效能的发挥,而且知识服务的提供往往缺乏与用户的互动和反馈机制,难以精准把握用户需求,导致服务内容和形式与实际需求脱节。

2 LLM在信息处理中的优势

LLM是利用大规模的语料数据进行预训练的语言模型,其核心目标是使机器能够像人类解释语言一样,准确地学习和理解人类的语言,从而使机器解释语言,这是自然语言处理的方式之一。LLM是人工智能(AI)领域的突破性发展,已成为一种强大的工具,主要用于智能客服、文本生成、情感分析、自动摘要、机器翻译、文档分类等任务。

目前在国外,主要有由 OpenAI 推出的 ChatGPT、Google 推出的 Gopher 和 LaMDA,以及 Meta 推出的Lama。国内“文心一言”由百度首发,阿里推出了“通义千问”,商汤发布了“商量”等。基于大模型的强大性能和相关技术的逐步成熟,国内外诸多企业已将大模型应用在法律、医疗、电力等实际场景中。同样,在信息与知识服务中,LLM也表现出强大的优势。

2.1 自然语言理解与生成能力。强大的自然语言理解和生成能力是LLM的显著特征之一。随着人工智能技术的快速发展,尤其是深度学习的进步,LLM已经成为自然语言处理(NLP)领域的一个重要突破。这些模型通过训练大量的文本数据,学习语言的复杂结构和模式,从而获得了对自然语言的深刻理解。

随着计算资源的不断提升,大型神经网络模型的训练成为可能,这些模型包含数百万或数十亿个参数,这为语言生成和理解任务提供了强大的能力,使得它们能够捕捉到语言中的细微差别,并生成流畅、连贯的文本。[7]同时,LLM建立了自然语言形式的统一任务解决模式,这意味着,无论是复杂的查询、指令还是简单的请求,都可以通过自然语言的形式输入,模型能够理解这些指令并生成相应的输出。

这种模式具备较好的人类指令遵循能力,能够深度理解用户的意图,它允许用户以最自然的方式与机器沟通,无需学习特定的命令或语法,这就为人机交互提供了一种自然的、通用的技术路径,极大地简化了人机交互的过程。而且,LLM在遵循人类指令方面的能力也在不断地得到显著提升,它们不仅能够理解用户的直接请求,还能够处理更复杂的任务,如推理、规划和创造性写作。这种能力的背后是模型对语言的深层理解,包括语境、语义和语法等多个层面。

2.2 持续学习和优化能力。随着LLM在各个领域的应用不断扩大,它们适应数据、任务和用户偏好的持续变化的能力变得至关重要。LLM通过自监督学习(基于大规模的未标注文本数据集进行训练,来提高模型的性能)和迁移学习(根据用户的新的查询和反馈,通过对模型进行微调,实现在不同任务之间的迁移学习)方式获得了持续学习和优化能力,这能够使其在运行生命周期内持续学习和适应、整合新知识,同时保留先前学习的信息,从而不断提升在特定领域内的理解与服务能力,应对现实世界信息的动态特性。[8]

持续学习与优化能力保证了LLM能够对专业领域知识的理解更加丰富和准确,从而适应不断变化的科技档案服务需求。例如,通过External Augmentation,LLM可以从外部源检索或调用领域特定信息来增强模型,无需微调模型参数。这种领域知识增强了特定领域内的深度和准确性,而领域工具增强则使模型能够执行超出其固有能力的任务。

2.3 多模态与跨语言处理能力。LLM可以同时处理文字、图像、音频和视频等多种不同形式的信息,进行跨模态的信息理解,比如通过与图像识别模型的结合,进行图像的自然语言描述,进行从文本到图像或从图像到文本的内容生成等,完成图像理解和自然语言生成的联合任务,从而实现更加全面和智能的语言处理。[9]这种联合任务的完成,使得图像理解和自然语言生成的能力得到了加强。例如,通过上下文学习,LLM能够在有图像上下文输入的情况下生成逼真的现实图像,并且还能进行图像描述和视觉问答。

另外,LLM还能够理解和生成多种语言的文本,这使得其能够跨越语言障碍,实现不同语言的无缝对接,这在跨语言检索、多语言客户服务及提高翻译的准确性和自然度方面优势更加明显。而且,LLM的跨语言思维提示(XLT)还能够激发跨语言和逻辑推理技能,提高跨语言任务的性能,缩小不同语言下任务性能的差距。LLM的多模态与跨语言信息处理能力在实际应用中展现出了巨大的潜力,为用户提供了更加丰富和直观的交互体验,同时也为多语言环境下的信息服务提供了强有力的支持。

3 LLM在科技档案管理中的应用场景

档案管理工作的目标与宗旨是进行档案资源的建设与开发利用,满足经济社会发展的需要。[10]当前,档案服务工作正面临着由传统信息服务向高阶知识服务的转型,而人工智能及LLM为此提供了技术支点。[11]目前,问题驱动的创新与场景驱动的创新已成为国家重大发展战略机制,[12]因此,本文基于当前科技档案管理中存在的问题,提出了LLM在科技档案应用中的三个场景,分别是服务知识应用的场景1.0、支持知识生产的场景2.0和激发科技行业新生态的场景3.0。

3.1 服务知识应用的场景1.0。科技档案数据资源的开发是档案工作的起点和基础,对档案数据进行采集、存储、检索,从而方便用户获取和应用知识是档案管理的基础工作。在场景1.0下,借助LLM技术,这些工作将更加自动化、智能化、人性化,真正满足知识应用服务的需要。在此场景下LLM的应用主要体现在数字化、精细化、标签化、智能化、多模态和个性化等方面。

3.1.1 科技档案的数字化、自动精细分类与主题标签化。在科技档案数据的采集和存储工作中,LLM的自然语言处理和光学字符识别等技术能够快速而准确地将纸质档案数字化;[13]LLM可以采用文本识别技术构建基于机器学习的智能分类与标签系统,[14]如科技档案中包含的技术标准和操作规范文档,LLM能识别并标注出关键条款、适用范围、技术指标等,有助于标准化管理和分类,确保技术文档的准确性和一致性;再如,科技档案中包含大量专利文件,LLM能够深入理解专利摘要、权利要求等内容,自动分类并标记专利类型(如发明、实用新型)、技术领域(如电子、生物技术)、关键词等,从而优化专利数据库的构建和检索效率。

3.1.2 科技档案的智能交互检索。在传统的档案信息检索中,用户主要通过输入检索词的方式进行模糊检索,这对于非专业利用者来说具有一定的难度。采用LLM,用户通过自然语言与检索系统进行对话,表达并可以不断调整检索需求,系统则可以理解用户的需求,产生连贯、有逻辑的检索响应,提供相应的回答和检索服务[15],而基于深度学习的搜索引擎可以通过对用户的行为分析,向用户推荐相关档案资料和研究资源,使得搜索结果更加精准,实现从“模糊搜索”到“精准推送”的转变。

总之,采用LLM,可以实现科技档案智能检索交互的新转变,实现AI答案、专家搜索和相关内容推荐等功能,提高搜索的智能性和效率。

3.1.3 多模态与个性化服务。科技档案信息在以往采用传文本的形式进行输出,而采用LLM的AIGC(人工智能生成内容)技术,可以实现文本信息与图像视频和音频等其他模态信息的相互融合,使得档案信息系统更加智能、生动、贴近用户需求。例如在检索服务中,用户可以通过文本、语音和图像等形式进行检索,而系统也可以根据用户需求以多模态形式输出执行结果。又如在科普场景中,系统根据科技信息文本内容生成配图或视频,以增强科普的内容的可读性和吸引力,体现知识应用服务的便利性和对人文关怀性的重视。

另外,建立在LLM基础上的智能问答系统,可以针对特定科技领域的问题提供精确答案,解释技术术语、回顾技术发展历程、推荐相关论文或专利,为科研人员和工程师提供即时的技术支持和个性化服务。

3.2 支持知识生产的场景2.0。科技档案在科技知识生产过程中发挥着至关重要的作用,通过对档案数据的深层次挖掘,从而帮助用户产生新知识,是科技档案工作的又一重要任务。在场景2.0中,用户不仅能够获取知识,还能够借助数据分析、文本挖掘等LLM技术,通过对档案数据进行深层次的拓展,实现从文本梳理到知识链接、从信息检索到知识发现的转变,使得潜藏于海量科技档案中的宝贵知识得以充分释放与应用,进行知识的再生产。

3.2.1 科技档案文本关键信息的提炼与自动摘要的生成。LLM可实现科技报告等文本信息的抽取、关键信息的提炼,自动摘要的生成,这对于快速浏览大量科技文件内容、把握核心要点尤为关键,对于长篇幅的档案资料,这可以提供快速浏览内容概要的能力,便于管理和开放审核等。例如,一份冗长的科技项目报告或政策文件,模型可以自动生成简短的摘要,保留核心要点,提高用户的信息吸收效率。在科技研发过程中产生的实验报告、技术分析报告等文档往往信息量大且专业性强,LLM能够自动提炼报告的关键发现、实验结果、技术创新点等,生成易于理解的摘要,方便科研人员快速浏览和引用,同时也便于归档、后续检索及审核。

3.2.2 语义知识图谱的构建及档案数据的深度挖掘。传统的信息组织是基于学科、主题、关键词等所反映的少量特征信息,而LLM可将处于信息孤岛的档案数据组织成语义关联的知识图谱,从而更加高效地整合和利用科技档案知识资源。

借助LLM的语义分析技术,通过对内容的语义理解,利用共现分析、聚类分析、社会网络分析、地理位置分析、时序分析、情感分析等方法,AI可以构建起科技档案中同一学科不同主题之间、不同学科之间的复杂关系网,形成知识网络图及知识图谱等,对档案资源进行内容层面的挖掘;此外,还可借助LLM构建基于档案知识的知识库,开发基于智能问答的专家系统,模拟专家思维和决策过程,进行问答结果的结构化展示和语义关联推荐,为研究人员和公众提供专业的档案咨询和建议服务,形成丰富的档案资源开发成果,从而推动档案内容信息的知识发现和价值洞察。

3.3 激发科技行业新生态的场景3.0。在场景3.0下,档案机构借助AI,通过与科研机构、高校、公益机构、文化创意行业等的合作,整合资源,共同开发档案信息的应用场景,拓展档案资源的应用范围,为社会公众提供更多公共教育及文创开发服务,提升档案信息的社会价值,为新质生产力良性生态体系的形成及全社会创新效率的提高提供支持。

3.3.1 促进科技交流与创新。通过互联网和云计算技术,可以建立开放的档案资源平台,这样的平台不仅推动了档案信息的共享,也为科学研究、企业创新等提供了高效的数据支持服务,避免了重复研究,促进了跨学科的知识整合。这种整合对于形成各种科研活动群体至关重要,它加快了各领域的科研进程和知识生产,提升了科学研究的社会价值。

此外,还可以通过分析档案资源的用户的数量、网站访问记录、收藏和下载频次、访问时间等,来研究资源的使用状况,预测和评估科学研究的社会效益和经济效益等。这种分析能力为档案管理提供了新的视角,帮助相关部门优化服务,提高效率。

3.3.2 创新科普教育方式。通过与教育行业的合作,采用AI技术,如可视化技术、虚拟现实技术、AIGC等,结合科技档案资源,生成和丰富科技场景中的细节,如人物、对话、声音等,增强沉浸感,将工程、生物、信息技术等领域的科技知识以生动有趣的方式进行传递,增强教学的真实性和启发性,激发青少年及公众对科技探索的兴趣和动力。例如,通过AIGC技术,可以自动生成复杂的虚拟环境和内容、虚拟的角色和故事情节,使得用户体验更加个性化;通过AIGC与VR的结合,使学生能够探索火星,配合AIGC生成的讲解,增强对太空科学的兴趣。

3.3.3 丰富档案开发方式。通过与科技创意产业等的合作,利用新媒体、社交网络、VR(虚拟现实)和AR(增强现实)混合现实、空间音频等前沿技术,开发基于科技档案的文化产品,如影视作品、文创产品、互动式档案游戏及科技成果虚拟重现展览展示等,为实现仿真式、交互式沉浸体验创造条件,在挖掘内容深度和强化知识属性的同时,兼顾形式的多样性、互动性和可体验性,推动科技传播场景创新能力持续释放,促进科学普及跨媒介融合发展,提升科学研究的社会价值,为档案数据的服务方式注入新活力,支持科技服务业态的升级,推动科技文化的传承和创新。

4 面临的挑战

LLM能够带来档案工作模式的革新,但也使档案管理机构在知识产权、信息安全、内容质量、工作人员等方面面临新的挑战。

4.1 AI生成内容的知识产权还存在争议。科技档案中可能包含受版权保护的材料,LLM生成的内容是在人类与AI系统的交互中产生的,其知识产权的归属问题目前仍是一个复杂且存在争议的法律议题,主要的观点有:归属于人类研发者或使用者、归属于机器、视为合作作品、按合同约定。当前实践中,用户既享有输出内容的利益权利,也承担着相应的法律责任。[16]随着技术进步和法律实践的发展,这一领域的规则和理解可能会继续演变。

4.2 信息安全风险加剧。LLM在训练过程中可能摄入大量敏感或专有信息,包括科技档案中的专利细节、研究成果、商业机密等,如果模型安全措施不足,模型可能在生成响应时意外泄露这些敏感信息,或者被设计精巧的提示注入攻击所利用,从而导致数据泄露。同时,AIGC技术的引入增加了档案信息的复杂性与多样性,AIGC能够自动生成文本、图像、音频等多种格式的档案资料,这既使得识别和管控潜在的安全威胁变得更加困难,也增加了数据泄露以及被攻击或误操作的风险。

4.3 内容质量的评估有待加强。LLM生成的内容是基于对历史数据的学习,缺乏人类独有的情感深度与创新思维,所以就有可能生成涉及版权侵权、敏感信息或误导性的信息,[17]这对档案管理的严谨性与合法性就会构成挑战。在科技档案应用场景中,这种不准确性可能会对科研工作、技术传承或决策制定造成负面影响。同时,在借助LLM对档案数据挖掘开发时,还需要对数据开发的经济价值、社会价值、学术价值等进行评估,以确保成果价值的最大化及导向的正确性,满足社会的实际需求。

4.4 对人员的人工智能素养要求更高。当前LLM的使用渐渐融入了各个工作流程,使用AI的能力即人工智能素养变得愈加重要,[18]科技档案工作人员不仅要精通传统档案管理知识,更需要不断提升自身的人工智能素养,理解AI的基本概念,并知晓AI的应用范围和潜力,具备与AI系统有效沟通和协作的能力、AI伦理意识等,充分发挥人类和机器各自的优势,以适应数字化、智能化的科技档案服务需求,实现更高效的任务执行和问题解决。

5 结语

LLM通过模拟人类语言理解与生成机制,能够在海量数据中进行高效的信息提取、语义分析和知识组织,为科技档案的智能检索、内容摘要、自动分类与标签生成等任务提供了强大支持,推动科技档案数据挖掘的效率提升、深度凸显,激活科技档案数据的潜在价值,也为学术研究、公共教育乃至政策规划开辟全新的视野。档案管理相关部门要顺应数字化、智能化的发展趋势,抓住LLM技术的机遇,不断创新科技档案工作的模式,积极应对所面临的挑战,为推动档案事业及全社会新质生产力的发展提供有力支撑。

本文系国家社科基金一般项目“基于全文本计量分析的卓越学术论文早期识别研究”(项目编号:23BTQ057)阶段性研究成果。

参考文献:

[1]潘亚男.新时期科技档案工作的新变化与新问题:基于中国科学院科技档案实践的思考[J].图书情报工作,2022,66(01):106-111.

[2]蔡盈芳.论新质生产力与科技档案工作[J].中国档案,2024(04):8-9.

[3]牛力,金持,黎安润泽.大模型在档案工作数智转型中的应用:新机遇、新模式和新转变[J/OL].档案学通讯:1-11.

[4]张丹.大语言模型与档案资源开发:前景、挑战与应对[J].山西档案,2023(05):108-111.

[5]王苏军,陈清云,盖峻梅.基于大数据背景的医院档案工作探析[J].档案与建设,2019(07):61-62+56.

[6]加小双,张斌.欧美科技档案管理的经验借鉴[J].档案学研究,2016(01):25-31.

[7]韩旭,孙亚伟,赵璐.体系化人工智能与大语言模型在智能情报场景中的应用[J/OL].北京邮电大学学报:1-9.

[8]刘学博,户保田,陈科海,等.大模型关键技术与未来发展方向:从ChatGPT谈起[J].中国科学基金,2023,37(05):758-766.

[9]付永华,张文欣,司俊勇.ChatGPT影响下的人工智能档案服务:突破与挑战[J].档案管理,2023(03):58-61.

[10]孔媛媛,张舒,王爱.大数据背景下档案信息服务体系构建方法探析[J].档案与建设,2021(05):59-62.

[11]周林兴,殷名.知识发现、复用与再生产:一种智慧档案馆的知识管理视角[J].档案管理,2024(02):42-47.

[12]张晓林.Library-Inside:AI赋能图书馆新质生产力的一种基础模型[J].中国图书馆学报,2024,50(03):4-16.

[13]陈嘉钰.智慧档案馆数据化管理功能的实现[J].档案管理,2021(01):57-58.

[14]伍薇.基于CNN卷积神经网络的企业电子档案分类法研究[J].山西档案,2018(05):83-85.

[15]杨晶晶.生成式人工智能在档案数字场景中的应用研究[J].浙江档案,2024(01):45-47+54.

[16]王黎萤,赵春苗,王举铎,等.知识产权与标准协同推进人工智能产业创新机制与路径优化[J].科学学与科学技术管理,2024,45(04):52-67.

[17]陈艳红,李健.新一代人工智能生成内容档案身份的认定风险及规制研究:基于对ChatGPT生成内容的思考[J].档案学研究,2023(05):4-12..

[18]WONG G,MA X,DILLENBOURG P,et al.Broadeningartificial intelligence education in K-12:Where tostart?[J].ACM Inroads,2020,(01):20-29.

(作者单位:商丘师范学院信息技术学院 王建品,博士,讲师,电子商务系主任 来稿日期:2024-07-18)