江苏省档案信息化转型的理论与实践

2024-09-25 00:00:00孙敏金云江李长凯蒋宁鹏江雪晴
档案与建设 2024年8期

主持人语:随着中国式现代化建设步伐加快,大数据、物联网、云计算、人工智能等信息技术引领着各行各业的深刻巨变,档案信息化建设同样需要实现全面数字转型和数智升级。多年来,在国家档案局的改革试点任务引领下,江苏省档案工作数字化转型升级成效显著,成为全国档案工作的亮点。从传统管理向智能化服务的升级,从单一服务向跨区域共享服务平台的构建,从内部研发向产学研深度融合的创新之路,从数字档案馆向智慧档案馆的逐步转变,从个别领先到推动区域整体高水平发展……江苏在推进档案信息化过程中秉承服务理念、紧跟发展趋势、引领技术创新、守牢安全底线,形成了一套具有参考价值的经验做法,为全国档案事业的发展提供了有益借鉴。

(孙敏,江苏省档案馆)

关键词:档案信息化;信创;中国式现代化;人工智能;数智;数字档案馆;智慧档案馆;区块链

▍孙 敏:

党的二十届三中全会对进一步全面深化改革、推进中国式现代化作出重要战略部署,吹响了进一步全面深化改革的冲锋号,开启了新征程推进中国式现代化的时代新篇。更好地服务党和国家工作大局、服务人民群众,必须加快推进档案信息化建设,全方位、深层次、根本性地推动档案工作转型升级,为中国式现代化建设提供更加坚实的基础。

一、 档案工作信息化转型发展的主要趋势

随着新一轮科技革命引领各行各业深刻巨变,档案行业也面临着向信息化转型发展的迫切需要。近年来,档案信息化由点及面、由浅入深不断发展,数字档案馆、电子档案单套制管理、档案业务在线指导、异地查档出证等新模式不断涌现,主要呈现“四个转变”。

一是档案载体从纸质向电子转变。江苏各地区各部门积极推进无纸化办公,基本建成信息化办公系统。部分地级市依托在线平台已建成市域内统一的办公系统。办公系统中生成运行的大量文件资料,以及在各级政务服务平台上生成的过程性电子文件,均已实现全流程电子化管理。目前,江苏的单套制电子文件归档与管理、重大项目电子文件归档等系列国家试点正在有序推进,电子发票电子化报销入账归档试点经验获得了省委改革办的肯定推广。“增量电子化”成为新时代档案工作的又一个显著特征。

二是档案服务方式从现场服务向异地服务转变。截至2023年底,全省共建成全国示范和国家级数字档案馆38家,全国示范数字档案馆数量全国领先。依托数字档案馆建设,全省各级档案部门以“让数据多跑路、群众少跑腿”为目标,推出多种形式的异地查档服务应用和APP,查档服务从同城、省内逐步扩展到“长三角”区域甚至全国,覆盖范围不断扩大,服务内容不断丰富。档案服务正在从以各级档案馆为中心,向更广的区域、更多的人群辐射。

三是档案资源管理从实体库向数据库转变。按照国家档案局“存量数字化、增量电子化”战略要求,全省各级档案部门把“存量数字化”作为档案信息化建设的重中之重,基本完成馆藏档案的数字化工作。目前,全省馆藏档案数字化率达94.22%,全省接收电子档案958.33tB。全省大部分国家综合档案馆还完成了馆藏档案数据与实体的一一对应,加上接收的电子档案,档案数据资源量比例越来越高。随着电子文件管理单套制的推进,档案管理模式也将从以档案实体管理为重点,转向以电子档案、馆藏档案数字复制件等档案数据资源管理为重点。

四是档案业务工作从线下向线上转变。近年来,全省不断强化“互联网思维”,加快政务网在线平台建设,实现政务服务全流程、一站式办理。在已建成数字档案馆的地区,档案业务指导、监督检查、交接验收等工作,已经或正在实现在线管理模式,大量电子档案基本实现“一键进馆”。依托数字技术,极大便捷了档案业务工作,精简了档案管理流程,更精准做到“应收尽收、应归尽归”,实现了档案全生命周期的全链条式管理。

二、 档案工作信息化转型发展的建设思路

档案工作出现“四个转变”,是中国式现代化的新形势对档案工作高质量发展提出新要求的必然结果。总结“四个转变”蕴含的档案信息化发展规律,探索档案信息化的建设思路,对于今后一个时期档案部门加快推进档案信息化建设,具有重要的实践价值和指导意义。

一是要建设数字档案馆系统。数字档案馆对应实体档案馆,但功能要求比实体档案馆更加复杂,尤其是在档案数据资源的利用开发方面。随着档案管理模式逐步转向以档案数据资源为重点,当前仍以数字资源存储为中心的数字档案馆必将迭代升级为以用户为中心,今后还将迭代升级为以应用场景为中心。只有不断完善数字档案馆系统功能,方能不断满足未来需求。

二是要突出数字和智能两个基础建设。在数字档案馆建设中,要重点强化数字存储、数字计算、数字传输等基础能力,建全建优处理档案数据的各类业务系统,确保其强大的数据处理功能。同时要高度关注智能基础建设。传统档案基础业务体量大、劳动密集,唯有借助人工智能等技术,方能节省大量人力资源。应用大模型、语义分析、语音识别、机器学习等新技术已经逐步取代人工,为事业发展注入了强劲动力。要高度重视这些人工智能新技术在数字档案馆中的运用,不断探索开发多种智慧应用场景,不断推动档案信息化的转型发展。

三是要着眼“四化”建强数字档案馆应用系统。数字档案馆功能十分强大,但建设也很复杂。基于人财物投入等客观条件限制,应当遵循整体论证、分期建设的原则,着眼档案接收电子化、资源管理数据化、基础业务智能化、服务利用网络化等“四化”要求,优先建强相关业务管理应用系统,为后期建设打下基础。档案接收电子化就是要适应未来电子档案单套制进馆要求,从电子文件归档到“一键入库”,整个业务流程都能实现在线办理,为馆室一体化管理创造条件。资源管理数据化就是要在实现馆藏档案数据与实体档案一一对应的基础上,把档案资源管理的重心转移到数据资源库上来,分库建设满足查档、编研、划控等不同需要的数据资源库。基础业务智能化就是优先建成计算机盘库、无人值守库区、智能监控平台和智能划控等人工智能应用系统,配齐语言、文字、数据等识别分析处理工具,提升档案基础业务与管理工作的智能化水平。服务网络化就是满足不同网络的各类档案服务需求,分网建设部署相应的档案服务应用系统,把档案服务拓展到网络上。

三、 档案工作信息化转型发展的重要抓手

在推进中国式现代化建设的时代背景下,档案工作信息化转型发展更为紧迫,且任重道远。数字档案馆建设水平直接关系着档案信息化迭代转型、关系着档案工作现代化的整体进程,因而成为档案工作信息化转型发展的重要抓手。建成高水平数字档案馆,应着重围绕“两高两全”展开。

一是设计高起点。江苏省数字档案馆基于全信创环境设计研发,深度应用人工智能、语义分析、智能检索等新技术,全面应用可信体系认证和密码应用部署,确保省数字档案馆建设方案全面领先,为档案信息化建设奠定坚实基础。项目方案设计之初,即明确了要把设计起点从以用户体验为中心的数字档案馆,提高到向以应用场景为中心的智慧档案馆迈进一步的建设目标,确保省数字档案馆项目建设方案既涵盖所有档案业务工作,又最大限度使用人工智能系统。

二是应用高智能。借助AI大模型优势,江苏省数字档案馆嵌入了智能语音识别、机器学习、智能控制等技术和系统,设计形成17个应用系统,极大地提升了档案管理的自动化和智能化水平。建设电子档案质量检验检测、智能鉴定开放审核等应用系统,全面提高档案基础业务管理水平和效率。建设线上服务平台、数字展厅、线上展览等,提升档案馆的公共服务能力。集成楼宇智能控制系统,一体化控制档案馆各类建筑设施设备。

三是用户全覆盖。江苏省数字档案馆在局域网、政务外网、政务内网、互联网分别部署应用系统,全面覆盖档案基础业务和管理工作,满足全馆各个部门的在线业务需求,最大限度覆盖来自不同网络的档案服务对象。在局域网部署数字档案馆,满足馆内各项业务工作需求。在政务外网部署集中式数字档案室应用系统,纵向联通全省各级国家综合档案馆,横向联通所有省级进馆单位,在全省实现电子档案馆室一体化管理和数字档案资源共建共享。在政务内网部署涉密电子文件管理系统,确保涉密信息的安全管理。推出档案掌上宝APP,可在手机、PC端使用,满足互联网用户对档案专业教育培训、查档利用、参观展览、业务沟通、家庭档案存档等一系列需求。

四是数据全贯通。在“四网”同时部署应用系统的基础上,加快部署全省各级档案馆存量档案目录数据汇集工作,确保全省档案数据实现贯通。鼓励省内各级档案部门探索建设区域档案数字资源中心,并推动具有长久保存价值的数据归口省档案馆集中备份管理。继续深化民生档案“异地查档、便民服务”项目,实现省数字档案馆应用系统与全国档案查询利用平台、长三角民生档案查询服务平台的深度融合,加快实现数字档案资源互联互通、互查互信。

(作者系江苏省档案馆副馆长)

▍金云江:

《“十四五”全国档案事业发展规划》指出,档案行业在信息化领域面临的主要挑战是档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级。近年来,常州市坚持信息技术创新应用,系统规划、有力推动档案工作全面数智转型发展、高质量发展。

一、 系统研究全面转型的数智方案

随着信息技术的发展,常州市紧跟时代发展步伐,历经了档案信息化1.0和2.0建设的发展阶段。档案信息化1.0时代以档案目录数字化转型,研发档案目录管理软件,建立机读目录体系为主要任务;档案信息化2.0时代以馆(室)藏纸质档案数字化转型,研发数字档案管理系统,建立档案资源体系为主要任务。2016年,常州市档案馆成功创建江苏省设区市首家国家数字示范档案馆。围绕全面数字转型和智能升级这两个核心议题,2019年,常州市档案馆组织产、学、研各方面专家,深入分析信息技术创新应用趋势,系统研究新时代新征程档案治理体系和治理能力现代化发展方略,提出档案信息化进入3.0时代的定位,制定并实施“常州智慧档案3.0”总体方案。

“常州智慧档案3.0”的主要内涵是在全面兼容吸纳1.0、2.0时代档案机读目录、数字化副本、双套制管理模式的基础上,通过深化现代信息技术集成创新应用,实现档案信息化迭代发展,推动档案治理手段的全面数字化和智能化。强调数智转型的全面性包括档案治理体系、资源体系、利用体系、安全体系的数字转型和智能应用。注重区域发展的协调性,按照集约化建设原则,统一技术架构,统一平台研发,采用分布式技术,推进全市全域整体转型。聚焦业务应用的融合性,着力推进各级党政机关业务系统电子文件归档和电子档案管理融合,推动各级档案部门档案业务管理的深度融合。

二、 创新集成全面转型的数智基底

“常州智慧档案3.0”需要规划支撑能力强的现代通信网络。依托和融入国家电子政务网络体系,全面调整升级档案信息化网络布局和架构,构建档案信息化内网、外网两大物理隔离的网络体系。内网与常州市电子政务内网安全对接,局域网与内网逻辑隔离;外网与常州市电子政务外网安全对接,互联网与外网逻辑隔离。打造满足各级各类应用需求的全市互联互通的四级网络“新基建”。

坚持以全栈信创技术应用为前提,常州市档案馆电子档案数据中心采用信创云计算技术方案,搭建混合私有云基础支撑平台,部署国产主流软硬件产品。严格遵循网络分保、等保标准和密码应用测评要求,编制密码应用方案,配备各类安全设备,构建安全支撑平台。采用分布式技术,常州市档案馆数据总中心提供整体计算、备份、共享服务支撑,各辖市、区档案馆数据分中心提供本地化存贮和应用服务支撑。采用虚拟化技术,各级数据中心为本级机关档案室提供平台资源服务支撑,打造全市档案数智转型的“新底座”。

三、 原创研发全面转型的数智平台

“常州智慧档案3.0”应用体系打破信息系统的传统技术架构,采用云计算技术的平台化架构,构建多层次、高效能的应用体系。依托数据中心(IAAS层)建设分级分类管理的数据资源管理平台,建立核心资源总库、政务内网资源库、政务外网资源库、互联网资源库,按照档案业务的流程,各资源库实现归档库、管理库、移交库、利用库、保存库动态灵活分库管理,形成各种门类档案的目录数据库和全文数据库。创新设计研发应用服务平台(PAAS层),建立以“4A”为基础的应用管理服务、以“三表合一”和元数据为核心的业务管理服务、以“四性”检测和密码应用为重点的安全管理服务,为各类档案业务应用提供全链条、多元化服务支撑。

立足档案工作全面数字化转型,采用微服务架构,设计研发综合应用平台(SAAS层)。围绕档案治理体系,聚焦组织领导、行政监管、业务指导、宣传教育等能力,建设档案协同治理平台。围绕档案资源体系,聚焦电子文件归档、电子档案移交接收、电子档案馆(室)综合管理、电子档案长期保存等能力,建设电子档案管理平台。围绕档案利用体系,聚焦数据共享、查询利用、开放开发等能力,建设电子档案综合利用平台。围绕档案安全体系,聚焦档案馆建筑节能、综合环境安全、实体档案安全、档案数据安全等能力,建设绿色智能监管平台。

四、 积极彰显全面转型的数智成效

“常州智慧档案3.0”旨在通过现代信息技术的创新应用,推进档案治理体系和治理能力现代化。经过近年来持续研究探索、落地实施、反复验证,目前基本完成总体方案的规划建设内容,建成常州市电子档案数据总中心、综合应用平台,常州市档案馆、天宁区档案馆实现档案数据整体迁移和利用服务。开展党政机关信息系统电子文件归档试点,完成常州市协同办公平台、“一网通办”平台、产权交易平台、住房公积金系统等8个重要信息系统电子文件“单套制”归档技术对接。深化常州市档案“一网通查、即时出证”制度改革,建成覆盖全市四级行政服务(便民)中心的档案查询平台,各级综合档案馆共23类民生档案实现线上查询。2025年将重点推进智慧档案3.0综合应用平台在市级机关单位档案室部署应用,建设各辖市、区档案馆分中心,加快常州市全域档案整体数智转型步伐。

在“常州智慧档案3.0”探索实践过程中,强化档案科技创新研究和攻关,不断提高科研能力。目前已申报江苏省档案科研项目4项,入选江苏省工信厅信息技术创新应用优秀示范案例1个、示范解决方案2个,被工信部评为创新应用示范案例1个,申领软件著作权8个。

(作者系常州市档案馆馆长)

▍李长凯:

近年来,宿迁市把档案信息化建设作为服务全市中心大局、推进档案事业高质量发展的切入点和着力点,努力打造市域“国家高水平”数字档案馆集群。截至2023年底,全市6家综合档案馆中,已有5家建成全国示范或国家级数字档案馆,被列为全国数字档案馆建设典型案例、全市优秀改革创新成果。

一、 做强“四大体系”,建设规范安全、融合发展的数字档案馆

一是构建设施先进、布局合理的硬件基础体系。宿迁市档案馆建成通过中国质量认证中心认定的B级数字档案库房,和通过国家保密科技测评中心关于屏蔽性能的最高级测试的屏蔽室;构建互相隔离的“三网一库”基础架构;自建数字档案馆室云平台,向市级进馆单位提供集中式的电子文件存储空间和数字档案室存储空间;搭建分布式存储架构的数字档案资源总库和对多种载体进行统一管理的磁光电混合备份库;打造专业化音视频采编室,为档案数字化、宣传、编研、培训等工作开辟新阵地。各县档案馆建成通过专业机构检测的B级主机房,沭阳县、泗阳县档案馆建成库房RFID智能档案管理平台。

二是部署博采众长、科学实用的软件支撑体系。宿迁市档案馆在局域网上部署档案综合管理利用系统,建立馆藏数字档案资源综合管理利用平台;在政务外网上部署档案共建共享系统和网盘系统,与市一体化协同办公系统、市场主体登记电子档案管理系统实现对接;在互联网上通过门户网站、手机APP、微信公众号等建立面向社会公众信息服务平台;在资源总库上部署数据长久保存系统,实时监测、预警、保全和修复馆藏数字档案资源。各县档案馆基于政务外网搭建覆盖县直机关及乡镇(街道)数字档案室的馆室一体化平台,部署覆盖乡镇(街道)便民服务中心的民生档案远程查询系统及配套设备。

三是强化增存并重、数据优质的资源核心体系。注重存量档案数字化,分批次开展档案数字化加工项目,同步实施数据校核和第三方质检监理;全市各级国家综合档案馆完成馆藏档案全文数字化和接收“双套制”进馆数字档案共计8500余万页,馆藏档案应数字化率达95%。推进增量档案电子化,在全省率先实现“单套制”企业电子档案OFD版式在线移交进馆,会同市市场监管局在全省率先出台《市场主体登记电子文件与电子档案管理规范》并获省地方标准立项。制定数字档案资源备份和恢复策略,科学划分安全域并实施边界控制管理,按照备份策略对馆藏数字档案资源实行在线、近线及离线备份,组织全市国家综合档案馆统一开展重要档案数字资源同城及异地备份工作。

四是夯实管理合规、运维有序的安全保障体系。坚持“安全第一”,做到档案网络和信息安全与档案实体安全并重。落实网络安全责任制检查考核制度,成立网络安全工作领导小组,压紧压实档案安全主体责任、领导责任和监管责任,健全完善档案安全管理制度和应急预案,改造升级库房门禁、监控、环境监测等设施设备,持续优化完善网络安全软硬件,聘请应急支撑机构,定期开展安全检查,举办应急演练和教育培训,探索区块链等新技术在档案业务中的应用,着力构筑人防、物防、技防三位一体的档案安全防范体系。

二、 做优“三项服务”,建设以人为本、高效便捷的数字档案馆

一是优化现场查档服务。不断优化改造数字档案馆系统,做到单次检索目录响应5秒以内,群众办理利用登记不超过5分钟。加大民生档案查阅利用力度,开通民生档案绿色查档通道,建立出生医学证明、社保、学籍等9类民生档案专题数据库。优先开展馆藏民生档案数字化和开放鉴定工作,争取江苏省档案馆将宿迁市列为国家档案局科技项目试点地区。市、县档案利用服务中心年平均服务查档2.08万人次、利用数字档案3.67万卷(件)次、群众满意度98%以上。

二是推进远程查档服务。创新构建以市档案馆为核心、5个县区档案馆相互联动、N个镇街和村居查询点的市域“1+5+N”远程查档体系。推动“民生档案共享服务工程”纳入2023年市政府民生实事项目,联合市数据局将宿迁市档案共建共享平台与宿迁速办平台对接,将档案远程共享利用服务下沉到乡镇(街道)便民服务中心办理,实现“全市通办、异地可办、一窗通办”。探索搭建移动端用户查档应用场景,将档案共建共享平台与“宿心办”APP对接,提供身份认证、档案申报、办件查询、在线出证等服务,并支持纸质档案邮寄。积极接入全国、长三角和省级档案远程利用平台,与市外多家档案馆签订民生档案跨馆查阅协议,实现“异地查档、跨区服务”。

三是助力资政育人服务。深入挖掘红色档案资源,综合运用主题展陈、纪录片、微视频等多种方式,打造多层次、多角度的档案开发利用成果体系。制作《回眸宿迁世纪历程》《宿迁记忆》等60余部视频,其中,《城市变迁——主城区今昔场景对照》获江苏省委宣传部表彰。打造“中国共产党在宿迁”展厅和线上展,先后被评为宿迁市干部教育培训现场教学点、全市首批党员教育培训基地,入选全市“喜迎二十大 看宿颜迁变”学习体验活动红色线路首站。

三、 做好“一篇文章”,建设协同联动、整体推进的数字档案馆

着眼全市档案事业发展大局,构建“局馆协作横向聚力、市县联动纵向发力、县区互助区域合力”的工作模式,全力做好“区域‘国家高水平’数字档案馆集群”这篇大文章。

一是局馆协作,高位推动。建立局馆联席会议制度和工作协同机制,将档案信息化建设列入协同工作清单,在编制和落实档案事业发展规划时把数字档案馆建设作为重要任务,在争取市委常委会议研究、召开全市档案工作会议时把数字档案馆建设作为重要议题。召开档案信息化专题会议,组织带领县区档案局、馆共同外出考察学习数字档案馆建设先进经验,推动各县区将数字档案馆建设纳入本地区政府民生实事、经济社会发展等重大项目清单。

二是市县联动,因馆施策。坚持全市档案系统“一盘棋”,市档案馆从业务、技术、人才等方面积极给予县区数字档案馆建设指导和支持。指导各县区将数字档案馆建设整体立项,在方案编制、项目实施、测评准备、创建申报、整改提升等环节全方位跟踪服务,协助县区档案馆在完成测评体系规定动作的同时又有所侧重,用自选动作更好展现县区特色亮点。

三是县区互助,携手共进。注重示范带动、典型引路,搅动一池春水,发挥“鲶鱼效应”。沭阳县档案馆于2020年创成苏北第一家“全国示范数字档案馆”,泗洪县档案馆、泗阳县档案馆、宿城区档案馆随后分别于2021年、2022年、2023年创成“国家级数字档案馆”。各县区档案馆之间积极加强交流、相互借鉴、比学赶超、取长补短,形成了既比着干、赛着干又相互支持、团结互助的良性竞争格局,有力推动了市域“国家高水平”数字档案馆全覆盖的进程。

下一步,宿迁市档案馆将全面推进市域档案工作数字转型,与全市“四化”同步集成改革示范区建设同频共振,奋力谱写新时代“春到上塘”传奇的档案篇章。

(作者系宿迁市档案馆馆长)

▍蒋宁鹏:

随着人工智能的发展,公众对档案检索呈现多样化、个性化的需求。一是多维度检索需求,期望通过多种途径和方法进行综合检索。二是更高的准确性和相关性,期望系统准确理解查询意图,提供贴切的档案资料。三是方便高效,期望检索操作方便快捷,检索结果全面涵盖相关档案。而现有的检索方式普遍基于人工著录的目录和全文关键字而进行。由于人工著录目录效率较低,容易出错,难以全面概括文件内容,该问题对图片和音频著录的内容来说更为凸显。全文关键字检索缺乏对文本上下文内容的理解,只能定位到包含关键字的片段,往往检索出许多并不关联的档案,对相近的内容也会漏检。

中办国办印发的《“十四五”全国档案事业发展规划》明确指出:“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用”。由此可见,人工智能在档案工作中的应用是数字档案馆发展的必然趋势。

人工智能赋能档案智慧检索主要有三个方面的优势:一是语义分析与编码能力。近年来,人工智能技术飞速发展,通过预训练的Transformer模型,可以将文档内容转化为嵌入在向量空间模型(VSM)中的高维向量。这些高维向量能够精准捕捉并表达单词、句子乃至整个文档所蕴含的丰富语义信息,代表了文本的深层含义和上下文关系。档案内容所包含的复杂语义信息,通过人工智能技术转化为了一种可被计算机识别、比较和检索的数字化表示形式。二是多模态信息处理能力。Transformer模型不仅可用于文本处理,还可以用于图像、视频等更多模态信息的处理。例如,通过Transformer Vision(ViT)模型,可以将图像信息转化为高维向量,以数字形式保存图像中丰富的全局和局部信息以及它们之间的关系;视频则可以通过提取关键帧的图像进行类似处理。卷积神经网络(CNN)模型则擅长捕捉人脸的复杂细节和面部特征之间的空间关系。通过多模态融合技术,可以将来自不同编码器的信息表示组合在一起,实现语言、图像、视频等多模态信息的统一处理。三是智能的多模态信息检索能力。人工智能系统能够对查询语句进行深入分析,并同样转化为高维向量。这组向量不仅表示查询条件中的一些词语,还包括词语之间的上下文关系,能够准确理解用户的查询意图。然后,通过比较查询条件和档案信息向量之间的相似度来查找档案。除了最匹配的档案,语义相近的档案也能被高效地找到。由于图像和视频信息都可以被表示成向量,因此通过语言描述来查询图像和视频信息也变得非常便捷。

2023年6月,宜兴市档案史志馆与北京国典数智公司合作,共同探索在算力资源有限的条件下将人工智能应用于档案工作的路径,最终确定重点攻关利用频繁的档案检索,即基于人工智能的全类别档案智慧检索系统的应用研究。该课题旨在宜兴市档案史志馆局域网环境下,凭借有限的算力资源,突破传统档案检索依赖于人工著录目录的局限,建设一套智能化的全类别档案检索系统,成功实现档案数据的语义和多模态融合检索,实现智能分析并检索文档、图片、音频及视频内容。

在图片和视频人脸检索方面,通过特征提取,在大量图片和视频中快速准确识别出特定人物的脸部,适合频繁检索特定人物档案的场景,例如历史人物研究、事件追踪等。

在图片和视频相似场景检索方面,可以根据用户提供的场景特征或示例图片,不依赖图片和视频标注,在档案库中查找相似的图片和视频场景,为用户提供丰富的检索结果。这种基于图片内容而非图片标注的检索方式,显著提高了检索的覆盖面与准确性。

在语义检索方面,能够理解输入的自然语言,挖掘文本的语义内涵,提供更贴合用户需求的检索结果。与传统的关键词匹配相比,语义检索更能理解用户的真实意图,在处理复杂查询时提供更为精准和全面的检索结果。

在语音检索方面,用户输入文字信息,可以检索音频档案或视频档案中的音频内容,帮助用户轻松获取所需的音频档案,而且无需手动浏览音频或视频文件就能定位到所需的内容。

在人机对话方面,通过自然语言处理技术,系统能够理解用户提出的查询需求,提供相应的检索结果摘要信息,通过人机对话使档案检索更加人性化和便捷高效。

在宜兴市档案史志馆建立基于人工智能技术的全类别档案智慧检索系统并嵌入该市数字档案馆管理系统,可以有效支持对文字、图片、音频、视频等全类别档案的检索查询,弥补了传统目录检索和全文关键词检索的不足,更加方便档案信息的系统开发和有效利用,有利于进一步发挥档案信息的价值。下一阶段,宜兴市档案史志馆将继续探索人工智能在档案智能编研、智能开放审核、智能数据挖掘等场景中的应用,让档案资源释放出数据红利,促进新质生产力发展。

*本文系江苏省档案科技项目“基于AI技术的全类别档案智慧检索系统平台的建设与应用研究”(项目编号:2023-9)阶段性研究成果。

(作者系宜兴市档案史志馆馆长)

▍江雪晴:

长期安全地保存档案数据,确保档案信息真实可靠目标的实现,需要有一个令人信赖的解决方案。南京市浦口区档案馆研究了区块链技术在电子档案长期保存领域的适配度、独特性和发展前景,探索出了在不同环境下区块链的部署类型、节点架构、区块数据结构、合适的共识机制等,结合不同环境、不同来源下产生的各类电子档案保存需求,在区块链、数字认证技术基础上,结合信创要求搭建部署了电子档案长期保管系统,探索建立的电子档案长期安全保存机制,有效实现各类电子档案的长久保存。搭建的基于区块链技术的电子档案长期保管系统及管理模式,为电子档案长期安全保存的具体实现提供了参照模板。

一、 基于区块链技术,融多种技术支撑建设

利用区块链系统的数据层、网络层、共识层、激励层、合约层及应用层六个层次的技术特性,结合分布式存储技术,在磁盘存储和蓝光光盘库的硬件支撑下,通过软硬件结合,全栈信创适配,多技术集成,实现数字档案在三网(局域网、政务网、核心资源专网)环境下的多种介质安全、可信存储。

基于区块链链上链下协同模块和上链校验模块,将文件数据的哈希签名上链存证,将文件数据本身在节点存储层进行持久化存储。节点之间通过网络层同步链上数据。可信存储将存储层数据同样通过网络层同步存储文件。节点在存储层同步存储文件数据时,也同时将文件数据和链上存证进行互相校验,确保文件在节点之间同步是安全可信的。存储层将文件直接通过磁盘文件系统进行存储,可直接提取文件,无需依赖额外工具。同时从档案业务来看,每份档案存取都有相应的操作记录。全生命周期对档案操作进行留痕,可按需求对档案数据进行查询溯源,确保了档案数据的可信。

通过在各个网段中建设CA认证服务,来解决档案数据摆渡的安全性和真实性等问题。利用CA认证技术对区块链进行加强,用于保障在局域网环境下,保存在区块链中数据的真实性。同时,因为电子档案核心资源专网是封闭内网,为保证电子档案数据安全,所以通过构建专网私有链对电子档案进行保存。每个私有链节点支持离线备份存储,通过光盘等介质进行保存。保存的每一份电子档案应当是独立完整,具有原子性,不可分片、不可加密、不可跨硬盘或跨光盘存储。

另外,为保障档案数据长期存储,系统将通过定期巡检所有档案文件,检查文件哈希和链上存证进行比对,确保档案长期存储的安全性和完整性,防止档案文件意外损坏,导致数据不可用。

二、 引入档案联盟链概念,促行业共享应用

浦口区档案馆在政务外网构建多方参与的联盟链,用于对各单位电子档案的存储、流转、移交提供全生命周期的保障。系统主要由7个出块节点以及1到2个业务节点构成。由档案馆牵头,多家进馆单位共同参与治理。业务节点根据业务系统对接需求设置,可按需增减。任意一节点都可以设置为可信存储节点,用于存储全量的电子档案。可以通过节点运维系统对联盟链进行监控,以确认服务器资源的使用情况以及节点运行状况。

在核心资源网使用质量链构建区块链私有链网络,用于对馆藏电子档案的长期保存。该系统由5个出块节点以及1个业务节点构成。私有链网络节点可配置部署在内部机房,由档案馆自行管理。业务节点对接档案业务系统,提供档案存取接口。通过节点运维系统对区块链的运行状况进行监控。

三、 建长期保存应用系统,实现高效闭环管理

浦口区档案馆基于研究成果,搭建了一套电子档案长期保管系统。该系统主要有5大部分,分别是管数据、管设备、管软件、管介质、管格式。管数据是系统的核心功能,包含档案上传、入库、上链、出库、巡检、恢复等功能。在档案入库时可对电子封装包文件进行四性检测,检测无误之后将档案元数据提交到区块链,将档案封装包保存到分布式存储。系统通过预定的策略对电子档案数据信息巡检,并给具巡检报告。对于巡检发现的问题,系统可以按照处置策略对数据进行自动恢复处理。遇到无法自动解决的问题也会提交给数据管理员进行人工处理。管设备使用SNMP协议连接各台设备,监视其运行情况。对设备进行登记,根据设备的寿命对其进行全生命周期管理。在档案保管过程中可以按计划进行设备替换和升级。管格式系统为每一种格式预估一个使用寿命,格式寿命到达前会提醒用户对系统中的档案数据进行处置。可将包含该格式的电子档案批量导出。在系统外部实施格式转换、数据仿真等补救措施。管软件系统可维护相关部署的软件信息,可查看每个安装程序部署时间,管理员通过这些信息可提前做好软件升级、软件更新、软件替代等计划。

浦口区档案馆通过引入区块链技术解锁了档案管理“新姿势”。从原本主要的制度管理和管理人员专业度为保障的基础模式,转变为通过技术手段辅助专业人员管理,避免人员失误、管理疏漏等情况导致的不可挽回的损失。区块链、CA等技术的集成创新应用,对档案采集、移交、四性检测、保存利用起到了“真实、完整、安全、可用和防篡改、可追溯”的功效,特别对长期保存降低了重大风险事故的发生概率,保障了电子档案长期保存与管理维护的安全。

(作者系南京市浦口区档案馆副馆长)

(责任编辑:刘鸿浩)