刘伊玲 王胡燕 杨本富 王聪杰 赵样
(1.云南电网有限责任公司信息中心 昆明 650217;2.南方电网数字企业科技(广东)有限公司 昆明 650217;3.云南师范大学 昆明 650500)
档案数据作为历史留存数据,是一个企业项目及其重要事件的写照。随着技术的不断发展,业务的类型及其数量的不断增加,档案的来源、类型及其数量也不断增加。目前企业档案数据的多样化、海量化,造成了档案数据的难以利用:档案数据利用成本高,需要付出大量的人力成本,耗时耗力,成本难以支撑;档案数据结构复杂、类型多样、来源广泛,通过文本、图像、视频、语音等多种不同类型的形式来进行存储和展示,难以从海量的档案数据中得到关键的档案知识,知识获取难且不全。同时,现存的档案数据中档案大部分为孤本,在开展利用服务时,容易丢失、失控、影响档案的寿命。同时,档案数据对于数据的完整性、安全保密性、真实性、准确性要求高。基于此,档案的智能化管理也就显得尤为重要。
随着电网建设的快速发展,每年产生上万卷项目档案,需要大量人工对归档资料进行审查,存在工作量巨大、周期长等困难及资料不完整、错漏等风险。云南电网有限责任公司信息中心借助人工智能等当前主流技术解决上述问题,切实提升档案工作效率。
通过对电网科技档案归档审查领域所涉及的技术进行研究和应用,构建和训练面向行业通用的科技档案归档智能审查业务模型,实现档案数据智能获取、智能审查、智能组卷,大大缩短档案从收集、整改到上架的工作时间;此外通过构建电网档案数据分析模型,挖掘电子档案的隐性信息和知识,实时进行档案数据智能分析,为企业管理提供高可用的数据支撑。
档案信息化作为档案事业的关键,强化院所两级协同,推动数字化档案室的建设刻不容缓[1]。杨冬权[2]强调了档案资源的重要性,正视档案的价值,要加强人们对档案的重要性的认识,强调了使用人工智能技术对档案信息的“智慧性开发”,最大限度地发挥档案的价值,更好地为企业、社会决策等提供支持服务。金波等人为了充分挖掘档案数据价值、释放档案数据能量,对档案信息开发利用与档案数据共享利用进行辨析,为现档案信息的开发利用和数据共享利用提供了研究思路[3]。
随着人工智能、大数据等信息技术的不断发展,这为档案智能化利用提供了新的技术思路,要注重档案非结构化资源的整合、数据挖掘、知识发现、知识关联和知识服务,深化理论实践研究[4]。2021年,《“十四五”全国档案事业发展规划》明确指出要应用人工智能助力档案管理工作转型升级,并与数字档案馆(室)建设相结合[5-8]。2022年,国家档案局在科技项目立项工作中也表明要开展人工智能技术应用于档案管理的研究[9]。需要借助信息化技术,推动数智赋能档案事业转型升级,加强人工智能技术、大数据技术等新一代信息技术在数字档案建设中的应用,实现档案资源数据化、知识化、智能化[10]。
基于此,人工智能技术也被逐渐应用到档案管理及利用中。在档案数据处理上,借助语音识别、语音转写、OCR 图片识别等人工智能技术进行档案结构化处理,不断形成新的档案成果[11]。在档案检索和档案服务方面,利用智能Agent 技术实现全文检索,结合人工智能技术提高档案智能检索的准确率[12]。
为了充分利用档案多模态数据,邓君[13]结合NLP 相关技术将多来源、多模态档案知识进行知识抽取和图谱可视化构建,并基于此实现档案资源知识发现,实现了档案知识的升华但没有考虑到档案的实际业务应用。为了充分实现档案价值的高效利用,邱杰峰等人[14]将不同来源的文档、图像档案数据进行处理后,结合OCR、语义理解、文本分词、属性推测等技术进行档案知识挖掘,实现档案的智能著录、分类、编研利用等业务需求,并实现档案知识利用的流程化处理。为了有效学习档案知识,杨晓芳[15]将人工智能技术与档案智能问答服务相结合,通过人工智能自然语言处理模型对档案特征向量进行深度语义理解与分析,在档案知识中进行问题的检索与匹配,实现问答对的匹配。
档案的智能化技术越来越成熟,但是档案数据复杂多样,不同数据类别具有不同数据特点,例如:文书、科技档案、实体档案等,以上的研究没有考虑到档案的类别,但是知识抽取技术给我们提供了新的思路。针对文书档案,杨建梁[16-17]等人通过结合深度学习模型挖掘档案文书内部知识,进行知识聚类、实体抽取实现档案知识关联和可视化,充分挖掘出了文书档案资政价值、凭证价值和情报价值,为档案知识的进一步利用提供了服务支撑。
以上学者的这些研究,为智能化挖掘科技档案中的知识提供了研究思路。基于此,针对科技档案的特点,本研究针对不同的档案数据类进行知识挖掘,并结合深度学习算法,将档案知识进行聚类、关联,并结合知识图谱技术将结构化知识进行可视化。在处理的过程中,充分与科技档案的实际业务相结合,实现档案的自动化合规性、完备性校验及其科技档案的智能化审查,实现科技档案知识的充分利用。
基于深度学习的智能化科技档案管理的应用研究平台架构分成数据采集层、AI 服务接入层、web 层,整体研究框架如图1所示。通过将智能化技术与档案实际业务相融合,提高了档案业务的工作效率,有效实现了科技档案的智能化服务水平。
图1 整体研究框架
数据采集层:采用SFTP 技术获取文件,实现安全可靠传输。
AI 服务接入层包括:数据存储层、信息与知识层、计算引擎层、算法训练层、AI 服务层、可视化层。
数据存储层:针对不同的数据类别结合数据存储技术,实现不同数据的分布式存储、列式存储、索引存储和结构化存储,构建底层数据存储结构。
信息与知识层对全局数据知识进行结构化规范化划分处理。其中,信息知识包括:文章数据、业务系统数据、知识图谱及其多领域资源数据。需要结合数据分析技术分析处理不同的数据,并针对不同的数据特点对数据知识进行结构化处理,在处理的过程中,需要调用AI 服务层来对不同的数据进行知识抽取。AI 服务层则通过调用不同的算法模型来进行算法配置,算法配置过程中需要调用算法训练层,选择合适的算法模型,并结合模型调用计算引擎实现模型训练来支撑业务数据的处理。
AI 服务层中配置的算法包括但不限于:图像处理技术、自然语言处理技术、推荐算法、智能知识抽取技术、知识图谱技术等,配置了支撑业务处理的算法服务。算法训练层:基于AI 服务层的算法配置了常用的算法模型库,包括:分类算法、聚类算法、关联规则算法以及常用的深度学习模型,这些模型算法基于不同的业务处理来封装。
可视化层:将实时业务处理的数据进行可视化展示,包括:模型评估的结果、知识图谱可视化、以及数据分析结果等,便于用户理解以及后续的业务数据分析。
后端监控层:包括服务监控和运维监控。服务监控为对平台的实时业务数据跟踪、资源可用性跟踪、系统的性能跟踪、用户数据监控、关键指标跟踪等,为平台提供安全可靠的监控服务。运维监控为:对系统的异常数据的跟踪、系统病毒跟踪警报等,对异常的业务功能进行日志记录跟踪,便于后续的运维和功能优化。
本案例主要针对电网企业科技档案归档资料及管理过程进行研究,结合当下主流的先进技术,针对性的对档案管理工作中存在的痛点、难点问题提出对应的解决方案,对科技档案归档进行严格监管,实现档案资料合规性、完备性在线校验,保证合规性校验的准确性,提高对档案资源的利用、科技档案归档智能化水平、科技档案管理工作效能,降低管理成本,保证科技档案的完整性、真实性、可靠性和可用性,同时提高科技档案资源利用率和分析能力,提升科技档案精益化管理水平。
通过对电网科技类项目的现行管理制度进行研究,同时参阅了大量资料对工程类、信息化、科技类项目的归档资料管理现状进行分析研究,为后期的项目开展提供理论及业务管理奠定基础。编制项目的工作方案,拟定项目计划并按照项目阶段工作计划推进项目的研究。以云南电网为基础对科技档案的管理脉络进行了梳理,对同行业的国家电网公司的科技项目档案归档进行了调研,了解和学习国家电网在档案管理方面的信息化建设成果。
细化需求分析,根据现状调研情况结合项目的研究目标,完成项目需求规格说明书的编制工作。明确关键技术研究方向,按照需求说明书的相关任务目标,对行业内的主流关键技术进行学习和研究,并通过查阅大量文件及对BAT 公司的技术情况进行对比,对实现项目目标所需的关键技术进行研究形成了技术研究报告。结合业务管理需要及技术实现的融合,完成项目的概要设计及详细设计说明书编制。
根据合规性规则组织项目研究开发,完成主要开发工作任务后,进行了充分的业务验证及技术验证,并请第三方机构进行了功能、性能的测试验证。项目具备上线试运行条件后,选取网内网外试点单位进行项目成果试运行。通过试运行不断对系统应用的易用性、友好性进行调优,提升系统应用性能。
运行测试合规性规则验证模型可用性,将规则按照不同项目类别进行配置,对试用过程中出现误判、不准确等情况进行分析,优化校验模型,通过人工智能算法优化校验的准确性,实现合规性校验(包含有无盖章、是否为红头文件、时间序列校验等)准确率达到99%。公司每年新增的项目近千个,档案归档案卷每年约新增上万卷,利用本成果进行智能审查、整理组卷等,大幅提升归档审查工作效率。
构建基于人工智能的档案智能审查及一键式组卷模型。档案的规范性、可靠性是档案管理的重点工作,只有符合规范的档案资料才能为企业的长期发展提供支持,传统的人工合规性检查,效率低下且准确性不高。通过开展档案合规性自动校验技术研究,将采集到的项目资料运用人工智能技术对档案合规性进行检查校验。
根据南网电网公司档案管理相关规范梳理完整性、合规性规则,对档案资料的合规性包括归档资料的必要信息进行自动审查,采用Word2Vector 模型对文本信息资料中所有内容条目与规范化文档条目进行相似度计算,进而对其规范化做出评价。采用Faster R-CNN 深度神经网络模型对提交材料中局部内容,包括印章、时间、红头文件等进行自动检测识别,判定档案资料是否合规有效,同时对档案资料的合规性进行排查,排除有问题的档案数据并进行告警提醒。
通过人工智能的智能主体建立自动汇编模型,对档案进行自动汇编,实现汇编排序、一键汇编、汇编导出。满足档案管理人员在线档案自动汇编的业务需要,提高档案汇编工作效率,降低汇编成本。利用BiLSTM+CNN 深度学习网络模型对已实施完成提交验收的项目资料按照完整性规则进行校验,系统会自动识别档案信息(包括项目类型、项目名称等),根据识别到的类型和项目名称,将档案按照设置的汇编模板进行自动排序整理,统一档案的规范性、一致性,实现档案自动化、智能化整理及完整性检查,保证档案的完备性。
根据合规性规则组织项目研究开发,完成主要开发工作任务后,进行了充分的业务验证及技术验证,并请第三方机构进行了功能、性能的测试验证。项目具备上线试运行条件后,选取网内网外试点单位进行项目成果试运行。通过试运行不断对系统应用的易用性、友好性进行调优,提升系统应用性能。运行测试合规性规则验证模型可用性,将规则按照不同项目类别进行配置,对试用过程中出现误判、不准确等情况进行分析,优化校验模型,通过人工智能算法优化校验的准确性,实现合规性校验(包含有无盖章、是否为红头文件、时间序列校验等)准确率达到99%。公司每年新增的项目近千个,档案归档案卷每年约新增上万卷,利用本成果进行智能审查、整理组卷等,大幅提升归档审查工作效率。
搭建基于人工智能的档案利用模块,促进档案资料的高效利用。目前科技档案中的信息数据大部分属于非结构化数据,关键的信息数据和知识通常都隐藏在非结构化的企业档案中,由于非结构化档案信息没有进行很好的分类,重要信息的搜索查询及利用价值不高。
基于大量的档案数据,利用文本挖掘技术将档案资料中隐性知识进行分类、聚类、关联规则挖掘、语义分析,实现关键词检索,智能分析内容摘要、属性提取、标签识别与内容关联,总结出知识来源以及档案信息间的关联,提高档案关键信息的利用性。采用echarts 技术对数据进行可视化分析处理,以档案云图、知识图谱的形式建立起人与档案知识之间的桥梁,发现档案数据新的联系并展现之间的关系,建立一系列全新的搜索查询,为智能检索与分析提供数据支撑,辅助档案管理决策及日常工作开展同时创新档案服务模式,为企业输出更为有价的档案信息。
基于构建的知识图谱,利用文本挖掘技术常用的文本分类、聚类、关联规则挖掘、语义分析、内容分析等技术方法,对档案资料数据进行分析、挖掘,并通过可视化的呈现方式展示档案价值服务。通过可视化信息技术手段直观展示隐藏在非结构化数据中的关联信息并展现之间的关联关系,生成大数据智能分析报告,用户可实时查看高频词云、常见问题等信息,为科技档案利用奠定结构化的数据支撑。
通过本案例成果的应用实施有效避免了档案归档过程中人工核查归档资料的完备性、合规性及档案归档资料线下组卷时的费时费力、主观核查差异性等问题,科技档案的管理更为规范,提高了档案资料的数据准确性及完整性,有效的解决了纸质档案与电子档案的一致性问题。实现档案数据一键式组卷、一键式归档,减少了人工的参与度,在降低人工投入同时提高归档工作效率。通过对档案数据智能分析,对档案用户进行应用分析,形成双向桥梁,主动推送智能输出档案利用,结合档案重要性、大数据利用情况、时间轴给出档案销毁提醒与建议,为管理决策及日常工作提供支撑。依据梳理的合规性规则中的完整性、合规性规则验证档案完整性模型的可用性,科技档案完备性及合规性的校验准确率达到99%。
经济效益:按公司每年新增10000 卷档案计算,通本案例成果进行归档资料完整性、合规性智能审查,平均每卷检查时间可减少5.4 小时,将为公司节约人力资源成本约320 万元。
社会效益:该成果是人工智能技术与档案管理业务深度融合的创新典范。通过转变传统档案管理服务模式,提高公司档案归档管理智能化水平、档案利用效率,满足公司档案数据量不断增大、人工检查档案准确率不高、档案数据关键信息无法查找利用等需求,实现公司档案智能化、数字化、精益化管理,对推动公司档案数字化建设,丰富数字档案资源,充分发挥科技档案作用具有重要意义。
本案例被云南省档案局立为2020年度云南省档案科技项目计划,2022年通过云南省档案局验收,获评2022年云南省档案局科技项目成果一等奖,参加云南电网公司首届人工智能应用创新大赛,荣获创意类三等奖,荣获云南电网公司2022年科技进步三等奖。
本案例成果已在云南电网公司推广应用,计划2023年通过成果转化方式推广至外部多家单位应用。目前除云南电网应用外,在华电云南发电有限责任公司、云南省教育厅的科技档案管理中开展试用,通过行业应用反馈,该工具与档案业务深度融合,适应不同的业务场景,智能水平较高,在档案业务领域尚属领先,具有较好的推广前景。
本案例2022年通过云南省档案局验收,被评为2022年云南省档案局科技项目成果一等奖。参与云南电网公司首届人工智能大赛荣获创意类三等奖。创新性本案例引入人工智能技术与档案业务深度融合,促进技术创新同时持续推动档案服务模式不断创新。引入“以用户为中心”的档案服务理念,将被动服务转变为主动服务,实现档案“线下人工归档”转变为“线上一键式智能归档”,推动档案管理模式向智能化迈进,借助大数据分析技术对档案资源进行合理配置和数据挖掘,为档案用户提供个性化、专业化、多元化的档案服务。
1、首次构建档案数据完整性模型。根据南网电网公司档案管理规范梳理,形成电网企业档案资料智能审查规则,引入人工智能技术开展档案智能管理,按照文件关键字所处的项目类别、项目阶段将档案文件划分归类,根据识别到的类型和项目名称,将档案按照设置的汇编模板进行自动排序整理,迈出了网省公司在档案管理完整性检查方面向智能化转变的关键一步。
2、首次实现神经网络机器学习模型的档案合规性检查及自动汇编。根据云南电网有限责任公司档案管理相关的规范梳理项目合规性规则,并基于机器学习模型、OCR 识别等技术,实现系统自动对档案材料中印章、签字、红头文件等规范点进行目标检测识别,是智能化应用于档案管理领域的又一次初探。合规性校验通过后,将档案资料按照设置的汇编模板进行自动排序整理、自动编页,统一档案的规范性、一致性,实现档案自动化、智能化整理及合规性检查,保证档案的合规性,同时提高档案组卷的效率,解决了人工组卷工作繁杂、易错易漏的实际问题。
3、引入文本挖掘技术提升档案价值利用。基于大量的档案数据,利用基于深度学习的文本挖掘技术挖掘出隐性知识,实现关键词检索,智能分析内容摘要、属性提取、标签识别与内容关联,总结出知识来源以及档案信息间的关联,提高档案关键信息的利用性。采用知识图谱技术对数据进行可视化分析处理,发现档案数据新的联系并展现之间的关系,构建智能化搜索查询,为智能检索与分析提供数据支撑,辅助档案管理决策及日常工作开展同时创新档案服务模式,为企业输出更为有价的档案信息。
本案例成果用于科技类档案资料归档前的前置审查,按照科技档案管理要求对归档的资料进行合规性、完整性的校验,实现了档案数据自动识别、自动校核、自动组卷、智能应用等功能,转变了传统人工档案管理模式,提升了档案精益化管理水平和档案工作效率。针对目前电网工程投资大,周期短、项目多、人工检查项目档案耗时耗力、效率低等特点。通过本成果应用能高效完成归档材料合规性、完整性智能审查,一键组卷和智能应用等内容,解决了建设项目归档过程中的大量重复性工作,辅助甚至替代资料审核人力,实现人工智能技术在电网档案管理领域智能化方面的突破性和创新性应用示范。