四川大学档案馆 严 忠
目前全球人工智能市场规模快速扩张,但人工智能产业仍处于非常初期的阶段,我国人工智能的特点是倒三角,创新成果基于应用,基础理论与技术仍有待加强。国内档案界对人工智能的研究集中在将人工智能应用于档案管理的设想及理论层面,缺乏具体的案例分析。本文尝试找到人工智能技术与声像档案结合点,适应智慧档案时代来临的新形势。
在科技越来越发达的今天,人工智能(Artificial Intelligence,简称AI)已经逐渐地走进了我们的工作和生活。2020年11月3日下午,在中国(深圳)综合开发研究院举行的“中国数字化之路研讨会”上有关专家指出,人工智能是数字经济的核心驱动力量,人工智能技术主要指利用计算机技术来模仿人脑所从事的推理、证明、识别、学习、思考等活动的技术,人工智能技术涉及的范围包括:自然语言处理、知识表现、智能搜索、推理、规划、机器学习、知识获取、组合调度问题、感知问题、模式识别、逻辑程序设计、不精确和不确定的管理、人工生命、神经网络等领域,该技术是人类尝试将自然科学、技术科学、社会科学相结合。目前,人工智能技术已经发展到智能模拟阶段,智能机器已经能初步识别人类的声音、面部、视网膜等,并具有智能搜索、编目、引证、推理等初步的逻辑推理能力和辅助专家系统的功能。但目前人工智能技术还处于发展的初级阶段,以后将逐步成为人类有益的助手,其在深度学习、情感、决策方面离人脑智能还有距离,但随着计算机技术进一步发展将使该技术的应用前景十分广阔。
在当前新兴技术高速发展的背景下,2018年中央政治局第九次集体学习中明确指出,人工智能是新一代科技革命和产业变革的重要驱动力量,加快发展新一代人工智能事关我国是否能够抓住新一代科技革命和产业变革机遇的战略问题。国务院在2017年也发布了《新一代人工智能规划》,规划中提到,2020年人工智能总体技术和应用要与世界先进水平同步。到2025年,人工智能基础理论要取得重大突破,部分技术与应用达到世界领先水平;到2030年要成为世界主要人工智能创新中心,人工智能理论、技术与应用都要达到领先水平。国家已从国家战略层面高度明确人工智能技术及其产业发展的重要意义。2020年10月29日,中国共产党第十九届中央委员会第五次全体会议审议通过了《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中特别强调了坚持创新驱动发展,全面塑造新优势的指导思想下,也首先提到了要瞄准人工智能的等前沿领域实施一批具有前瞻性、战略性的国家重大项目。
2018年4月28日,国家档案局档案科学技术研究所与科大讯飞签署全面战略合作协议,双方将利用人工智能打造智慧档案并成立联合实验室,共同构建新型人工智能智慧档案行业标准,携手探索“人工智能+档案”的更多可能。根据协议双方将开展深度合作,共同推动人工智能技术在档案管理中的应用,依照档案业务收集、管理、存储、利用4大方向,重点围绕“智慧收集、智慧管理、智慧存储、智慧利用”,构建新型人工智能智慧档案行业标准,发挥人工智能在档案事业发展中的重大价值和重要意义,共同推进档案智慧化转型升级,这也标志着中国档案界也开始迈入智慧档案的新时代。
四川大学声像档案现藏于四川大学档案馆,时间跨度从1896年-2017年。目前,已经入库的光碟数量共计为1005盒,其中包括了从2013年-2017年历史档案数字化工程1-3期共制作的四川大学历史档案光盘301张,华西协合大学历史档案光盘76张,还包括了优秀教师教案光盘38张,2008年抗震救灾光盘40张和大量与学校发展相关的其它图片与视频光盘550张;其它还有国家图书馆赠送的与四川大学相关的缩微胶片72盒,珍贵历史录音磁带96盒,历史档案数字胶片396盒。这些图片与视频集中地反映了四川大学建校124年以来的发展历程,是2008年至2013年以来四川大学档案馆不断搜集、整理的珍贵史料。而以后随着互联网的日益普及,与学校相关的图片与视频资料归档数量会越来越多。
四川大学档案馆高度重视声像档案数字化建设,目前配备一人专职管理声像档案,还用一间底图档案库房保存声像档案,其中包括六套底图柜和六套防磁保密柜;另外,还有一间数字与缩微档案阅览室用于声像档案的建设与加工,其中包括四套全自动恒温恒湿柜、四套胶片阅读成像仪以及一台大型工程复印机,以及两台专业扫描仪和两台彩色专业打印机。
为了迎接智慧档案时代的到来,笔者于2020年11月5日实地调研了科大讯飞四川分公司。分公司有关人员详细地介绍了公司情况和与之相关的“档案超脑数字孪生智慧档案馆”的设想。科大讯飞成立1999年,于2008年在深交所上市,目前市场总价值903亿,是目前沪深两市市值最高的软件公司,中国上市企业十大创新公司,中国教育信息化产业龙头。公司的核心技术智能语音技术处于国际领先地位,公司牵头制定国家标准2项、国际标准1项、行业标准3项,拥有国内外有效专利260件,技术研发优势显著。有关负责人介绍了“人工智能+档案”从技术研究到成果应用并落地的一些实际案例,科大讯飞与安徽省档案局共同承接了国家档案局的科研项目:人工智能技术在档案划控上的应用、历史档案OCR识别引擎的研究等项目。2020年10月17日国家档案局专家组严格按照国家数字档案馆建设标准进行全面测评,一致认为科大讯飞AI赋能创新成果的体现,成为黄山档案馆的核心亮点。
有关人员接着详细介绍了档案超脑的总体设计和总体架构,总体设计是基于档案IAAS平台:用云计算中心、5G网络、物联网平台作为基础;利用档案业务中台,即具有开放共享、融合共生、迭代发展、优胜劣汰功能的档案智慧中台,通过技术能力赋能应用到档案的收集、移交、整理、利用、鉴定、统计等环节。档案超脑的总体架构主体有四大组成部分:档案智能辅助管理、AI能力平台、基础应用、信息库;其中,档案智能辅助管理包括五大子系统:档案专业OCR识别引擎、档案智能服务、多媒体档案管理、档案著录辅助、智能全文检索。这些子系统能够实现证照、表格、公文识别、人脸检索、重大活动实时记录、查档与导览机器人、智能客服、语音著录、智能编目与推荐等重要功能。AI能力平台具备大数据分析、语音能力、OCR能力、自然语言理解能力。档案业务中台还具备历史类似事件的智能评估功能,通过对大量历史档案、现今事件等信息的机器学习,运用大数据挖掘和聚类技术,分析类似事件影响程度,构建事件深度神经网络模型,为客户或政府提供决策参考。
有关人员向笔者介绍了科大讯飞的声像档案智能管理平台,该平台的核心设备包括讯飞档案机与讯飞智录机。讯飞档案机使重大活动的档案建立变得简单,它可以实现档案著录信息的自动提取,口述档案完成征集后,按照文件属性可以自动生成MP3、EXCEL格式的声像档案目录数据。
科大讯飞的讯飞智录机依托于智能语音识别、转写、自学习等核心人工智能核心技术,结合行业规范、行业语料库、行业标准等AI引擎优化,改变传统人工键盘输入模式,使用语音口述方式录入,可以实现档案语音著录,快速准确,一分钟400字,准确率达95%。其可以极大提升档案录入、专网办公、表单填写、成果编研、系统编研等的工作效率。利用讯飞档案机的音视频接口,可以将馆藏的珍贵历史录音磁带的音频信息或胶片,通过收录机的播放将传统载体的信息输入到讯飞档案机中整理成可编辑的音频数据文件,或将胶片、影片等传统载体中的图片、影像信息通过胶片播放机输入到档案机中形成图片或视频数据文件。这对于抢救珍贵历史影像、音频资料具有重要的作用。之后,再利用声像档案智能管理平台的四大子系统:分别是音视频资源采集、音视频档案编目、视频人脸库管理、音视频档案编研。该系统利用先进的音视频转写技术和人脸识别技术,帮助档案管理者在海量的声像档案中鉴别出有价值的声像档案予以保存,并提取声像档案中的重要信息加以标注,对数据化结果的档案内容自动提取概要并完成完成自动著录。
前景与结论:随着以高端智能芯片、第三代半导体技术的不断进步带来计算机技术的高速发展,与之相关的人工智能技术也会在2020-2030年进入一个大爆发时期。目前该技术还处于较为初期的阶段,随着该技术的不断提升,人工智能技术与档案管理很快就会不断融合,如基于语音接口的移动档案服务、智能查档机器人在档案查询系统的初级应用、智慧档案馆的5A运营管理等都会不断地出现在档案工作中,这要求档案管理人员不断提升自身知识储备,以更新的专业技术能力迎接人工智能+智慧档案时代的到来。