赵宣哲
摘要:传统的声像档案著录模式已不能满足新时代人们对数字声像档案的需求,该文提出了数字声像档案智能标注,詳细分析了可能出现的问题,并深入思考相应的对策建议。由于技术的先进性,这仅仅是笔者的一种构想,以期未来档案领域能够引入更多新技术,提高数字声像档案管理水平。
关键词:数字声像档案 人工智能 智能标注 档案管理
在信息技术不断进步的今天,数字声像档案管理工作逐渐成为当前档案工作的重难点问题,智能标注的应用能够简化数字声像档案管理工作对人工的依赖,是对声像档案工作的创新性探索,对促进档案事业发展有着重要意义。
数字声像档案智能标注是依赖计算机系统直接利用人工智能技术完成对数字声像档案内容信息的处理,达到生成多个关键词的目的。为了与传统的“标引”有所区别,本文采用了“标注”的概念。传统的自动标引,又称计算机辅助标引,即根据文献内容,依靠系统程序全部或部分按照主题法扫描内容给出主题词,通常主要用于文本分类、主题词标引等,对于数字声像档案来说不太适用。而“智能标注”可以说是一个全新的概念,利用人工智能技术从根本上解决档案工作者在数字声像档案内容信息标注上的难题。
(一)内生动力不足
相对于文书档案,当前大量生成数字声像档案的机关单位较少,一些具有执法职能的行政管理部门,由于历史的原因,可能会存有较多执法过程中的声像档案。这些档案大多被存放在形成部门(如各机关的执法大队),没有集中到单位的档案部门管理,导致档案部门对数字声像档案的形成、保管及查询使用情况不了解,对新变化不敏感。另外,综合档案馆的电子档案接收工作是近年来才开展的,机关单位向档案馆移交电子档案的过程中更多的是移交文书档案,而数字声像档案相对较少。因此,无论是机关单位还是作为永久保存基地的综合档案馆,在数字声像档案管理方面探索新管理方式的动力不足。
此外,随着“放管服”改革等政策的不断深入和改善营商环境的持续推进,政府部门在加强事中事后监管方面新的措施不断出台,数字声像档案的记录和凭证作用也将进一步深化。如果档案部门不能敏锐地发现和应对新的变化,势必造成今后管理工作上的被动。
(二)标准规范不完善
信息技术已经发展到智能信息处理阶段,而目前大多数单位仍然认为一些新技术应用于数字声像档案管理较为困难,根本原因是当前的制度和指导性文件不完善,导致在管理过程中方向性不强。根据国家档案局2017年8月发布的《录音录像类电子档案元数据方案》(DA/T 63—2017)中的内容判断,声像档案标准规范仍然没有摆脱传统的管理理念。2020年5月发布的《录音录像档案管理规范》(DA/T 78—2019)提到了著录的要求,但是基本沿袭了传统声像档案著录的内容,主要是从其形式特征的角度进行描述,缺乏对声像档案内容特征的描述,对技术前瞻性及新技术应用的指导性建议不足。现有标准规范的指导意义具有局限性,并没有给新技术新手段留有一定空间。机关及企事业单位在数字声像档案大量生成、查询需求明显增强的情况下,若还是使用传统的管理手段,不利于提高数字声像档案的标注效率,更不利于数字声像档案的快速、高效检索。
(三)档案部门尚不具备独立开发能力
数字声像档案智能标注对管理水平和技术水平要求高,但大多数声像档案管理部门在数字声像档案管理的信息化研究和开发方面明显能力不足,主要是单位自身并不具备独立开发的能力。目前人工智能尚属前沿技术,该技术在交通运输领域应用较为广泛,主要是由于国家支持,社会力量参与广泛,但在档案领域应用较少。在几类档案馆中,综合档案馆资源丰富,但技术力量相对较弱;一般企业规模较小,企业档案室馆藏资源不够丰富;专业档案馆虽然馆藏资源、技术力量尚可,但其缺乏资金的支持。即使资金到位,由于其档案部门中技术开发人才占比较少,也不利于数字声像档案智能标注技术的研发。
(四)数字声像档案智能标注缺少大数据支持
数字声像档案智能标注技术验证中重要的阶段就是训练模型阶段,这一阶段各类人工智能技术较为依赖大数据模型。在智能标注的过程中是需要通过监督式学习自我训练建立标准的,而这个过程是需要一定量级数据支持的,比如人脸识别所需的人脸库,音频识别所需的声纹库,场景识别所需的场景特征库等。而数字声像档案管理中无法获取到所需的大数据,其根本原因在于各个部门的大数据资源缺乏共享。如若缺少大数据对数字声像档案进行有效的识别分析,则会使智能标注过程中,出现错误的概率加大,并会导致识别率下降等情况,无法起到很好的辅助声像档案管理的作用。
(五)数字声像档案管理水平参差不齐
现阶段,不少机关单位数字声像档案收集困难,缺乏较为完备的储存介质,加之预算有限,在数字声像档案的形成、管理、加工利用等各方面的管理手段均比较落后,水平参差不齐。有的档案部门在形成或者收集声像档案的过程中,存在不注重“质”强调“量”,以及清晰度等关键要素没有达到标准就接收的现象,严重影响数字声像档案智能标注的应用与发展。
(一)提高对数字声像档案的认识程度
为从源头上改善并创新数字声像档案管理模式,需要转变档案工作者的管理观念。一是要转变对声像档案的传统认知。由于近年来声像档案的凭证作用明显加强,档案工作者要积极学习与现代经济社会相适应的声像档案管理方式。改善单一地对声像信息处理只能通过人工判断转化为文本信息再进行处理的间接处理方式,大胆创新,应用先进的人工智能技术成果,探索以图找图、以声寻影的由计算机系统判断的直接处理方式。二是要加强宣传力度。各档案馆要利用好各类型宣传阵地积极宣传,公开展示一批精品数字声像档案、模拟办理数字声像档案利用手续、宣讲优秀数字声像档案利用案例,使档案工作者借此进一步加深对数字声像档案认识的同时,也让大众亲身体验到数字声像档案发挥的作用。
(二)制定数字声像档案管理规范
建议有关部门尽早出台数字声像档案管理的相关规范要求,重点强调以下三点内容:一是对于在数字声像档案管理中应用人工智能技术给予明确具体的指导性意见;二是在起草修订制度过程中应有前瞻性,给新技术新手段留有制度空间;三是为促进各部门共建共享数据库,实现数据库资源共享等发展要求,建议档案管理部门进一步统筹出台细则,明确对声像档案内容特征的要求,促进各档案馆根据标准规范,充分利用现代信息化技术,实现数字声像档案资源的共享,以制度建设促进数字声像档案管理工作提质增效。
(三)鼓励相关领域合作研发和开展技术试点
建议国家档案局与公安、交通、高新技术公司等合作,也可以与有研发能力的大学开展相关技术的研发。同时,应鼓励开展跨行业技术研发,尝试建立“单位+企业”等多种融合机制,加速推进声像档案资源的开发。有的机关单位将数字声像档案智能系统外包,不仅有助于削减成本,更有助于提高声像档案资源开发的效率。在实施数字声像档案智能标注的同时,有必要引入资质高、信誉好的外包公司,以获得优质、高效、全面的解决方案,攻克应用难点以确保数字声像档案智能标注的安全和效率;也可在大型高新企业开展试点,以便借助其人员与技术优势。
此外,应倡导有关部门建立开放共享大数据的有效机制。大数据是智能标注技术应用的基础,直接决定着智能标注技术是否能够正常实行。依照相关法律开放共享大数据资源是技术发展的需要。因此,鼓励相关部门将其所拥有的大数据成果共享,有助于推動数字声像档案智能标注技术的推广与应用。
(四)提高数字声像档案管理水平
安全可靠的软硬件环境是开展数字声像档案智能标注的基础保障,直接决定着数字声像档案的管理水平。因此,应用新技术的首要条件就是全面提升软硬件基础设施,及时做好系统升级优化,减少系统运行错误,加强系统易用性,多方面提高系统的安全性、可靠性。尤其需要注意的是,在数字声像档案收集方面,应明确对有价值的声像文件应归尽归,还应明确收集时的数据内容要具有真实性、完整性和可用性,以及格式要满足相应条件。例如,声像采集应采用高清及以上摄录设备,以不低于1080P像素进行记录,推荐采用4K\8K标准,从源头优化数字声像档案质量,提高数字声像档案管理水平。
传统的数字声像档案标注由于投入人力成本高、声像信息杂乱、标注困难等,已渐渐无法满足现代化业务工作的需求,若还用旧方法标注,难免会影响数字声像档案利用工作的开展。因此,开发数字声像档案管理新手段迫在眉睫,笔者建议有能力的单位尽早探索如数字声像档案智能标注等“新技术+档案”的新管理手段,充分发挥人工智能技术在数字声像档案管理中的作用,全面试点新的数字声像档案管理模式,提高数字声像档案资源的标注质量和水平,最终实现数字声像档案资源的高效利用。
参考文献:
[1]高建辉.精准扶贫数码照片音视频档案专题数据库应用平台开发研究[J].北京档案,2021(11):25-28.
[2]卢晓峰.特殊载体档案概述[J].黑龙江科技信息,2012(18):112.
[3]段长征.视频内容分析技术剖析及在校园视频监控系统的应用探讨[J].山东农业大学学报(自然科学版)2012,43(1):100-104.
[4]王雪飞.数字化背景下声像档案管理的若干思考[J].大众科技,2011(10):247-248.
[5]智敏.基于内容的视频检索和浏览的关键技术[D].北京:北京邮电大学,2006.
[6]路程.视频内容检索技术概述[J].山西科技,2018,33(2):56-58.
[7]许琪玮.论高校档案管理与大数据技术的应用[J].办公室业务,2018(14):157.
[8]杨晓宇.基于深度学习智能标注图片关键字系统的设计与实现[D].广州:中山大学,2014.
作者单位:交通运输部档案馆