摘 要:随着大数据在各行业应用的广泛深入,取得良好的成果,许多档案行业学者对档案信息在大数据应用方面进行了研究和实践,通过采用人工智能技术对档案信息进行预处理,如利用OpenCV算法对文本档案进行OCR识别,采用ASR技术对音视频档案进行语音识别,采用人工智能技术进行人脸识别等。对获得的数字化档案信息采用隐马尔科夫模型进行结构化,最后形成“一人一档,一事一档”等大数据应用实践。
关键词:OCR;语音识别;人脸识别;数据结构化;一人一档;一事一档
中图分类号:TP39 文献标识码:A文章编号:2096-4706(2021)23-0142-03
Preliminary Practice of Application of Big Data in Archival Information
ZHU Mengling
(Guangdong Yunxun Information Technology Co., Ltd., Huizhou 516000, China)
Abstract: With the extensive and in-depth application of big data in various industries, good results have been achieved, many scholars in the archives industry have studied and practiced the application of big data in archives information. They preprocess archives information by using artificial intelligence technology, such as OCR recognition of text archives by using OpenCV algorithm, ASR (automatic speech recognition) technology is used for speech recognition of audio and video archives, and artificial intelligence technology is used for face recognition. The obtained digital archives information is structured by hidden Markov model (HMM), and finally forms big data application practices such as “one file for one person, one file for one thing”.
Keywords: OCR; speech recognition; face recognition; data structure; one file for one person; one file for one thing
0 引 言
我们国家在电子政务方面自动化、标准化、网络化渐趋完善,每天都产生大量的反映政务活动的各种格式的电子档案,结合国家对政府档案行业“存量数字化、增量电子化”的要求,各地综合档案馆积累了海量的电子档案文件,为下一步利用这些海量的档案信息资源进行政务大数据的应用实践打下基础。
随着新一代信息技术的发展,尤其是人工智能和大数据技术的日渐成熟和广泛应用,大数据技术已体现出有其广阔的应用前景,在交通出行、安防、个性化信息推送、消费等各方面都有成功的应用,大数据也展示出了其巨大的商业应用价值,而档案因其数据量庞大,格式多样,存在跨时空、跨领域、跨行业的特点,涵盖了政务活动、社会活动、经济活动的方方面面,使档案天然的具有大数据属性,在此背景下,档案的利用模式将发生重大变革,从被动用档转变成主动用档。档案信息资源的大数据应用场景将集中在历史场景还原、人物和事件轨迹聚合、政务辅助决策等方面。
本文将从档案信息资源在大数据应用中的“一人一档”“一事一档”等方面进行政务大数据应用实践的探讨,从技术准备和实践路径等方面进行概括,提出我们的档案大数据应用思路和技术方案。
1 技术准备
在档案信息化的基础上,将大数据技术和人工智能技术应用到档案数据中,融合OCR文本识别、音视频文件语音文本识别、声像档案人脸识别,对非结构化的电子档案数据完成结构化处理,通过多维度的关联汇聚,将相关档案以时间轴和GIS空间结合,生动形象的展现出人物和事物的发展轨迹。
1.1 传统的数字化档案文件经过OCR识别后形成文本数据
基于人工智能的OCR技术通常使用OpenCV算法库,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost等。将档案库中的纸质档案,通过扫描、系统挂接、图像准备、文本识别、提取档案信息、保存识别到的文本信息。由于OCR识别存在一定的误差,系统要能够允许对识别后的OCR文本做修改,以保证深度学习的准确率,同时为大数据分析打好基础。OCR识别还可用于全文检索等档案模块,在海量的檔案数据中,快速定位想要查找的档案文件甚至文件段落,对档案工作有很好的推动作用。
将上传的PDF、OFD、Word等档案文件进行OCR识别,形成文本,可查看以及粘贴复制,同时也能进行大数据检索。OCR识别界面如图1所示。
1.2 音视频档案进行语言识别后形成文本数据
语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多个学科领域的交叉科学技术。基于人工智能的音视频档案语音识别就是让系统对音视频档案进行音频提取,提取后对原始音频进行部分消除噪声来增强语音信号,且按一定时间进行切割并生成音频文件进行语音信号的特征提取,这一过程能更好地寻找语音的内在特征,然后再通过语言模型训练,计算语言特征提取后的特征矢量与每个声学模型的距离来进行模式匹配,最后通过语音模型语法规则进行语音匹配,输出识别结果。
音视频档案语音识别的应用可以很好地解决地方口音、方言和少数民族语言带来的音视频档案识别问题,且该应用识别音频输出的文本信息可用于档案音视频检索,而不再仅限于传统的著录信息检索,相比较传统的检索方式,应用音视频文本检索后,检索效率可以有很大的提高,提高了档案人员的工作效率也提高了公众对档案的利用率;通过音视频关键字和OCR识别的文本档案、通过互联网收集的档案信息一起进行大数据分析,这将会大大提高声像档案的利用率,提升档案工作人员的工作效率。音频档案语音识别界面图如图2所示。
1.3 声像档案提取人脸信息
局部二值模式(local binary pattern,LBP)的人脸识别方法源于纹理分析领域。它首先计算图像中每个像素与其局部邻域点在亮度上的序关系,然后对二值序关系进行编码形成局部二值式,最后采用多区域直方图作为图像的特征描述。该方法在FERET人脸图像数据库上取得了很好地识别性能。人脸识别后将识别到的人脸保存在数据库中,作为查询匹配库。采取提取人脸外部矩形框、人脸面部轮廓特征提取、计算人脸特征、比较人脸特征、判断是否小于阈值等流程实现人脸识别和特征提取以及结果匹配,最终实现人脸检索,其中计算人脸特征使用Resnet将人脸特征用128维向量标识,比较人脸特征采用计算欧式距离的方法。
根据以上人工智能算法提取人脸的特征数据、属性数据,将声像档案中的人脸数据提取后结构化并汇聚整合,建立档案人脸库。档案管理者也可通过对比档案人脸库,编辑标识人物姓名、身份、身体特征信息,完成声像人物标注,形成描述统一、内容完备的人脸库。建立人脸库后再归档该人物声像档案可实现自动识别归类,比如还原某位优秀共产党员历史时只需搜索该人脸或者姓名、身份等信息,该人物在库中的所有相关声像档案立刻展现。与文本档案OCR识别相结合,可形成人物链,可将该人物的文本档案和声像档案相结合汇聚成个人档案概览。声像人脸提取与检索界面图如图3所示。
1.4 数据要素提取和结构化
OCR识别完成了对档案文本文件和音视频文件转换成可深入利用的数据,但这些数据均为原始的非关系型数据,要进行大数据分析和利用,需首先基于人工智能技术对这些非关系型数据进行结构化,使非关系型数据转换成关系型数据库。在结构化的过程中结合时空关系和人脸特征模型,构成更广泛的人、事、时空的关联性。
借助世界上最大的多语种语料库,进行分词粗分、细分、强制、合并、校正、词性标注、命名实体识别、依存句法分析、成分句法分析、语义依存分析、语义角色标注、词干提取、词法语法特征提取、抽象意义表示等过程,提取人名、地名、事件等信息。使用隐马尔科夫模型(Hidden Markov Model,HMM)作为语音信号的统计模型,采用前向-后向算法、Baum_Welch算法以及Viterbi解码算法对档案文件识别后的OCR文本进行中文分词,对数据要素进行提取,提取后进行抽象意义表示,即完成数据要素的提取和结构化。数据要素提取和机构化相关图示如图4所示。
2 实践路径
(1)经OCR和视频文本识别后产生海量的文本数据,虽经过了档案逻辑的多维编目、元数据的提取和标注等操作,但对事物内所包含的有机信息依然有限,要进行大数据应用,需先按照“人物、事件、时间、原因、结果”等主要要素,职务、单位、行为、场所、等细分要素进行结构化,对文本中所包含的主要要素、细分要素进行基于人工智能的自动识别和提取、聚合,完成数据清洗和预处理,建立庞大的关系型主动利用档案大数据库,提供了档案大数据应用的坚实基础和无限可能性。
(2)对档案信息大数据最直观的利用进行多维度组合分析,因档案大数据完成了结构化,产生主要要素和细分要素相结合的多维度要素,有时空、事件、人物、单位机构等,可对各类要素多维度进行组合分析,使用诸如回归、聚类、关联值、异常值等数据挖掘方式,也可按照时空维度的方式,结合GIS地图,可直观立体地表现出事件所产生的时间和空间信息,涉及到人物时,可将关系型档案大数据和人脸特征信息结合,建立起档案大数据和图片、音视频的关联关系。其中在声像档案进行拍摄时,可打开拍摄设备中记录时间和GPS经纬度的参数,则可自动获得产生声像档案时的时空要素。
(3)在数字档案信息要素中,人物和事件是最为核心的要素,也是档案最为直观的分析对象,在结构化后,可使用聚类的方式对人物要素进行聚合,包括人名、职务、单位、行为等,结合声像档案中的人脸等要素,按时间轴线为主,GIS空间为表现形式,聚合成时空环境中的一人一档,若要查看某位同志的职业升迁,则可通过一人一档形成的时间轴,直观地看出职位变动以及该人物参加的活动等;
也可按照事件进行档案大数据利用,如“城市更新”“轨道建设”“乡村振兴”“疫情防治”等具体事件进行多维聚合,以时空为表现形式,形成一事一档的利用模式。实践路径如图5所示。实践结果界面图如图6实践结果图。
3 结 论
信息技术的大范围应用使得各类生产活动中所产生的数据量逐渐增多,这必定会为档案管理工作带来较大的难度,对于档案事业来说,信息技术的普及及应用既是机遇又是挑战,信息量和数据量的大幅度增长不仅会增加档案管理负担,还突出表现了原有档案管理模式中的不足,在信息化的背景下,要求档案管理工作根据当前的发展形势进行创新与整改,全面提升档案管理的信息化水平和管理效率,为人们提升更加高效的档案服务。而在信息化的基础上,应加大对档案海量数据的分析力度,做到档案大数据的主动用档。档案大数据的主动用档的利用场景,不仅限于一人一档及一事一档,在历史场景还原、政务辅助决策、事件和人物的规律性分析等方面均可发挥作用,在新一代信息技术,尤其是随着人工智能技术和大数据技术的日渐成熟,对档案的价值挖掘提供了无限的想象空间和可能性,“大数据+档案”是形成主动用档、智能用档,让档案发挥更大利用价值的重要途径。
参考文献:
[1] 赵甲信.关于加快推进县域档案信息化建设工作步伐的几点体会 [J].陕西档案,2008(6):30.
[2] 赵鹏,李光.档案工作落实科学发展观的关键——实现档案实物化管理向信息化管理的转变 [J].山东档案,2005(5):7-9.
[3] 陶水龙.大数据特征的分析研究 [J].中国档案,2017(12):58-59.
[4] 陳菲.大数据视角下的档案利用问题研究——由提高数据加工能力谈起 [J].机电兵船档案,2017(3):74-76.
[5] 王玲,张妍妍.大数据时代档案工作面临的大机遇与大挑战 [J].兰台世界,2014(17):15-16.
作者简介:朱梦玲(1997—),女,汉族,湖北黄冈人,工科学士学位,本科,研究方向:档案大数据。