李娟 张慎武 夏敏捷
摘 要:如今以虚拟联结为依托的信任对电子文件的可信性带来巨大的挑战。本文以InterPARES提出的“可信”理念为前提,在机器学习和自然语言处理等技术和方法论的支撑下,针对电子文件分类的特点,分析研究分类器、特征提取等关键技术,以期满足各个领域在电子文件捕获、存储、处置等阶段的需要,为探索电子文件自动分类带来指导意义。
关键词:电子文件;可信;InterPARES;自动分类
信息技术的快速发展使得各个领域的数据文件急剧膨胀,给档案工作者带来了前所未有的挑战。文件的易改性、软件的升级、硬件的更新等都会对电子文件的真实性、可读性和长期保存造成威胁。在这种前提下InterPARES[1]提出“可信”概念,是对电子文件“四性”的进一步拓展。
传统的人工分类费时费力,而采用机器学习的方法对电子文件进行自动分类可以有效地查询到数据信息,也方便了数据存储。因此,在保证“可信”的前提下,本文通过结合机器学习、自然语言处理等相关算法,研究如何对电子文件的内容实现自动化分类管理。除传统的电子文件(文书文件等)之外,各种社交媒体和在线资源应用(微信和微博等)的内容,都将成为有效证据的电子文件,这也将成为信息的分类和提取中一个新兴的探索领域。
“电子系统中文件真实性永久保障国际合作项目”(InterPARES)始终围绕着数字文件管理与保存的问题展开研究与探索。截至目前InterPARES已经完成了第四个阶段(2013-2018)计划的一半,即研究“网络化社会中数字文件的可信性”。“可信(trustworthiness)”理念的提出,为我们进一步探寻电子文件的管理提供了新的视角。
国外研究中,Ronald Jantz[2]认为真实性和可靠性是确保电子文件“可信”的关键因素,可信的过程、传统角色的重新定义以及支持真实性技术的实现都需要满足数字学术的需要,并提出了可信的概念框架。国内刘家真指出,“可信赖的文件是指文件内容可信赖,真实准确地反映了它所描述的事实与事件” [3];李泽锋在国内第一个全面探索电子文件可信管理的问题,并梳理了电子文件可信管理的关键问题等[4]。
InterPARES明确指出“可信”是“文件的准确性、可靠性和真实性”。由此,InterPARES实际是对电子文件“四性”做了更细致更深入的拓展,同时在探索电子文件质量的基础上,第四阶段更关注网络数字文件和数据问题、关注用户的主观认知,以确保公众信任建立在良好治理、强劲数字经济和持续数字记忆的证据之上。
电子文件的分类,就是根据电子文件内容的属性或特征,將其按一定原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序[5]。它能够揭示文件与文件之间的有机联系,更重要的是可以方便进行查询与检索。
在大数据时代,电子文件数目的海量增长,使得传统的人工分类显得力不从心,利用计算机进行自动文档分类显得尤为重要。近年来,文本挖掘、机器学习、自然语言处理、深度学习等进行文档自动分类成为一个多学科交叉研究的热点,并非常具有应用价值。要实现电子文件自动分类,如何对文件进行预处理、特征提取、分类器设计以及良好的算法等都关系到分类的准确性和效率。本文以文书文件为例,需要着重解决的关键问题如下:
3.1 电子文件预处理。由于电子文件的来源异构、格式各异,不但不利于长期保存和有效利用,也不便于对电子文件进行自动分类操作,因此待分类的文件必须经过预处理。
①格式转换。为保证文件始终如一的显示效果,摆脱软硬件支持和长期的有效利用,依据国家档案局发布的DA/T 47-2009《版式电子文件长期保存格式需求》行业标准,需要将不同格式的文件进行统一类型的转换。
②分词。分词是预处理过程中最重要的一步,西文文本单词与单词之间有空格,可以自然地分隔、切词,而中文文本不能简单地使用空格进行分词,且同一个词语在不同的语境下能够表达不同的意思,这样也就加大了中文文本的处理难度和词语切分的精度。分词技术的好处直接影响到自动分类的效果。本文使用开源的IKAnalyzer分词器。
③降噪处理。分词后的文本信息,可能会包含标点符号、停用词、乱码等,这些标记的一个显著的共同特点是与文本的内容无关,对文本的分类没有作用,属于噪声数据,应在自动分类之前将其去除掉。
④文本表示。目前的计算机无法智能到读懂人类的文字,所以必须把文本转换成计算机能够理解的形式,即进行文本表示。本文主要采用向量空间模型(VSM),即是把文档简化为特征项的权重为分量的向量表示:(w1,w2,...,wn),其中wi 为第i 个特征项的权重,一般选取词作为特征项,权重用词频表示。
3.2 电子文件的特征提取。当使用特征向量对文件进行表示时,特征向量通常会达到几万维甚至几十万维,随着维数的增大,分类算法的实现复杂度也必然增大。所以必须进行特征提取,特征提取的基本思想是通过对原始向量空间的处理,得到一个空间维数更小,维与维之间关联更少的向量空间,尽可能多地识别和删除不相关特征和冗余特征,同时保留一些类别区分度较高的文本特征,从而有效提升分类的效率和准确性[6]。
3.3 分类器模型选择。对于电子文件的自动分类,属于有监督的学习过程,也就是必须有大量的训练样本(文件)进行预先训练,而对于不同类型、不同职能的电子文件还需要建立不同的分类器模型。确定分类器模型以后,才可以将未分类的电子文件传入该分类器,划分到概率最大的类别得到分类结果。目前常见的分类算法很多,如贝叶斯算法、决策树、K近邻(KNN)算法、支持向量机、神经网络、回归模型、最大熵模型等。
电子文件自动分类流程可概括为两个阶段:第一个阶段是分类器的训练学习阶段,第二个阶段为分类阶段,利用第一个阶段得到的分类器对分类文件进行分类处理。
在训练阶段,首先需要对训练电子文件数据集进行统一的格式转换,如转换为PDF/A格式,然后利用IKAnalyzer分词器进行文本分词、降噪等一系列预处理操作。为了能使计算机表示为计算机可识别形式,按照向量模型空间的基本思想,将分词后的内容进行特征向量描述,通过特征降维得到一个特征项集合,最后利用较简单的机器学习算法——KNN算法,获得分类器模型。
分类器模型确定之后,便可对未知文本进行分类处理,同样需要进行文件的预处理、文本表示、特征提取等一系列操作,最后将特征项的集合传输给分类器模型,从而得到文件的分类结果。
本文尝试建立一种“可信”的电子文件自动分类系统。该框架最终将与ERMS(电子文件管理系统)或者移交接收平台相结合,因此必須考虑所采用的数据库系统,且需要对电子文件的元数据元素进行采集。
整个框架都基于“可信”理念设计,对各个步骤进行安全管控,如:为了保证电子文件的长期有效利用,根据相关行业标准,将原生文件进行统一的文件格式转换(PDF/A格式);在进行元数据采集之前需要进行“四性”检测,有效地保证了数据的完整性、安全性、真实性及可用性;利用非结构化数据库设置“权限管理”“分发管理”“数字签名”“数据备份”等安全控制技术。
电子文件的自动分类是对电子信息进行自动化处理的重要研究方向,它可以通过给定的分类标准,由电子文件的内容自动判别其文本类别,在学术上具有重要的研究价值和意义。该研究涉及多种技术,如,信息安全技术、元数据技术、机器学习算法、自然语言处理等。下一步将继续考虑图像、社交媒体信息等各个类型的电子文件的自动分类问题,及如何与电子文件的移交与接收、ERMS等相结合的问题,并为后续的长期保存与利用提供有力的支持。
[1]InterPARES 2 Project. Glossary,Dictionary&Ontologies[EB/OL].(2014- 1-1)[2014-1-2].http://www.interpares.org/ip2/ip2_terminology_db.cfm.
[2]Jantz R. An institutional framework for creating authentic digital objects[J]. International Journal of Digital Curation, 2009, 4(1): 71-83.
[3]刘家真.在传统环境与电子环境中文件的可信度与真实性比较[J].四川档案,1998(6):13.
[4]李泽锋.电子文件可信管理关键问题分析[J].档案学研究,2012 (6):52-55.
[5]王芳.基于J2EE的信息分类编码标准管理系统的研究[D].大连:大连海事大学,2006.
[6]毛嘉莉.文本聚类中的特征降维方法研究[J].西华师范大学学报(自然科学版),2009(4):365-368.