杨茜茜
摘要:我国新修订的《档案法》围绕促进档案开放,从需求保障和供给要求两个方面作出了多重规定,在此背景下,我国综合档案馆需积极开展档案开放鉴定。文章采用规范性研究方法,通过档案开放鉴定方法层面的问题和现状分析,以及开放鉴定的过程解析,从概念层面提出了包括开放鉴定统一描述框架、主体概念表达、客体特征分析和概念特征匹配的档案开放鉴定方法框架,并对构建该框架所需的可用技术方法进行了梳理,提出知识图谱、图像文本识别、元数据自动抽取、语义分析和数字取证是目前助力档案开放鉴定工作实现数字化转型可依赖的主要技术方法。
关键词:档案馆;开放鉴定;方法;技术
分类号:G273
Archival Appraisal for the Public Access in Chinese ComprehensiveArchives:ConstructionofFrameworkoftheMethods
Yang Qianqian
(School of Information Management of Sun Yat-sen University, Guangzhou, Guangdong, 510006)
Abstract:The newly revised Archives Law of the Peoples Republic of China has included multiple regulations on promoting the openness of archives from the aspects of demand guarantee and supply requirements. Within this background, Chinese comprehensive archives must undertake its responsibility of archival appraisal for the public access actively. As normative research, based on the analysis of current issues and the substantial process of archival appraisal for the public access, this paper puts forward a conceptual framework of the archival appraisal methods for the public access of records, which comprises four parts as“unified descriptive schema”,“subject concepts expression”,“object characteristics analysis”, and“mapping of the concepts and characteristics”. The corresponding requirements on the available technological methods for this framework have also been discussed, finding that the methods of the knowledge graph, image and character recognition, automated metadata extraction, semantic analysis, and digital forensics are available for the digital transformation of AFA.
Keywords:Archives;AppraisalforPublicAccess;Method;Technology
我國新修订的《档案法》于2020年6月20日通过了第十三届全国人大常委会第十九次会议审议,将于2021年1月1日起施行。新《档案法》中一个重要的修订要点便是加大了档案开放的力度,在明确赋予社会主体档案利用权利的同时,也将县级以上各级档案馆的档案开放年限从30年缩短至25年,并进一步明确了档案开放的职责划分[1]。在此背景下,我国综合档案馆势必要进一步加强档案开放工作,加快档案向社会开放的步伐,提高档案开放利用效率。开放鉴定是综合档案馆履行档案开放义务的主要途径,同时也是维护各方档案权利的一项重要制度安排。在档案开放时限缩短、档案类型趋于复杂、档案数量不断增加的背景下,除了建立档案开放鉴定的常态化工作机制之外,也有必要对档案开放鉴定所能采取的方法进行探讨,以提升档案开放鉴定的专业化、精细化程度,更好地保障档案开放鉴定工作的顺利开展。
由于档案开放工作的机制差异,在实施信息自由法律的国家和地区中,与我国语境下的开放鉴定具有相同实质者的工作程序大多融合于政府信息公开或公共信息自由获取的体系中。但也存在少数国家,如斯洛文尼亚,在政府信息公开的概念界定中明确将公共档案馆的档案与政府信息的范畴相区分[2],从而将公共档案馆所开展的公共性档案开放利用与政府信息公开活动相区分。在这一背景下,档案开放鉴定的方法需求也存在较大差异。统一于信息自由法律框架之下的档案开放,其对于公共档案是否开放以及如何开放的判断主要是基于档案特征和信息自由法律法规的比对,从而主动完成档案开放,在这一过程中,开放鉴定工作的标准化程度较高;而在档案开放责任独立于政府信息公开的情况下,其对于开放鉴定的方法需求则取决于对档案开放规则的界定。
总体而言,目前国内外对于档案开放鉴定的具体方法研究尚不多见。在我国,贺军、李扬新等人从程序规制的角度对档案开放流程的实施方法进行了研究[3]。在实践方面,青岛市档案馆建立了敏感词库,并开发相应的软件对档案进行扫描和筛选[4]。在国外,受到《通用数据保护条例》(General Data Protection Regulation,GDPR)颁布的影响,相关研究大多聚焦于信息自由法律框架下档案开放和个人隐私保护之间的矛盾协调问题,在方法论层面,旨在通过一定的分析规则和模型,从档案中识别出个人隐私信息,从而避免因档案开放造成的个人隐私泄露。在这一背景下,以BitCurator项目[5]为代表的研究和英国国家档案馆开展的一些调查[6]都体现出,在鉴定中利用数字取证(Digital Forensics)或电子发现(E-Discovery)工具对个人信息进行识别,在数字环境下是必要且可行的。此外,在强调以开放利用为目的的档案收集中,以葡萄牙国家档案馆为代表的实践活动则开始探索语义档案信息系统的建设,基于档案的内容及档案之间的关系,建立档案著录词汇的数据模型,并构建语义映射和知识图谱[7]用以辅助相关工作的开展。同时,在其他档案鉴定工作中进行的自动化方法探索也具有一定的启发性。如澳大利亚国家档案馆自2015年起就开始探索能够支持电子文件鉴定实现自动化的途径,并研究了自动化元数据抽取、语义分析、分类和本体构建、数据关联等多种方法。该项目团队目前已完成第一阶段的研究,通过对保管期限表进行语义分析,形成了以XML为描述方式的鉴定标准概念模型。下一步则计划采用机器学习的方式对模型进行检验[8]。这样的方法路径实际也可用于档案开放鉴定中。
从上述研究概况中可见,机器学习方法和数字内容调查分析型工具使用已经成为推动档案鉴定适应数字化环境的重要途径。尽管尚未有针对我国语境下档案开放鉴定方法的专门研究,但从其他相关研究中仍可以有所借鉴。文章作为一个概念性研究,将采用规范性研究方法,首先对档案开放鉴定的方法障碍进行剖析,以开放鉴定的方法论过程为基础,探讨开放鉴定方法框架的构建,并对实现这一方法框架的技术需求进行分析,以期为今后进一步推动综合档案馆的档案开放鉴定专业化、精细化奠定基础。
档案开放鉴定问题涉及价值导向、工作机制、程序制度和技术方法等多个层面,文章主要从技术方法层面对档案开放鉴定所面临的障碍进行分析。
2.1档案数据化程度较低与大规模内容解析之间的矛盾
档案开放鉴定需要经过对档案内容的解读分析才能形成开放与否的判断。一方面,新《档案法》要求“县级以上各级档案馆的档案,应当自形成之日起满二十五年向社会开放;经济、教育、科技、文化等类档案,可以少于二十五年向社会开放”,且“档案馆不按规定开放利用的,单位和个人可以向档案主管部门投诉”。这体现了档案开放程度不断扩大的法治导向,代表着档案开放需求侧的权利保障。另一方面,从档案开放的供给侧来看,不仅存量档案存在难以识读、来源背景信息有限以及文字转换等问题,如近代广东海关档案中有大量手写体文字,并涉及英语、法语、德语、葡萄牙语等8种外语,给开放鉴定带来一定困难,而且增量档案也具有概念范畴扩大、档案类型趋于复杂、档案数量剧增、电子档案比例上升等特点。
作为档案开放责任主体的综合档案馆,如果采用传统手工方式对档案进行逐一鉴定,显然难以适应需求侧所提出的档案开放要求;而如果采用数字化工具辅助进行档案开放鉴定,则取决于档案数据的粒度——档案数据粒度越细,数据化工具辅助开放鉴定的可用程度就越高。从信息和数据科學的角度理解,数据是认识论信息的一种,知识则是与数据有交叉的另一种认识论信息的子集,智慧是可用且有用的知识,智能是付诸行动的智慧[9]。我国现有的档案开放鉴定主要还是针对传统载体档案进行,目前针对传统档案载体和内容的处理以数字化扫描和目录数据挂接为主,可以初步实现案卷级或文件级档案的检索和浏览,但档案数据化粒度仍停留在传统目录整理的程度。从认识论信息的角度看,上述做法从档案中所能揭示出的信息并未比传统手工条件下的更多且更丰富,也尚未深入知识层面,更远未达到智慧和智能的层面。因此,对于档案开放鉴定而言,目前整体档案数据化程度较低,难以直接采用信息分析工具展开大规模的内容解析。
2.2档案开放鉴定实施的知识系统化程度不足
档案开放鉴定是以档案鉴定标准、档案来源背景特征、档案内容特征、档案鉴定专业知识等多种信息为支撑,并从认知层面对档案作为客体的特征及其开放的必要性进行评估和判断的过程,本质上是一项“知识密集型”工作。而当前我国的档案开放鉴定工作,大多仍是以档案开放鉴定人员自身的专业知识和经验等“隐性知识”为主要“生产要素”,尚未将档案开放鉴定知识系统化,导致档案开放鉴定存在标准化程度不高、过程不透明等问题[10]。通过笔者的文献调研可知,我国各级综合档案馆中,安排专职人员承担开放鉴定工作的做法尚不多见,多数档案馆都在需要进行开放鉴定时临时组建跨部门工作小组,或将开放鉴定的职责移交各单位档案室;同时,对开放鉴定过程的记录管理[11]也尚未形成规范化、标准化的做法。这些都在一定程度上表明,我国的档案开放鉴定知识系统化程度不足,档案开放鉴定的专业化程度发展较慢,不利于从整体上构建成熟的开放鉴定方法体系。
2.3个人信息权利保护的新要求
长期以来,开放性和个人隐私保护及公共安全之间的平衡是档案馆面临的一大议题[12]。新《档案法》中明确指出:“利用档案涉及知识产权、个人信息的,应当遵守有关法律、行政法规的规定。”这意味着在档案开放中,需更加关注知识产权和个人信息保护。2020年全国人大常委会工作报告中提出,下一步将推动制定并出台个人信息保护法、数据安全法等法律,这都可能会对档案开放中的信息保护和数据安全带来一定影响,对档案开放鉴定提出更高要求。
欧盟《通用数据保护条例》的实施情况表明:个人信息权利保护与档案开放之间的平衡是目前档案馆面临的难点之一,这为我国的实践提供了启示。首先,数据保护所遵循的“最小化”原则要求档案提供利用时要尽可能隐去可能导致自然人主体被识别的个人信息,这使档案开放鉴定需要着重识别档案中包含的个人信息及其开放利用可能带来的指向性。其次,数据保护原则上对以公共利益或科学历史研究为目的的个人信息收集和利用保留豁免,但在实际工作中,如何评估个人信息收集和利用的目的,如何界定公共利益和科学历史研究的用途[13]则成为档案开放鉴定的另一主要内容。再次,一些档案馆也开始尝试以开放数据的方式向社会提供档案利用[14],这种方式更要求档案馆在将档案转化为开放数据之前,要对其中可能被揭示的个人信息进行鉴定,并要将这些信息的隐匿过程自动化。这些都对开放鉴定的具体方法逻辑提出新的要求。
档案开放鉴定的过程是指方法论意义上的档案开放鉴定方法及其步骤设计。通过分析档案开放鉴定的过程,从顶层设计层面为档案开放鉴定的整体方法构建及其技术需求提供了框架。笔者在互联网上对国内外公开的档案开放鉴定具体实施办法和实施细则进行了检索,并从中筛选出9份文本用于开放鉴定的过程解析(表 1)。这9份文本较为具体地对档案开放鉴定的实施细则进行描述,致力于为过程解析提供更具参考性的信息。立足于对多份档案开放鉴定相关政策制度的内容分析,文章将档案开放鉴定的基本过程描述为图1所示的7个环节。
3.1确定开放鉴定标准
(2)元数据自动抽取属于信息抽取的一个分支,具体可分为两种:一是基于规则的方法,二是采用机器学习的方法[25]。一般来说,针对网络信息资源或其他结构化程度相对较高的信息资源类型,采用基于规则的方法进行元数据抽取的效率较高;而对于扫描形成的数字资源而言,则更适合使用机器学习的方法[26]。
(3)数字取证。数字取证本身由一系列的技术构成[27]。国外在档案领域使用数字取证工具的,大多是为从档案中找出含有涉及个人隐私的信息内容,从而将这些信息内容排除在档案利用服务范围之外,以达到对数据保护的基本要求。对此,档案领域已开发出专门针对档案内容分析的数字取证工具,如BitCurator等,并将其应用在档案收集环节,也就是在档案收集过程中就对相关的敏感信息进行挖掘和标识,为档案开放利用提供依据。因此,对于增量档案资源来说,档案开放鉴定工作应趋于前移,即在档案形成收集或移交环节就对档案的开放特征和属性进行标识,减少档案开放鉴定的滞后性。
4.4概念特征匹配
概念特征匹配是将客体特征分析的结果与主体概念表达进行匹配的过程,是确定档案开放内容的实质过程,类似于“查找词典”。匹配结果可以表现为对档案开放性特征的整体描述,以及识别出不适宜开放的内容等,呈现给档案开放鉴定的专业人员进行人工决策。在这一过程中,档案开放鉴定工作借助一定的算法实现了对档案内容的深度理解。在建立算法和完善算法的过程中,应当建立起人机协作的关系,通过算法来提高档案开放鉴定人工决策的效率和准确度,并针对这一过程建立机器学习机制,加强知识积累,实现开放鉴定科学化、常态化。
语义分析是目前可实现概念特征匹配的主要技术方法。语义分析是指自然语言处理领域内对语义进行识别、理解并作出判断的过程。语义分析包含多种具体方法,从分析粒度看,包括词语、句子或篇章级;从运用目的看,包括文本分类、意图识别、情感分析等。就档案开放鉴定而言,语义分析是分别对主体概念表达和客体特征两方面的语义进行分析,尤其针对敏感信息、个人隐私、商业秘密等范畴下的内容特征,并在此基础上对主体概念和客体特征的实质语义进行匹配,从而提高开放鉴定的精准度。
文章所提出的档案开放鉴定方法框架是以主客体档案价值观和知识管理为理论基础的,一方面,强调客体档案价值特征对主体档案价值评估的契合性,以此来理解档案开放鉴定的实质过程和方法需求;另一方面,强调主客体价值关系的显性化表达,以此实现档案开放鉴定过程的专业化、规范化和精细化。要在更大程度上实现档案开放鉴定的人机协作,仍然是一个有待探索的广泛领域,文章作为初步的概念性研究,尚未能对具体的档案开放鉴定算法模型或是实验部分进行更深入的研究。除对算法的研究之外,在上述方法框架和技术方法需求分析基础上,业界和学界还需进一步深入到档案开放鉴定的具体业务要求中,对档案开放鉴定的内容标准和历史逻辑进行研究,才能为技术方法的合理运用提供实质性依据;同时,还需从档案开放鉴定工作开展的业务层面,对档案部门和技术供应部门的协作方式、档案部门的专业能力转型等相关问题进行持续的探索。
*本文系2018年广东省档案局科研项目“综合档案馆档案开放鉴定的程序制度与方法研究”(项目编号:YDK-210-2018)阶段性研究成果。
[1]国家档案局.新修订的《中华人民共和国档案法》解读[EB/OL].[2020- 07- 20].http://www.saac.gov.cn/daj/yaow/ 202007/bd61bfb7b1404b2ca3c12f1652b2c915.shtml.
[2]王敬波.政府信息公开:国际视野与中国发展[M].北京:法律出版社,2016:6.
[3]贺军,李扬新,吴玉婷.档案开放程序规制构建的流程与方法[J].北京档案,2015(3): 17-20.
[4]青岛市档案局馆.不断探索档案开放鉴定的新路径[EB/ OL].[2020-07-20].http://www. saac.gov.cn/news/2016-11/21/content_165841.htm.
[5]Lee C.Archival application of digital forensics methods for authenticity, description and access provision[J].Comma,2012(2):133-140.
[6][8]Rolan G,Humphries G,Jeffrey L,et al.More human than human? Artificial intelligence in the archive[J].Archives & Manuscripts,2019(2): 179-203.
[7]Fitzgerald R M. Waking to Normal: Examining Archival Appraisal in Data-Driven Society[J/OL].[2020-07-15].https://doi. org/10.31235/osf.io/2befk.
[9]葉继元,陈铭,谢欢,华薇娜.数据与信息之间逻辑关系的探讨——兼及DIKW概念链模式[J].中国图书馆学报,2017(3): 34-43.
[10][14]Goudarouli E,Sexton A,Sheridan J.The Challenge of the Digital and the Future Archive:Through the Lens of The NationalArchives UK[J].Philosophy & Technology, 2019:173–183.
[11]Suderman J. An accountability framework for archival appraisal[J].ESARBICAJournal,2004: 51-61.
[12]Rosengren A.Openness, Privacy and the Archive: Arguments on openness and privacy in Swedish national archival regulation 1987–2004[EB/OL].[2020-07-20].https:// www.diva-portal.org/smash/get/diva2:971682/FULLTEXT01.pdf.
[13]Rockefeller Archive Center. Report on the General Data Protection Regulations for the Rockefeller ArchiveCenter[EB/ OL].[2020-06-22].https://docs.rockarch.org/ gdpr-report.
[15]钱海峰.《北京市区县档案馆馆藏档案开放工作管理办法》解读[J].北京档案,2015(5): 10-13.
[16]辽宁省档案馆.辽宁省档案馆档案利用制度[EB/OL].[2020- 07- 21].http://www. lnsdag.org.cn/lnsdaj/dazy/dzdayls/list. html.
[17]广西壮族自治区档案局.广西壮族自治区档案局关于印发《广西壮族自治区各级国家档案馆档案开放鉴定办法》(试行)的通知[EB/OL].[2020-07-21]. http://www.gxdaj.com. cn/index.php?m=content&c=index&a=show&catid=78&id=5115.
[18]宁波市奉化区档案局.关于印发《宁波市奉化区档案馆档案开放鉴定暂行办法的通知[EB/OL].[2020-07-20].http://daj. fh.gov.cn/zcfg/glgf/201905/t20190529_369425. html.
[19]珠海市斗门区人民政府.珠海市斗门区人民政府办公室关于印发珠海市斗门区档案馆开放档案实施细则的通知[EB/OL].[2020-07-21].http://www.doumen.gov.cn/gkmlpt/ content/2/2425/post_2425007.html#2324.
[20]National Archives of Australia. Access to records under the Archives Act[EB/OL].[2020-07-20].https://www.naa.gov.au/ help- your- research/ using- collection/ access- records- under- archives-act.
[21]National Archives of Australia. Access Examination Policy–personal, business and professional affairs of a person[EB/ OL].[2020-07-20].https://www.naa.gov.au/ about-us/our-organisation/accountability-and-reporting/access-examination- policy-personal-business-and-professional-affairs-person.
[22]The U.S. National Archives and Records Administration. Access Restriction Status[EB/OL].[2020- 07- 22].https:// www.archives.gov/research/catalog/lcdrg/authority_lists/accesslist. html.
[23]Archives New Zealand. Access[EB/OL].[2020-07-22]. https://archives.govt.nz/ files/Access.
[24]The Venice Atlas. Mapping Cadasters-Final Report[EB/ OL].[2020-07-28].http:// veniceatlas.epfl.ch/mapping-cadastersfinal-report/.
[25]張秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106.
[26]陈淑平,梁东魁.基于机器学习的扫描图书元数据自动抽取研究[J].现代情报,2013(6): 45-48.
[27]蒋平,黄淑华,杨莉莉.数字取证[M].北京:清华大学出版社,中国人民公安大学出版社, 2007:71-102.