周文泓 贺谭涛 吴琼 黄小宇
摘要:文章解析了计算档案学的典型实践案例,旨在明晰数字技术与檔案领域融合的理论框架及实践内涵,由此推动行动方法论的形成与后续发展。运用案例分析法,通过对NARA专题探索成果的归纳、整合,解析计算档案学在档案管理中的实现维度与具体内容。由此,从认识层基于跨学科特性的计算思维和技术意识,以及行动层的跨领域团队建设、问题解决流程呈现出计算档案学的实践内容,以此明确计算档案学后续在理论体系与行动策略这两大层面亟待拓展的空间。
关键词:计算档案学;档案管理;数字转型;计算思维
分类号:G270.7
Analysis and Prospect on Multifaceted Practices in Computational Archival Science:A Case Study of NARAs Thematic Practices
Zhou Wenhong,He Tantao,Wu Qiong,Huang Xiaoyu
(School of Public Administration of Sichuan University, Chengdu, Sichuan, 610064)
Abstract:This article describes multiple representative cases of computational archival science, aiming to help build a theoretical framework and upgrade its intension in practices, thus promote its application and development. Adopting case study as a basic method, the dimensions and contents of computational archival science implemented in records management are clarified based on the synthesis and integration of NARAs thematic practices case. As a result, the practical contents of computational archival science are presented from computational thinking and technological awareness based on interdisciplinary nature at the cognitive level to interdisciplinary team building and problem-solving processes at the action level and so, the continuing space in the theoretical system and action strategies of computational archival science is clear.
Keywords:Computational Archival Science; Records Management; Digital Transformation; Com? putationalThinking
信息与数字技术的发展和应用正引发档案领域的数字转型与数字革命。面对诸多挑战,将计算方法应用于档案处理、分析、长期保存和访问的计算档案学正成为档案领域的热点议题,拓展了已有十余年探索进程的计算社会科学。计算档案学被定义为一个跨学科的研究领域,主要涉及对大量文件或档案进行处理、分析、长期保存和利用的计算方法与应用的研究,目的是为提高档案资源的利用率,高效、精准地支持鉴定、处置、描述、保存及提供利用决策,参与和开展各项研究。随着档案领域同数字技术的深度融合成为重点发展方向并上升至国家战略层面,计算档案学亟待从理论建构延伸至实践内涵的明确[1]。
实践层面,关于计算方法及技术在档案管理中的应用已有长足进展,重点体现在为面向档案数据的创建描述、评估鉴定、长期保存、开放利用、敏感信息保护等提供技术支持[2]。如美国基于区块链技术开展的个人健康档案服务系统项目[3]、我国由大数据技术支持的数字档案馆建设项目[4]。然而,现有档案实践同计算机科学的理解偏重于单纯对技术的工具性应用,对所使用的技术背后的社会要义、文化内涵、哲学认知等均欠缺充分认识,不利于档案领域适应计算机科学所推进的数字转型。
研究层面,依据截至2020年8月的调查结果来看,国外主要以IEEE下设专题年度研讨会将计算档案学设定为显性主题,或是从计算科学的理论内涵与要件推导结合了档案思想的结果,或是从档案领域的数字技术应用实践角度分析归纳了关于计算档案学的主要问题与内容;而国内除对国外正开展的计算档案学的相关成果如概念、发展趋势予以介绍外,大量研究聚焦于档案学与相关技术关系的研究,为计算档案学理论的建构提供了基础。这从认知上解析了在技术推进数字转型的背景下,档案理论与实践变革的要点、方向、思路等,确认了档案学内核与应变框架[5-6]。同时,技术如何应用于多样化的档案以及不同的档案管理环节,同样促进了档案学领域的技术融合进程,数据存储、数据分析、可视知识挖掘等数据科学具体技术应用于档案管理的收集、鉴定等环节,深化了对档案领域关于档案、档案真实性、档案管理理念等顶层问题的探讨[7-11]。然而,研究关于档案领域如何从认知、方法、行动等多层面系统地融入数字技术并落定于实践中的具体内涵阐释却有限,有待进一步基于计算档案学已确认的基本要义并结合典型实践案例予以说明。
由此,文章以美国档案与文件署(以下称NARA)的计算档案学专题探索為例,旨在从项目内容中解读计算档案学贯穿于实践的内涵。将其认定为典型实践案例的原因在于,NARA计算档案学专题探索的实践主体成员为计算档案学的发起人之一Richard Marciano,该专题由多个项目组成,且均在可持续发展中。文章将对组成专题的多个项目进行整合梳理与分析,以此明确计算档案学在档案实践中的具体内涵与表现,展望更面向实践的计算档案学。
NARA的第二次世界大战日裔美国人监禁营地系列文件数量大,极具档案价值。针对海量档案的不同保管及开发利用需求,NARA与马里兰大学信息学院数字策展创新中心(以下称DCIC)合作,以计算档案学为框架,面向不同档案管理问题选取不同技术开展系列项目。
1.1项目背景
随着数字转型趋势的加强,如何实现档案管理与数字技术最大程度的结合,已成为NARA提升档案管理工作的方向。
一方面,加快对开放重要馆藏档案的数字转化、在线利用以及高效挖掘已成为重点业务内容,NARA以代表性馆藏如极具社会与人文研究价值的第二次世界大战日裔美国人监禁营地系列文件为对象,探索利用数字技术完成大批量开放检测、元数据提取、档案开发利用等业务工作,由此构建出融合了计算思维与方法的档案管理体系。
另一方面,计算社会科学得到档案学者与专家的关注,推动档案管理与数字技术的深度结合,学者由此提出计算档案学的建设倡议。在对计算档案学的探索进程中,理论学者与实践专家的合作成为重要方式,计算档案学发起人之一的马里兰大学的教授Richard Marciano基于地理优势寻求与NARA的合作。
1.2项目主体
基于上述背景,该实践项目由NARA与DCIC领衔,在美国国家科学基金会“Brown Dog”项目以及IMLS的资助下,联合致力于保护二战时期日裔监禁故事的Densho、马里兰大学信息学院及其学生团队、独立研究员Sandra Laib等机构、团体和个人共同推进,是一个由多方合作开展且得益于多主体的项目,在2016至2019年间开展了系列实践项目。在此过程中,NARA主体为主要需求提出者和二战日裔美国人监禁营地系列文件提供者;此外,Densho也提供了基于系列文件提取的数据集;DCIC是项目的主要领导者和实践开展者;其他机构、团体和个人则为本项目提供了大量技术和资源的支持。
1.3项目对象
受珍珠港事件影响,1942年3月18日,战时安置管理局(以下称WRA)正式成立,处理二战期间强行安置和拘留日裔美国人的事宜,形成了一系列联邦文件,包括“被拘留日裔美国人数据文件,1942—1946”(以下称WRA Form 26),其中有被疏散的日裔美国人的入营文件;“1944—1946年安置中心疏散人员的最终责任名册”(以下称FAR),包含营员获释或转移时的文件;具有100多个系列的各类WRA文件(以下称RG 210),其中包括十分重要的“内部安全案例报告”索引卡(以下称索引卡)。
1.4项目内容及成果
为实现高效的档案管理及其业务目标,NARA积极理解与应用数字技术,基于计算思维与方法面向档案管理需求设计出不同的实践项目:
(1)档案开放检测
为促进WRA中RG210系列文件中25000多张索引卡(共21盒)的对外开放,NARA特殊利用和信息自由法案办公室发布了个人身份信息(PII)公布政策,用于公开成年人索引卡。创新办公室根据上述政策,将9996张JPEG格式的索引卡移交给DCIC,希望依靠DCIC的数字技术能力识别出不满足开放政策的索引卡。
为验证数字技术的可行性,DCIC选择了247张索引卡进行测试。首先,DCIC使用ABBYY FineReader软件将索引卡图片转化为UTF-8编码文本,形成结构化数据。随后,项目团队在开源通用文本工程框架(以下称GATE)下,利用英文信息提取插件ANNIE,将UTF-8编码文本加载至GATE中,对索引卡中的信息进行识别,提取了姓名、英文名、日期、年份、年龄、住址ID以及家庭编号等元数据字段,并将其转换成OWL/RDF语句,存储于图形数据库中。最后,DCIC利用Densho提供的WRA Form 26、FARshu数据集,设计流程图,编写伪代码和应用程序,并将索引卡结构化数据依次与Form 26、FAR数据集进行比对,若上述两组数据集中任意一组的索引卡中姓名被发现有日本名字,且该人的年龄大于18岁,则满足开放政策要求。
最后通过运行程序发现,247张索引卡中的228份满足政策要求可以开放,12张信息索引卡为满足政策要求但需限制开放,只有7张索引卡信息未出现在WRA Form 26、FAR系列文件中因而无法判定开放与否。换言之,通过初步测试发现,利用该检测程序可以实现绝大部分索引卡的开放检测工作。
(2)档案组织整理
一方面,NARA希望为索引卡图片提供描述性元数据,从而方便后续的文件管理活动;另一方面,档案资源的开发利用也需要档案组织整理工作的支持。上述原因使得需要对数字化后的索引卡信息进行组织和整理。除在档案开放检测项目中,利用计算机语义分析技术成功提取了描述性元数据外,DCIC还进行了两项实践项目,以支持后续的开发利用工作。
一是利用编程技术开发形成姓名登记表,从而通过姓名将各类文件关联起来,追踪个人经历和行为。为达到这一目的,DCIC需要将营地中每个人都会拥有的两组文件WRA Form 26和FAR进行匹配,确定营地内的人员姓名,形成姓名登记表。为此,DCIC将Densho整理的Form 26和FAR的数据集用于姓名登记表的开发工作。首先,DCIC设计了匹配方法,即标识WRA Form 26和FAR两组文件中都出现的每个信息或字段。然后确定哪种组合可能会始终如一地返回至同一个人。随后,DCIC与Densho合作,在Jupyter Notebook上以Python语言创建了用于发现两组文件关联的代码。最后,项目团队采取分而治之的策略,即针对不同的数据集采取不同的匹配策略,从而最大限度地实现对两组文件的匹配。由此发现,家庭编号——出生年份是两组文件最成功的匹配方式。此外,姓名——出生年份、家庭编号——姓名、撤离前城市——出生年份也是极为有效的文件匹配策略。
(3)融合技术意识
不同于单纯地将技术看作档案数字化的简单工具,项目团队以档案管理过程中的各类具体需求与问题为导向,尊重技术的内涵,以深化积极使用技术的意识。
从广度上看,NARA将对计算机技术的灵活应用覆盖至档案整理、鉴定、开发利用等档案管理的重要环节。以个人身份信息的检测实践为例:在档案整理环节,运用扫描技术、OCR、实体识别程序和数据清理软件,实现纸质档案数字化、数据化和标准化,形成便于后续利用的数据基础;在开放鉴定环节,运用算法设计、伪代码编写、计算模型构建等多种技术分析数据,确认开放权限;在开发利用环节,展开数据可视化实践,并开发了众包交互式程序。
从深度上看,计算机技术被紧密嵌入档案活动中。以档案开放鉴定为例,项目团队将档案管理决策问题运用计算机思维分解为可量化与流程化的逻辑判断问题,并进行了深入的数据分析。首先,设计个人身份信息检测的算法并形成流程图和图表,在档案人员和计算机人员的合作下编写伪代码,构建计算模型。然后,将偽代码算法转化为Python编写应用程序,开发模块化计算解决方案,最后进行故障排除和调试,剔除不符合开放要求的档案,为后续的数据开发或其他实践提供可用的数据集。
2.2行动层面
计算档案学认知的拓展直接影响与指导具体行动,推动了计算档案学框架下的系列实践:
(1)建设跨领域的协作团队
跨学科的特性使计算档案学实践涉及其他学科的专业知识或特定技能,跨领域的项目团队建设以资源提供与专业能力支持为必要的行动策略。
首先,跨领域的项目团队意味着不同领域专业人员的参与其中。例如,项目负责人多具有跨学科的研究和实践背景,Richard Marciano教授在以机器学习和数据科学等计算机科学为研究方向的同时,也关注数字策展等信息管理内容。项目成员来自不同专业领域,其中包括信息管理、计算机科学、数学等领域。其次,档案学语境下的计算档案学使得实践侧重点表现为档案学对其他学科的方法借鉴和技能使用,因而跨学科的项目团队仍需坚持档案学成员在其中的主导地位。以实践项目为例:项目负责人Richard Marciano和William Underwood都是档案学的研究者和关注者。此外,在20多名项目成员中,MLIS学科成员占50%以上。最后,计算档案学作为理论与实践前沿兼具的学科,往往依赖于领先性实践单位与前瞻性科研机构的协作,这在NARA的实践中就体现为NARA优质实践团队与马里兰大学品牌研究中心以及教育团队的合作。
(2)识别实践中的关键问题
计算档案学能落实于实践中的另一关键是问题导向。
明确需求是问题得以识别的基本前提。在计算机技术应用于档案管理的过程中,需求的不同将直接影响解决问题的思路、方法和对所运用技术工具的选择。例如,在设计受控词汇表的实践项目中,由于事故索引卡中对事故类型并无固定记录要求与统一的记录标准,事故类型无法直接用于索引卡的分类,事故索引卡的有效分类需求在项目设计中得到明确,这就为设计具体项目内容提供了方向。
问题聚焦,即明确实现需求所需解决的关键问题。例如,在设计受控词汇表的项目实践中,DCIC通过分析后发现,重点问题在于如何从索引卡中提炼出受控词汇,从而将其用于事故索引卡的分类,这为项目设计具体活动与选取相应支撑技术提供了直接性的依据。
问题转化,用以实现档案管理问题向计算机问题的转化,在促进问题解决的同时进一步推动档案管理与计算机技术的融合发展。例如在设计受控词汇表的项目实践中,鉴于提炼受控词汇与聚类分析有着极大的相似性,DCIC成功将档案整理中的分类问题转化为了计算机领域的聚类分析问题,从而为从技术角度解决分类问题创造了前提。
(3)实现对问题的抽象建模
从案例中不难发现,抽象建模是有效解决经转化的档案管理问题的通用策略。这是由于档案管理问题已被转化为计算机问题,而计算机问题本身具有结构化的特征,解决步骤相对固定,且问题解决过程中所采用的技术工具也是标准化的,这与抽象建模所要求的结构化、模块化十分契合。NARA的实践呈现了抽象建模的具体流程。
模型建构,即通过有层次地分析,将重点问题解构为一系列模块化的子问题,从而形成流程化的问题解决模式。如关于个人身份信息检测,项目团队对这一问题进行了模型建构,设计了初始PII检测算法的流程图。首先,判断索引卡中姓名是否为日文名称,如果结果为真,则进入下一流程;在FAR姓名登记表以及WRA Form26姓名登记表中查找该日文名称,根据出生日期和监禁日期计算年龄,以确定是否可以公开。
算法设计,将计算问题的模型以伪代码的方式加以表达,有效弥补档案管理人员与计算机从业人员之间的专业认知差距,便利了计算机专业人员对照需求编写程序。一方面,利用伪代码这一被简化的编程语言,将问题模型转化为算法流程。例如,为将个人身份信息检测流程图转化为伪代码,项目团队首先学习了伪代码编写的相关要求和要点,随后依照编程规则形成了专业编程人员可读的If-Else语句。另一方面,对算法代码进行结构性优化以便于后续维护和修改。例如,在该项目实践过程中,项目团队采取了模块化的计算解决方案,即将程序设计为相对独立的代码块。项目团队设计了日期检测的代码块PII Datecheck、查询Form 26姓名登记表的FORM 26_Lookup代码块以及查询FAR姓名登记表的Far_Lookup代码块。上述代码块彼此独立且可进行计算,生成计算结果,而将其组合则可用于对个人身份信息的检测活动。此种设计保证了对一处代码的修改不会涉及对整体的改动,一来降低了代码维修的时间成本,二来有助于后续功能的添加。
(4)运用多元化的技术工具
在技术意识充分融合于档案管理的认知时,技术应用的关键在NARA的实践中显示为技术选择过程中应当考虑实用性,并提供了两方面的判定策略。
一是具有廣泛的应用场景,这在有效降低技术工具使用成本的同时也有助于提升项目人员对技术工具的熟练程度。例如,DCIC开展的诸多实践项目,选择了开源数据清理工具OpenRefine,并在诸如个人身份信息检测、开发姓名登记表等实践中被多次使用。再如,基于网页的用于交互计算的应用程序Jupyter Notebook,一方面,DCIC将其用于多个实践项目的代码编写与调试;另一方面,其内容都以文档形式加以保存,从而便于DCIC与利益相关者进行有效的交流与沟通。
二是解决问题的针对性如何。一方面,在现有问题相对普遍的情况下,可直接利用现有技术工具进行解决。例如,在数据链接与可视化的实践项目中,有一个小组需要实现对实体的关联,而图数据库Neo4j在这方面具有成熟的经验,故该小组直接基于图数据库Neo4j,将项目团队在GATE中提取并存储在数据库中的人员、组织或事件等实体及其物理关系存储在一起,从而建立一个社交网络,用于数据分析等操作。同时,实践显示,若问题为实践过程中独有的问题,则需通过自行开发的方式加以解决。项目中最为典型的实践即个人身份信息检测工具的设计与开发工作。由于个人身份信息检测中剔除18岁及以下的索引卡这一需求过于具体,市面上的大多数程序都无法直接适用,故在实践中选择自主开发。
计算档案学的实践项目从认识和行动两个层面显示了档案领域与数字技术可持续融合的无限空间。例如,于我国而言,在数字档案馆全国联动建设、电子文件单轨制管理为数字中国建设所驱动等背景下,档案领域的数字转型亟待完备的理论体系支撑与系统的行动策略指导。计算档案学于全球范围内亦有较大的发展必要性与空间,NARA的探索项目从整体上显示了计算档案学兼具理论与实践的内涵及相应的行动内容,并提供了可供参考的经验与待深化和扩充的方向。
3.1有待系统充实的理论体系
在指导实践的理论框架建构方面,NARA充分凸显了计算档案学应有的跨学科、系统、数据思维,可借鉴并可深化拓展的空间表现为:
其一,跨学科在计算档案学中表现为什么内容。尽管计算档案学涉及的学科有多样化的可能性,但以信息为载体跨界连接的有哪些学科、每个学科在信息与信息技术下表现为什么形态、各学科围绕档案学与计算机科学产生了什么样的关系、跨学科集成的结果是什么等,还需更系统地认知和说明。
其二,作为计算档案学的核心内容,计算思维尽管得到识别并尝试同档案管理融合,但无论整体的计算思维体系还是微观的单一计算活动,仍待进一步确认同档案领域的连接方向、相互作用关系以及连接之后的融合过程与结果。
其三,在实践中,技术意识主要体现为计算机技术在档案管理中多个重要环节的覆盖以及在较复杂的重点环节中的主动应用,那么将技术融合至档案管理情境后,档案管理的思维、方法、活动过程等将如何应对与变革仍有待明晰。
3.2尚需完备扩充的行动策略
计算档案学作为面向应用的跨学科事物,落实行动的策略亦是不可或缺的部分,NARA的实践立足于经验之上并提供了明确方向:
一是如何实现跨领域多主体的协同参与。首先,从众多实践行动来看,跨领域多主体的共同参与已成为该领域的发展趋势,如何吸纳多方主体和跨领域人才的加入、实现与多元主体的有效沟通、保证不同领域的专业性的同时维护档案的核心地位等,均待探索。二是计算档案学呈现出的计算科学范式下,规范化问题解决流程如何同已有的档案管理流程全方位融合问题逐步凸显,这在于以管理为中心的流程设计如何同以建模、算法设计等以工具为中心的方法有效结合,且结合之后重构的档案管理体系为何等,均需进一步确认。三是如何对技术工具的精准应用提出更高要求,即技术与档案问题的匹配如何实现最优化,技术背后的社会文化本质如何被深度理解,技术的使用方法是什么,技术如何成为档案管理中常规稳定的模块得以自动化使用等,有待明晰。
*本文系2018年国家社会科学基金项目“基于多元数字技术的网络空间参与式归档研究”(项目编号:18CTQ037)阶段性研究成果。
[1]国家档案局.国家档案局举办区块链技术视频专题讲座[EB/OL].[2020-08-12].http://www.saac.gov.cn/daj/yaow/202006/488af1411812435ea7f3ac5ebefff7f1.shtml.
[2]傅天珍,郑江平.计算档案学的兴起、探索与启示[J].档案学通讯,2019(4):28-33.
[3][10]Chen Z , Zhu Y.PersonalArchive Service System using Blockchain Technology:Case Study,Promising and Challenging[C]//IEEE International Conference on AI & Mobile Services. Honolulu:IEEE,2017:93-99.
[4]周耀林,朱倩.大数据时代我国数字档案馆的建设与发展[J].信息资源管理学报,2015(2): 108-113.
[5]于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2):4-8.
[6]陶水龙.大数据视野下档案信息化建设的新思考[J].档案学研究,2017(3):93-99.
[7]王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究[J].浙江档案,2013(10): 14-19.
[8]Lee C. Computer-Assisted Appraisal and Selection of Archival Materials[C]// IEEE International Conference on Big Data(Big Data).IEEE,2018:2721-2724.
[9]Post C,Chassanoff A,Lee C,et al.Digital Curation at Work: Modeling Workflows for Digital Archival Materials[C]//Proceedings of the 19th ACM/IEEE Joint Conference on Digital Libraries(JCDL). New York:IEEE,2019:39-48.
[11]LEMIEUX V L.A typology of blockchain recordkeeping solutions and some reflections on their implications for the future of archival preservation[C/OL].[2020-08-12].https: //www. researchgate.net/publication/322511343.