陶玉芳/上海大学图书情报档案系
互联网的诞生和发展改变了人们的生活方式,也改变了文件形成、传播、整理、保管、利用的形式。文件中的信息大多会以文本、图像、视频、音频等的数字化形式在互联网空间中留存下来,如何对数字化档案进行有效的管理成了档案学研究的热点话题。计算科学技术的迅速发展,使高效处理和分析大量的数据内容成为可能,这推动了档案数据化管理的发展。数据挖掘、可视化、人工智能等计算科学技术的发展以及其在档案工作领域中的应用,促成了档案学与计算科学的交叉学科“计算档案学”(Computational Archival Science,CAS)的诞生。
计算思维是运用计算机科学的思维方式和基础概念进行问题解答、系统设计,像计算机科学家一样思考问题、理解问题、解决问题等一系列涵盖计算机科学的思维活动[1]。计算思维就是指能够创造性地利用计算机领域的方法和思想分析问题,建立问题解决过程的数学模型,然后通过编写程序和算法解决问题,并迁移运用的一种思维。计算思维是人们应用计算科学的原理、思想和方法解决问题中形成的一种普适性思维。后现代主义理论的盛行和计算机技术的发展应用,使得档案学研究和档案职业理论与实践重塑与变革。将计算科学的方法和工具应用于档案问题、从根本上将计算思维与档案实践相结合,为档案学研究提供了更大可能性。
2018年第三届计算档案学研讨会将计算档案学定义为:一个整合计算和档案理论、方法、资源的跨学科领域,既支持可靠和真实的记录/档案的产生和保存,又解决大规模的记录/档案的处理、分析、存储和获取,以期改善效率、生产率和精度,支持记录、鉴定、整理和描述,长期保存和获取决策,以及使用档案材料进行研究[2]。由概念可以看出,计算档案学是将计算理论、方法应用到档案管理中,以期实现档案的真实性、长期保存、档案大数据的分析和获取的目标。作为一个新的研究领域,计算档案学更加重视对数据本身的使用,但是对数据的强调只是起点,通过数据挖掘提升档案管理的效率以及保证档案的真实性和长期保存才是更重要的研究方向。
计算档案学虽然加上了一个“学”,但它并不是一门新的学科或新的理论,而是一个新的研究范式或一套新的研究方法。计算档案学是当代档案学借助计算机、互联网与人工智能技术等计算科学技术,对档案进行管理,并研究与解释档案及档案工作的一种新的范式或思维方式,其目的是要克服既有档案学研究方法的局限与不足,达到对档案学研究的真实认知与科学解释。
虽然计算档案学的概念提出较晚,但是计算技术、方法、资源在档案及档案工作中的应用在此之前就有了很长一段时间的探索,可以说计算档案学是在档案数据化管理发展和大数据时代档案学研究方法与范式变革的内外环境中产生的。
21世纪初,大数据、人工智能等新一代信息技术开始推动档案信息化向纵深发展,档案工作也开始从数字时代迈入数据时代。海量数字化档案数据的处理、分析和存储、长期保存和交流都需要计算科学技术的应用,档案数据化管理逐渐引起档案界的关注。档案信息化工作主要进行以纸质文件扫描、数字档案馆建设、数字档案利用服务为主的“数字化”档案管理实践,这些实践初步解决了由纸质到数字的载体转换、数据存储和方便利用等问题,但是对档案信息内容深度挖掘并充分实现档案的价值却还存在一定的困难,档案管理迫切需要从“数字化”向“数据化”演进[3]。大数据时代的档案数据有着数量大,类型多、来源多样化、价值密度低、增长速度快以及数据真实性的特征,纸质时代档案管理的方法及理念已经无法实现对档案数据的有效管理,而计算技术的应用为档案数据化管理提供了新的途径。以数据为基础,以计算为手段的计算档案学为高效推动计算技术应用于档案领域提供了有力理论依据,从而能着手开展对数据化档案管理的深度探索,解决档案管理中存在的真实性、长期保存、数据管理与分析、个性化服务等问题。
在电子文件时代,档案研究得以从经验为主的思辨范式向实证研究转变,研究方法也从定性描述和理论思辨转向定性与定量结合分析。计算档案学的诞生响应档案学研究发展的需求,为档案领域的研究提供了有力的新工具与方法,帮助研究者获得对档案管理和认知规律更深刻的理解。新技术应用在不断增加档案管理体系复杂性的同时,也为认识和理解这种复杂性提供了新的工具和方法,新一代计算科学技术与档案理论相融合,带来了基于数据科学的档案研究范式转变。计算档案学以计算为核心方法的研究,以新兴的研究方法适应新的档案环境,不仅体现在其数据工具和分析方法的变革,更体现在方法论层次的变革;不仅是一种使用海量数据的现象和采用各种算法作为分析工具的趋势,更是探讨档案管理过程与问题的新理论、新方法乃至新范式。
计算档案学对其研究者提出了方法论和思维转换融合的挑战。随着数字记录的进步和日益复杂信息系统的性质,能否达到对数字档案的形成、处理、长期保存、可获取、真实性保管的目的,取决于更深入和更综合的档案理论、原理和方法与计算科学理论的融合。这两个领域都不能单独达到这个要求:没有计算机科学的档案科学,缺乏必要的技术支持和有效的档案数据,同时没有档案科学的计算机科学缺乏产生值得信赖的记忆和证据所需的数据。计算档案学需要研究者了解档案数据特征和计算科学研究工具,分析各种计算方法、工具的应用性及局限性,结合档案专业的特征,做出合理的分析应用。
计算档案科学(Computational Archival Science,CAS)概念是在2016年4月在马里兰大学(University of Maryland,College Park)召开的主题为寻找新知识:大数据时代的档案记录的CAS座谈会上正式提出的[4],这开启了对计算档案学的研究。2016年至2019年连续召开四届计算档案学研讨会,对计算档案学的概念、计算科学技术、方法应用于具体档案管理等方面进行了探讨。目前关于计算档案学的研究主要包括以下几个方面:
一是探讨计算档案学可能性以及定义计算档案学的概念。Nathaniel Payn[5]通过对档案学、信息学、计算科学的分析,依据之前对计算档案学的认识,将计算档案学定义为“基于档案学、信息学和计算科学的跨学科领域,包括计算技术方法和数据资源、设计模式、社会技术构造和人机交互,并将其应用于海量数据记录或档案(大数据)的处理、分析、存储、长期保存和访问,目的是改善和优化效率、真实性、可信任性、来源、生产率、计算过程、信息结构和设计、精度和人类技术交互,以支持获取、鉴定、整理和描述、保存、交流、传输、分析和访问决策”,并提出计算档案学未来研究重点:机器学习和预测研究;自然语言理解研究;高性能计算研究;人机交互研究;分布式账本研究(包括区块链技术);信息累积、存储、搜索和发现研究;神经生物学,尤其是人脑如何处理信息的研究;支持计算档案学的有关系统设计;将计算档案学与特定领域结合研究,如运输与网络、金融服务与银行、自然资源与地球物理学、新闻学等。William Underwood、David Weintrop等人通过分析档案学研究生课程的内容以及其中包含的计算思维和计算方法,试图开发系列计算思维课程计算,将其纳入档案学科教学的教学大纲中[6]。Michael Kurtz、Daina Bouquin等人讨论了档案教育工作者之间进行合作并共享计算技术、策略和工具以发展和提高学生在学术和专业教育中的计算技能的可能性[7]。
二是计算方法与技术在档案实践中的应用。欧洲大屠杀研究基础设施项目(European Holocaust Research Infrastructure,EHRI)通过开发新的数字工具连接分散的信息资源,建立新平台,使用诸如文本挖掘、关系挖掘、可视化等高级计算技术处理大量的有关大屠杀档案材料,提供一个在线空间,用户可以在其中自由访问和下载工具和工作流程,以便于分析档案文件和展示自己的内容[8]。Nathaniel Payne、Jason R. Baron分析自动分类的方法并探讨其可行性来设计自动分类系统,研究有关数字档案的自动化分类方法的问题[9]。Pascal Dugenie、Nuno Freire、Daan Broeder运用集成计算服务、大数据技术研究植物标本图像的数字化保存和分析,以及如何从自然和文化遗产领域的分布式科学语料库中构建新知识[10]。Ji-Ping Lin介绍了有关台湾原住民开放研究数据的内容,利用档案关联、地理编码和高性能内存计算技术来构建台湾原住民不同维度的人口统计和发展的研究数据,并将计算方法、技术应用到档案数据收集、清理、清洗、处理、探索和丰富数字记录中[11]。William Underwood、Richard Marciano、Sandra Laib以及美国马兰里大学信息研究学院团队介绍了第二次世界大战日裔美国人集中营记录的索引卡的语言分析,以及如何使用插件和扩展提取相关内容的元数据[12]。Todd Goodall、Maria Esteva、Sandra Sweat和Alan C. Bovik使用自动视频质量评估算法(Video Quality Assessment,VQA)来判定数字视频集合的质量,将计算模型应用于视频鉴定和保存,并推进了数字视频档案的管理[13]。Bethany G. Anderson、Christopher J. Prom、Kevin Hamilton、James A. Hutchinson使用算法揭示档案材料中的知识背景,并基于机器学习算法的计算方法从数字化文本中生成一份档案网络和实体关系图,以寻求访问档案资料的途径,使人文学者能够更好地理解控制论思想的发展,并使科学家和工程师能重复利用和获取控制论数据[14]。Richard Marciano、William Underwood等通过第二次世界大战集中营中个人身份信息自动检测的案例,讨论了九种计算思维如何应用于档案管理实践中,这九种计算思维包括创建数据、处理数据、分析数据、可视化数据、设计计算模型、建立数据计算模型、计算机编程、开发模块化计算解决方案、系统故障排除和调试[15]。Hoda Hamouda、Jessica Bushey、Victoria Lemieux等将档案学和计算科学结合起来,从档案文献学的角度设计出一个分析框架来检测和分类假视频,包括三个阶段:对假视频进行分类以便对其进行命名;构造一个检测假视频的模型;依此模型建立解决方案以保证视频不被“伪造”或篡改。其对假视频的辨别不仅仅是依赖于对视频内容、作者的动机的分析,而是将其扩展到对视频元数据以及形成背景的分析[16]。
三是计算档案学研究中涉及的伦理问题。Lyneise Williams在艺术史和物质文化研究中,通过分析报纸对巴拿马次中量级拳击冠军选手Alfonso Brown的描述,证明了对数字化再生技术的掌握不足会在历史记录中导致已经被边缘化的有色群体,和其他代表性不足的人群的认识的消除和扭曲[17]。网络信息存档有助于构建一代人的集体记忆,然而以被遗忘权为代表的个人数据保护权利体系在一定程度上对网络信息存档造成了限制。为了在集体记忆与个人遗忘之间取得平衡,网络信息存档机构需要采用更具适应性的个人数据保护规则,坚持“通过设计保护隐私”原则的同时,提升对被遗忘权的审查能力,形成与数据主体、数据性质、数据来源有关的评估标准[18]。
由以上综述可以看出,对计算档案学的研究内容大多注重在计算技术、方法、资源应用于档案管理中,但是其中还有较多的内容缺乏与局限性。一是停留在对计算档案学概念的探讨,对该领域计算思维与档案学思维的深度融合的探讨程度还较为浅显;二是虽然已经有人对计算档案学的知识体系进行了探讨,但并没有具体的学科知识框架结构,还需进一步的研究;三是计算档案学的发展不免引起一系列担忧,数据化往往会放大传统档案学研究中所面临的伦理问题,以及催生了一些新伦理问题,如隐私权问题、个人数据权利问题、电子文件时代档案公布权设置合理性问题、算法歧视问题等,这些都需要进一步的研究。
计算档案学作为一门新的领域,急需开展理论研究,对实践经验进行系统化总结沉淀、反思与分析,提炼抽象出学科的基础理论,为学科发展提供必要的知识框架,并指导行业发展方向,制定技术应用的规范与标准。计算档案学具有跨学科的综合属性,形成了独特的融合数据科学技术与档案学的研究内容。计算档案学的知识框架需要在研究档案管理问题的基础上,从档案的角度,以计算为核心方法解决档案的真实性,以及档案大数据的分析、整理、鉴定、长期保存和获取等问题。档案领域的独特性对数据科学技术应用提出了新的要求,建立计算档案学跨学科的知识结构需要针对性地研究适合档案管理需求的理论框架、技术手段和研究方法。计算档案学是正在不断发展的学科,更需要对丰富的实践经验进行系统性、理论化研究,抽象成规律和规范,不断凝练学科的核心概念与内涵,建立学科的理论体系,规范学科的研究与实践,指导学科的健康发展。
计算档案学涉及数据科学、档案学等多个领域,因而计算档案学的知识框架的构建需要梳理各个不同理论体系之间的关系,围绕档案的核心,建立具有内部一致性和体系化的理论框架。理论框架的纵向构建需要阐述计算档案学的历史发展,横向框架则需以计算科学、人工智能、档案学等学科交叉融合作为理论基础,构建学科多元一致的理论框架,以达成对档案现象和规律的本质认识,更好地为社会实践服务。同时,还需要不断建构计算档案学研究的理论基础、实践规范以及对操作化的具体解读,综合应用多种研究方法推动档案领域数据化革命。其中,计算档案学需要综合利用各种数据,不仅仅是大数据,也包含小数据,应用计算方法和资源获得对档案领域更深刻、更清晰的认识;在研究方法层面注重与其他研究方法和思辨方法的融合,以支持档案学研究转向多维度的分析。
面对技术发展趋势和社会实践需求,将计算科学技术方法、思维应用到档案管理实践中,解决档案管理的实际问题也是目前计算档案学应关注的主要内容。宏观层面,大数据环境下,应结合数据科学技术发展的特点和档案发展的需求,构建档案大数据战略规划、档案职业发展规划等顶层设计方面的研究。全国档案“十三五”规划纲要中指出需要构建智慧档案馆建设蓝图,关注电子文件管理发展,试行电子文件单轨制,超越小数据管理探索大数据档案管理,走向档案数据开放[19]。
微观层面,应针对档案管理工作的具体内容开展研究,包括将数据科学技术应用到档案资源建设、档案利用服务、档案信息开发、档案信息保全以及专门档案管理等方面,开发数字工具建立档案信息资源库,利用文本挖掘、关系挖掘、可视化等对档案信息资源进行开发利用。如在档案编研中融入数字人文理念,从三个层面将两者深入融合:在信息收集层面,引入布拉德福定律以及引文分析辅助获取档案信息资源;在信息分析层面,引入文本挖掘技术深入分析潜在的内容;在信息表示层面,借助词表、本体、可视化工具等对编研成果进行再加工和可视化展示[20]。
一是发挥学术共同体作用,推进学会建立和发展。学术共同体是学科发展的产物,影响着学科的发展。学术共同体是指专门研究某一领域学者群体,他们拥有共同的价值观念、学科发展信念,对于该领域的理论、规律、实践都有一致性认识。在当代,专业性的学会组织是使促进学术共同体发展的重要力量。为推动计算档案学的长足发展,需要积极推动计算档案学学会的成立,并在学会的组织下定期召开国内和国际学术研讨会,创办专业期刊。由于不同的学科领域长久以来独立发展,拥有独立的学术规范、语言体系和研究实践系统,往往会造成跨领域研究与合作困难。计算档案学的发展需要研究者们打破学科的壁垒,共同推动对计算档案学基本问题的研究并形成共识。二是依托学历体系建立人才培养计划。计算档案学的发展对档案学专业人员掌握的技能要求更高。目前国内档案学的教育和科研培养对档案专业的学生要求比较宽泛,更偏向于档案专业知识教学,过于单一化,这使得学生对于其他领域的知识认知较为单一,专业技术的应用得不到有效开拓和发展[21]。计算档案学的跨领域特征对研究者综合能力要求较高,不仅要求其要拥有档案学的专业知识,还要求掌握相关的数据科学技术如数据检索、数据清洗、数据整合、数据挖掘、数据建模、数据可视化等,并培养其计算思维。在大学或研究机构建立独立的学系,吸引一批研究者从事计算档案学的研究,可以为计算档案学提供职业化发展支持。三是建立产学研一体化平台,凝聚社会各界力量促进计算档案学研究与实践的同步发展。通过搭建产学研一体化平台,建立平衡计算档案学理论与实践研究的生态体系,培养计算档案学领域人才,促进计算档案学研究与应用的同步发展。
随着大规模档案数据集的出现以及数据化档案管理能力的提高,计算档案学的出现有其必然性。相对于传统的档案学研究,计算档案学为我们理解档案现象及其规律提供了新的途径和方式,但是计算档案学并非要取代传统的档案学,两者关系并非相互对立。传统档案学研究将会继续存在下去,但在不断完善和发展过程中,两者会逐渐扩散融合,为档案学的发展带来更大的机遇。