摘 要:云南藏文历史档案是保护、传承和传播藏族历史文化的重要史料,对其进行资源整合有很高历史价值与现实意义。文章提出进行数字人文视域下云南藏文历史档案资源整合,分析整合的已有成效和滞后问题,阐述整合的理论和政策依据,梳理古籍档案、金石档案、文书档案、口述史料等整合的资源基础,并从提高整合定位、强化整合基础、明确整合模式、重构整合方式、革新整合技术等五方面论证整合路径,以此实现云南藏文历史档案资源优化整合。通过上述整合,推进云南藏文历史档案资源的体系化建设,促使云南藏文历史档案的有效保护、科学管理和资源共建共享。
关键词:资源整合;云南藏文历史档案;数字人文;档案资源;知识重组;人工智能
2020年8月,习近平总书记在中央第七次西藏工作座谈会上强调:“要挖掘、整理、宣传西藏自古以来各民族交往交流交融的历史事实,引导各族群众深刻认识到中华民族是命运共同体,促进各民族交往交流交融。”[1]云南藏文历史档案是1949年以前以藏文形式形成的反映云南藏族地区历史的原始记录,其记载了滇藏地区特别是迪庆藏族自治州的历史、政治、经济、军事、天文、历法、医药、教育、文艺、哲学、伦理、宗教、民俗等各方面情况,是囊括文字、图画、声像、实物等各种形式的具有保存价值的原始历史记录。
目前,学界对云南藏文历史档案的特点价值、收集整理、开发利用等进行过一些探讨,但未涉及云南藏文历史档案资源整合问题。如陶芳等以典型实例介绍迪庆清代藏文档案,认为其反映了清王朝对迪庆藏区的实际管理,揭示了汉藏交流的特征[2];李燕兰等介绍迪庆州所存的藏文典籍与档案史料现状,提出相应的抢救保护策略[3];郑荃等运用民族档案学理论探讨云南藏文历史档案的分布现状,阐述其整理成绩与存在的问题,提出开发利用建议。[4]而且,云南藏文历史档案资源保存分散,除国家综合档案馆外,大量古籍档案、政教档案、金石档案、口述史料等保存在不同主体中,资源共建稀见,资源共享缺失,导致资源获取困难,利用范围狭窄,开发比率不高,严重影响了云南藏文历史档案资源的体系化构建及其信息资源的整体性发掘利用。
鉴于上述云南藏文历史档案资源的重要价值、研究空白及存在的问题,本文利用数字人文的理念、方法和技术,将分散、异构的云南藏文历史档案资源进行有序组织和深层优化,形成有效的知识单元或知识集合,为用户提供智慧化的知识服务,具体从整合的现状、整合的基础、整合的路径3个方面,探讨数字人文视域下云南藏文历史档案资源整合问题,以期促进资源的优化整合,推进云南藏族历史文化更大范围、更深层次的传播与共享。
1 云南藏文历史档案资源整合的现状
1.1 云南藏文历史档案资源整合已有成效。现有云南藏文历史档案资源整合的成效主要体现为迪庆藏族自治州档案、文化、社科、民族宗教等部门开展的藏文历史档案搜集、整理和编纂工作,具体如下。
(1)云南藏文历史档案搜集整理工作。云南藏文历史档案的搜集整理工作可划分为两个阶段:第一阶段,20世纪50年代至80年代,迪庆州开展了藏文历史档案初步收集整理。例如,1955年11月中甸县成立“敌伪档案清理小组”,立卷36卷;1956年9月中甸县清理民国11个单位历史档案,移交县公安局管理;1983年5月中甸县档案馆从县公安局接收历史档案65卷(包);1988年8月中甸县县志办整理立卷历史档案37卷;1987年8月—1990年中甸县档案馆与县志办赴云南省档案馆查阅复制历史档案,立卷229卷。第二阶段,20世纪90年代至今,迪庆州进行了一定规模的藏文历史档案搜集整理工作。例如,1990年迪庆州档案局和州志办组织三县(市)史志办和档案馆24人,至云南省档案馆查阅复制三县(市)民国档案共计600余卷;1992年5月—7月迪庆州州志办与档案馆共同赴康巴地区进行历史档案资料调查,共搜集到100余万字材料;1993年10月—11月迪庆州史志办前往三县(市)的乡、镇、村实地考察,搜集了大量藏族口述史料;2007年底云南省社科院迪庆州《格萨尔》研究室搜集整理了手抄本《松岭大战》《门岭大战》《姜岭大战》《霍岭大战》等30余部的《格萨尔》经典,等等。515e96b204055d4a62f3cd463cbfdc87c31b89a7862272c016e7a11c76e685d3
(2)云南藏文历史档案编纂工作。其一,迪庆州对遗存的部分藏文历史档案进行整理、翻译和编纂,并由云南民族出版社2003年出版了《中甸藏文历史档案资料汇编》一书。该书为滇藏地区藏文历史档案的首次发掘、整理和译注,收录藏文历史档案共计66份。其中,56份为清代康熙十三年(1674)至宣统二年(1910)间历史资料,包括清代中甸地区政教领袖所颁执照、各机构往来公文、土地房屋买卖契约、各类公约协议等;7份为民国五年(1916)至民国三十八年(1949)间档案,记述了中甸地区的兵务兵食、佛寺修缮、匪患处理、土地买卖、僧侣管理等情况;3份为1950年至1958年在中甸地区政治军事活动相关史料。此书真实记录和反映了清代至中华人民共和国成立初期云南藏区的历史面貌,打破了迪庆高原缺乏丰富历史记录的既定偏见,推动了各界对云南藏区历史文化的关心关注。其二,迪庆州州政府和中国藏学研究中心合作编纂了《云南省迪庆藏族自治州所存西藏和藏事档案史料目录》一书,该书由中国藏学出版社2002年出版,为《藏学档案史料目录丛书》构成部分。此书收录清代乾隆三年(1738)至民国三十八年(1949)云南涉藏档案条目共计11308条,其条目按档案文献的形成时间编排,并附有分类索引,便于读者检索查用,反映了西藏和迪庆地区从清代至民国的政治、经济、军事、民政、司法、警务治安、民族事务、宗教事务、文教卫生、涉外事务等多方面情况,是研究云南藏区历史发展不可多得的珍贵原始史料。
1.2 云南藏文历史档案资源整合滞后问题
(1)资源保存分散问题。目前,云南藏文历史档案资源保存分散(见表1),具体表现为:
第一,大部分云南藏文历史档案资源保存在迪庆州20余个佛教寺院、迪庆州文化局、迪庆州档案馆、德钦县公安局、德钦县档案馆、维西县档案馆和香格里拉市档案馆、迪庆州藏学研究所、云南省民族宗教管理事务委员会、云南省内其他州市相关机构之中,具有跨地域、跨部门、跨机构保存的明显特点。
第二,部分云南藏文历史档案资源散存民间,未进行集中收集和管理。如:藏族英雄史诗《格萨尔》尚有20余个版本流传于迪庆州民间,统一收集难度较大;部分藏文石碑、石刻、壁画等不可移动档案资源散存在云南偏僻山村,档案化处理十分不易。资源保存分散的特点破坏了云南藏文历史档案间的有机联系,导致资源在集中保护和共建共享上面临困境,不利于资源的体系化整合与发掘利用。
(2)合作机制缺乏问题。一是主管部门之间壁垒重重。云南藏文历史档案保藏机构分属档案、文化、社科、民族宗教等不同行政主管部门,各部门有独立的管理体系与管理模式,服务架构与体系标准均不一致。二是保藏机构之间缺乏协作。云南藏文历史档案资源分散保存在佛寺、档案馆、图书馆、文化馆、史志办、民委等各类机构中,档案分类管理办法与保管保护流程各不相同,例如,档案馆根据民族类别建立档案全宗、图书馆按照四部分类法管理历史文献、博物馆按照文献年代和材质进行史料保管。
(3)整合方式陈旧问题。一是整合方法传统。传统云南藏文历史档案资源整合以档案的搜集、整理和编纂为主要方法,多为档案实物整合或纸质文献数字化整合,仅能收录部分机构所藏,难以形成云南藏文历史档案知识体系,无法提供全面、深层、便捷的档案知识服务。二是平台建设滞后。除云南省档案馆之外,多数云南藏文历史档案资源保藏机构未建立独立门户网站,不利于地方特色档案资源的宣传和推介;多数保藏机构未建立藏文历史档案特色资源库,少量与之相关的档案资源库存在技术陈旧落后、资源关联不强、服务模式单一等缺陷;云南省相关部门和机构尚未提出通过档案显性知识与隐性知识的二次组织与三次组织,构建起统一的云南藏文历史档案知识服务系统,其平台建设的理念、实践均较为滞后。
(4)整合技术制约问题。一是整合工具亟待升级。目前云南藏文历史档案资源整合以人力资源而非信息技术为主要工具,其整合技术工具需要跨越式变革与迭代;由于软件开发机构对档案内容的识别、理解及处理方式不同,目前的藏文文字处理软件、藏文操作系统等基础性整合工具存在数据难以读取、文本互不兼容、所录文字乱码等问题,数字化工具需要更高阶的升级。二是数字人文技术亟须引入。目前云南藏文历史档案资源整合尚未引入和运用基于数据管理、数据分析、可视化、机器学习、VR/AR等技术的数字人文方法。
2 数字人文视域下云南藏文历史档案资源整合的基础
2.1 理论和政策依据
(1)理论支撑。其一,数字人文理论。“数字人文”目前尚未有统一定义,本文采用英国剑桥大学艺术、社会科学和人文学科研究中心学者Katy Barrett提出概念:数字人文,指利用计算机技术处理和分析传统人文研究资料,并将人文学科方法论和计算机工具相结合进行的人文研究[5]。
数字人文理论对云南藏文历史档案资源整合的指导意义在于:一是通过“数字技术+档案资源”的基本模式,实现数字仓储、内容分析、文本挖掘、信息可视化、虚拟现实、多媒体出版等方面的资源共建共享,完成资源深层次整合;二是有效整合不同地区、不同机构的云南藏文历史档案资源,形成人文学者和数据科学家多机构、多学科跨界合作、协同创新的全新资源共建共享模式。
其二,民族档案多元性理论。云南大学学者华林提出民族档案多元性理论,认为民族档案归属于民族文化遗产,具有民族文献、档案、古籍、文物、史料等多元属性,档案馆、图书馆、博物馆、文化馆、民委古籍办等各类相关机构均为民族档案集中保护与资源建设的主体。[6]民族档案多元性理论的应用意义为:一是在该理论框架下,藏文古籍是历史文献,藏文石碑、石刻、摩崖等是文物,藏文口述史料是史料,都具有原始性、价值性,均可纳入藏文历史档案概念的外延,并在该理论指导下进行资源优化整合;二是在该理论指导下,档案馆之外的佛寺、图书馆、博物馆、文化馆、民委古籍办、民族研究所、史志办等机构,都可成为云南藏文历史档案资源整合的工作主体,协同构建整合的机构体系。
其三,文献资源共建共享理论。文献资源共建共享理论是从宏观规划、协作,各文献信息机构协调和分工进行馆藏建设,在此基础上开展文献资源的共享服务工作。[7]
(2)政策支持。其一,国家方针层面。2016年7月,《国家信息化发展战略纲要》强调:“加快文化资源数字化建设……整合公共文化资源,构建公共文化服务体系,提升信息服务水平。”[8]2021年12月,《“十四五”国家信息化规划》提出“要实施文化产业数字化战略,发展基于5G、超高清、增强现实、虚拟现实、人工智能等技术的新一代沉浸式体验文化产品服务,积极利用线上平台展示中国文化”。[9]其二,档案政策层面。2020年2月,国家档案局局长陆国强提出:“省区市要加强本地区档案信息资源共享平台建设,尽快实现区域内各级综合档案馆互联互通,推动共享平台向各单位延伸。”[10]2020年6月,新颁《中华人民共和国档案法》强调:“各级人民政府应当将档案信息化纳入信息化发展规划……档案馆和机关、团体、企业事业单位以及其他组织应当加强档案信息化建设……国家推进档案信息资源共享服务平台建设,推动档案数字资源跨区域、跨部门共享利用。”[11]
上述两个层面的方针政策涉及我国档案信息化建设的目标、策略和实施,为云南藏文历史档案资源整合提供了政策保障和工作指导。
2.2 资源基础
(1)古籍档案。其一,格鲁派古籍。该教派古籍最多保藏在滇西北最大的藏传佛教寺院松赞林寺中,主要包括:一是经典古籍,如《甘珠尔》《丹珠儿》《般若十万颂》《三师徒文集》《五世达赖文集》《班禅文集》《七世达赖文集》《俄世瓦大师文集》《章嘉阿旺曲丹文集》《曲桑喇嘛文集》《帕翁喀巴文集》《土观宗派源流》《五部大论》等;二是礼赞祈愿文,如《皈依颂》《释迦牟尼赞》《兜率天上师瑜伽法》《上师供养法》《无量寿佛赞》《药师佛赞》《尊胜母赞》《二十一尊圣救母礼赞》《忏悔文》《心经》等;三是常诵明咒,如《长寿三尊咒》《三怙主咒》《文殊菩萨誓愿咒》《财神咒》《释迦牟尼佛心咒》《药师佛心咒》《妙音佛母咒》《往生极乐世界咒》《空行母咒》《金刚界佛咒》等。[12]其二,噶举派古籍。该教派古籍大量保存在德钦县云仙寺,主要包括:一为经典古籍,如《甘珠尔》《丹珠儿》《般若十万颂》《般若八千颂》《入行论注疏》《司徒文法大疏》《噶举咒库》《米拉日巴传及道歌》《解脱庄严论》《纳若六法》等;二为念诵仪轨,包含各教派共有念诵经典、该教派独有经典《法行明》《金刚亥母颂》《怙主白那坚》《玛哈玛亚仪轨》《噶玛都松钦巴愿文》《胜乐金刚》《幻化精义》等。[13]其三,宁玛派古籍。该教派古籍主要保存在香格里拉市云登寺和德钦县英主顶寺中,主要包括:一是各教派共同经典,如《大藏经》《般若颂》《五部大论》《入行论》《皈依颂》《度母颂》《释迦牟尼赞》《无量寿佛赞》《药师佛赞》《心经》等;二是宁玛派独有经典,如《莲花生大师传》《五部遗教》《隆钦绕绛巴文集》《悟境精义》《隆钦七藏》《四部医典》等。[14]其四,民间散存古籍。云南省香格里拉、德钦、维西、宁蒗永宁、贡山丙中洛等地散存有少量古籍抄本、写本及民众供奉经典等,如《创世之歌》《藏医精要》《医学四续除暗明鉴》《汉岭传奇》《般若颂》等。[15]
(2)金石档案。其一,石碑。代表性的有圣旨碑和格子石碑。①圣旨碑,指立于明朝天顺五年(1461)的《法王皇帝圣旨碑》,原矗立于云南省迪庆州德钦县卡瓦格博雪山,其碑文为藏文楷书,200余字,阴文,并镌刻着“圣称四川左布政之印”汉文印迹,该碑反映了明朝优待噶举派的态度和噶举派、萨迦派、格鲁派的宗教情况。[16]②格子石碑,1992年发现于云南省丽江市巨甸格子村,现收藏于丽江博物馆。该石碑由藏文碑文、臣服图、碑饰和动物图案四部分构成。其中,藏文碑文共5行60字,记载了龙腊塔部落臣属于吐蕃的历史事件;臣服图表现了吐蕃大臣接受归顺者龙腊塔及其随从进贡的场景;碑饰花边呈水波状和山形,装饰着碑顶;动物图案刻有代表大唐的二龙戏珠和代表吐蕃、南诏、龙腊塔的巨狮、战马和老虎。[17]其二,摩崖石刻。云南藏文摩崖石刻数量丰富,代表性的有:①茂定河口藏文摩崖石刻群。位于德钦县茂定河电站机房附近,分布在羊拉公路两边,主体是数量众多的玛尼石刻,所刻写藏文大小不一,内容基本都为“六字真言”。②丹达河藏文摩崖石刻群。位于海拔2536米的德钦县丹达河桥东岸,主体是崖壁上刻满的蚕豆大的藏文经咒,内容与佛教神鬼传说有关。③扎达茸摩崖石刻。位于德钦县,在一块长50余米、高约30米的岩壁上铭刻着23组佛像及藏文玛尼咒文。④春读藏文摩崖。位于香格里拉市五境乡仓觉村春读小组春大桥右边200米处,所刻藏文细小难辨,题写内容未经翻译,但可推断出其与祖师洞、参巴寺等有一定历史渊源。
(3)文书档案。其一,档案馆馆藏档案。一是迪庆州档案馆馆藏。该馆有一个全宗的历史档案复制卷,共438卷,长8.7米,为民国元年(1911)至民国三十八年(1949)的历史档案和新中国成立初期档案,[18]其中很大一部分为藏文档案。二是迪庆州下属的德钦、维西、香格里拉三县(市)档案馆馆藏。三馆共有三个全宗的历史档案,共176卷,长5.75米,内容涉及清代咸丰九年(1859)至民国三十八年(1949)年迪庆地区的田赋、党务、政务、禁烟、财政、教育、土地清丈、户籍、土司械斗、教会等情况,[19]藏文档案占一定比例。其二,佛寺政教档案。指1949年以前在佛寺政治宗教活动中形成的具有保存价值的原始记录。十年动乱期间,云南藏文政教档案几乎悉数被毁,仅在捣毁香格里拉归化寺时,就烧毁经书9800多部、照片2700余张、画像730幅,档案散失情况严重,[20]但部分旨谕、公文等档案文献得以留存,例如香格里拉松赞林寺保藏的藏文唐卡《达赖喇嘛之白杂达拉教言成为多康与北方执政者窝居托执教八吐台吉之指令》,为五世达赖给多康六岗地区下达的一份旨谕,记载了该地区民众、僧人的特权及义务,反映了西藏政教领袖对迪庆地区的政治与思想统治,又如《驻建塘新政长官颁给驻军公文一件》《红坡噶丹羊八景如意宝瓶底簿序》《七世达赖颁给建塘土司松杰的执照》等公文,详备记述了五世达赖奉康熙皇帝命令平息嘉夏寺僧人及土司叛乱的过程,反映出清中央政府对云南藏区的领导力和影响力。
(4)口述史料。以藏族民歌口述史料为例,藏族民歌以诗、歌、舞三位一体,以热巴音乐、弦子音乐、锅庄音乐、情舞音乐等作为构成主体,主要分为史诗、歌曲歌谣、乐曲三类。
藏族史诗主要指《格萨尔》,其为藏族民间英雄史诗,形成于10世纪至13世纪,在民间流传至今已达到100多部。此史诗主要由民间艺人口头传承,融合了诗词、歌谣、谚语等多种形式,内容涉及藏族历史、社会形态、道德伦理、民俗民风等各方面情况。
藏族民间歌曲歌谣,如:《德钦县藏族民间歌谣》,收录流传于德钦县的藏族民间歌谣346首;《德钦藏族民间歌曲选》,收编德钦县藏族民间歌曲177首,歌词为汉藏文对照版;《妙语欢歌》,汇编了长歌、锅庄、弦子、情卦、山歌等藏文歌曲歌词;《迪庆藏族民歌选》,收录流传于迪庆的弦子63首、情卦296首、锅庄6类、鲁体山歌100首、新歌谣3首等,总计3133诗行。
寺院乐曲,如格鲁派曲目《共安》、萨迦派曲目《腾且嗦嘎》、宁玛派曲目《绒青》等。
3 数字人文视域下云南藏文历史档案资源整合的思路路径
总体思路为:在数字人文理念和方法指导下,以相关的理论、政策及资源现状为支撑,以知识服务为目的,以资源建设为基础,以跨界合作为模式,以知识重组为方式,以新型数字技术为工具,开展云南藏文历史档案资源的优化整合,具体路径见图1。
3.1 提高整合定位:从文献服务到知识服务。目前,云南藏文历史档案资源整合以提供文献服务为主要定位,而数字人文可实现档案资源与用户的需求对接、资源关联及服务匹配,提供从文献服务到知识服务的全新视角与思路。
第一,以知识服务为目的。云南藏文历史档案资源整合应以建设满足多样化个性化用户需求为导向的数据基础设施为目标[21-23],抽象出档案知识层面的内容,通过知识挖掘串联出云南藏区的历史脉络,再经由一站式档案资源整合平台,开展以用户为中心的知识服务,实现云南藏文历史档案资源的优化整合。
第二,以用户需求为导向。需求导向的重点是为人文研究提供大规模高质量的数据、科学的研究方法和辅助研究的工具支持。[24-27]同时,分析和掌握用户需求,将档案资源、信息技术、用户需求进行三位一体综合考量,通过跨界合作、知识重组和技术应用,提供高质量服务。
综上,资源整合的定位为:针对用户需求,通过跨界合作和技术手段重组档案资源,构建一站式云南藏文历史档案知识服务平台,为用户提供更深层次的知识服务。
3.2 强化整合基础:强化资源整合。鉴于云南藏文历史档案资源大量散存的现状,强化整合基础。
其一,进行云南藏文历史档案资源现状普查。由云南省政府主导,云南省档案局牵头,各主管部门合作,各保藏机构配合,集中人力、物力和财力进行云南藏文历史档案资源现状普查。
其二,构建云南藏文历史档案资源体系。依据云南藏文历史档案资源遗存现状和资源建设工作需求,对资源建设进行顶层设计和框架构建(见图2)。云南藏文历史档案资源体系分4个模块:一是古籍档案,包括格鲁派、噶举派、宁玛派等各佛教教派古籍和散存民间古籍;二是金石档案,涵盖石碑和摩崖石刻;三是文书档案,包括档案馆馆藏档案和佛寺政教档案;四是口述史料,涵盖藏族史诗、寺院乐曲、藏族民间歌曲歌谣等。
其三,进行云南藏文历史档案资源的多样化收集。一是全面收集和重点收集相结合。在全面收集基础上,重点收集藏文书札、手信、古籍、金石、口述史料等特殊档案。二是主动收集和社会收集相结合。通过接收、迁移、购买、复制、交换、代存等多种方式主动收集,并通过发布征集公告、开发在线征集平台、开放网站征集专题窗口等方式,鼓励民间力量捐赠云南藏文历史档案。三是实体收集和数字收集相结合。通过在资源整合平台开发专门的数据接口,鼓励民间收藏者上传分享藏文历史档案资源。
3.3 明确整合模式:推进跨界合作。鉴于云南藏文历史档案资源保管分散且整合工作各自为政的现状,选择合适的合作模式进行跨界合作是资源整合的关键问题。笔者认为,云南藏文历史档案资源整合应坚持政府主导模式,发挥政府在资源整合中的政策指导、资源支持、统筹协调作用。
第一,明确各级权责。云南省政府负责制定档案资源整合规划与法规,厘清各部门、各机构权责,明确资源整合目标,拟定资源整合框架,建立资源整合运行机制;迪庆州政府负责协调保藏机构间的关系,根据资源整合的目标、特点和掣肘,制定资源整合的具体方案并督促执行;各保藏机构在省、州两级政府的指导与管理下,遵循相应的工作标准和工作流程,分工协作,推进云南藏文历史档案资源整合的具体工作。
第二,构建合作模式。云南藏文历史档案资源整合采取“政府主导+专题项目驱动”的合作模式进行(见图3)。
云南省政府提出、规划和领导档案资源整合专题项目;迪庆州政府制定资源整合专题项目方案并对项目进行协调和运作;各保藏机构基于数字人文方法进行跨界合作,推进专题项目的具体执行,过程中根据资源的特点及优势进行资源互补共享,最终完成档案资源整合专题项目。
3.4 重构整合方式:知识重组优化。数字人文视域下的档案资源整合重在创新知识重组方式,实现知识组织和优化。
(1)档案资源的数字化建设。目前,我国藏文档案资源数字化建设已取得一定成绩,如:2019年西藏完成近6000函古籍文献普查登记数据整理归档,建设完成近6TB藏文古籍文献数字化数据库[28];“十二五”期间,西藏自治区档案馆完成馆藏36.8万件历史档案、2.35万卷现行档案、1.2万张照片档案的数字化工作,各市(地)档案馆共完成了3314卷档案的数字化工作。[29]但是,目前在云南尚未进行规模化、系统化的藏文历史档案数字化工作,因此,下一步需构建数字化标准体系、研发藏文文字处理软件和藏文操作系统、推进数字化工作,形成有序、规范的云南藏文数字档案资源库。
(2)档案资源的数据化整合。云南藏文历史档案资源的数据化整合,指将已经数字化的档案资源转化为可识别、可计算、可分析、可理解的文本与数据,从而实现资源的机器可阅读、机器可计算和机器可理解,为下一步的知识化重组奠定优质数据基础。
首先,利用Open Refine等开源软件进行数据的清洗、加工和采集,生成规范的大规模二维表格数据,完成半结构化数据的结构化处理。
其次,针对词汇的显性与隐性语义知识,通过人工标注、机器学习的策略,进行数字化文本的分词、词性、命名实体和断句的自动标注,[30,31]完成云南藏文历史档案的文本标注。
再次,进行数据建模即知识本体构建,“本体”指形式化的、对共享概念体系明确而详细的说明,[32-35]而云南藏文历史档案资源知识本体构建,指基于通用资源标识(URI)和资源描述框架(RDF)进行云南藏文历史档案知识领域的模型构建,在此过程中须明晰云南藏文历史档案数据资源中可抽象出的概念有哪些,每个概念的特征是什么,概念之间存在哪些关系,并用专业术语表达出这些概念。
最后,在完成数据建模后,需不断修正模型,提升数据质量,得到一个涵盖云南藏文历史档案资源“人、时、地、物、事”等命名实体的档案语料库,以此实现机器的可阅读、可计算和可理解。
(3)档案资源的知识化重组。在云南藏文历史档案资源数字化、数据化基础上,进一步开展资源的知识组织关联化和知识增长自动化,以此实现机器可推理、机器可自主学习,最终完成云南藏文历史档案资源的知识化重组,具体需开展以下工作:
一是知识组织的关联化。即利用关联数据和知识图谱技术,在云南藏文历史档案资源蕴含的知识单元之间建立能够被机器理解的关联关系,让机器基于这种关联推理出新的知识。云南藏文历史档案知识单元之间的关联关系越多,越能促进机器可推理的实现,并能保证推理的准确性和广泛性。通过基于知识单元关联化的机器推理,用户可获得云南藏文历史档案知识领域的初步分析成果,减少研究前期简单、琐碎、重复的基础性工作。
二是知识增长的自动化。指引入机器学习方法实现云南藏文历史档案资源整合的人工智能化,其原理是基于深度学习等机器学习技术,在知识组织过程中借助机器自动智能地完成云南藏文历史档案知识增长。这一步骤使机器自动辅助人文研究成为可能,是人工智能技术在云南藏文历史档案整合领域的全新应用构想。
(4)档案资源的平台化呈现。数字人文视域下云南藏文历史档案资源整合的落脚点在于构建一个以云南藏文历史档案知识为主题,并以此为主体展开资源组织与描述,提供知识服务的大型历史人文数据库。该数据库是在资源数字化、数据化、知识化基础上,从数字人文“跨领域、大范围、大规模”特性出发,以云南藏文历史档案的资源、数据、知识为核心,以满足人文研究者多样性需求为导向,以具有操作扩展性和数据处理优势的非关系型数据库为工具,构建起的一个具备数据存储、知识检索、信息可视化、专题服务、社交化应用等多重功能的大型知识服务平台。
3.5 革新整合技术:应用人工智能。鉴于云南藏文历史档案资源整合存在各种技术制约的现状,以人工智能为发展方向的数字人文技术,带来了超越手工操作和传统数字化的全新技术工具。主要包括新型数字资源整合技术和人工智能相关技术。
3.5.1 新型数字资源整合技术。数字资源整合技术主要包括文本挖掘技术、关联数据技术、文本可视化技术。
文本挖掘技术。文本挖掘指从文本信息中抽取有价值的、潜在的及用户感兴趣的重要模式或知识的过程。应用文本挖掘技术,可以实现云南藏文历史档案文本的分类和聚类,形成知识关联,促进档案知识聚合。
关联数据技术。关联数据技术指在万维网上发布“任何有URI标识的资源”的一种方式,其不仅可以标识所有信息资源,而且可以通过RDF/XML编码进行元数据和其他非信息资源的数据描述,以此建起数据关联。应用该技术,可以串联起云南藏文历史档案中某一事件的人物、事物、时间、空间等要素,搭建一个相互连接的信息网络,并将其作为检索结果系统性地呈现给用户,提升云南藏文历史档案的可用性和用户体验感。
文本可视化技术。该技术从大量文本中提取一定的信息生成图形,用户通过可视化界面获取这些文本信息并快速理解文本的技术。[36-38]该技术可帮助工作人员快速找到云南藏文历史档案文本的主题词,梳理出与主题词相关的核心语句与段落,并分析词、句、段落之间的逻辑关系,揭示出不同文本间的相关性及历史联系,为档案知识服务奠定坚实基础。
3.5.262d4ad71802f8a9c16deaa1624913096 人工智能相关技术。一是机器学习技术。最重要的就是引入了基于神经网络的深度学习技术,这是一种借助机器智能化自动化完成知识增长的技术手段,它使机器自主学习知识成为一种可能,并能推动云南藏文历史档案资源自然语言处理、名称实体识别、自动标引、自动分类等领域的进步。二是AR/VR技术。AR即增强现实技术,VR即虚拟现实技术。区别于展览、纪录片、书籍等传统档案内容展示方式,AR/VR技术以实景体验式的强大视觉效果和听觉冲击,给用户带来对历史文化的沉浸式体验,具有很高的情感温度和用户参与度。
4 结语
本文阐释了数字人文视域下云南藏文历史档案资源整合的理论、政策和资源基础,论证整合的思路和实现路径。目前云南藏文历史档案资源整合领域还存在若干问题亟待研究者的深入探讨与解决。
法律法规层面上,云南省虽然出台了一些民族民间文化保护条例或档案工作条例,诸如《云南省民族民间传统文化保护条例》《云南省档案条例》等,但尚未出台专门针对云南藏文历史档案的法律、法规或条文,资源整合的法律法规保障欠缺。
标准层面上,目前我国出台了多项档案行业标准、文化行业标准、文物保护标准等,但因云南藏文历史档案资源具有多元属性,横跨不同行业,导致其资源整合的标准不明确、权责不清晰。
组织层面上,云南藏文历史档案资源整合的协同程度不高,亟待通过建立横向和纵向的合作机制,实现政策上、组织上和业务上的高度协作和规范运作。
技术层面上,云南藏文历史档案资源整合的信息化程度较低,数字技术的运用与发达地区差距较大,亟待引入全新的技术工具。
本文期冀通过上述探讨,推动更多研究力量进入云南藏文历史档案资源整合领域,促进云南藏族历史、文化和记忆的完整构建,推动云南藏族历史文化的保护、传承和共享,为我国藏族历史文化的发扬光大和云南边疆民族地区的科学治理提供文化助力。
本文受教育部重大招标项目“元明清时期中国边疆治理文献整理与数据库建设研究”(项目批准号:21JZD042)资助,是该项目的阶段性研究成果。
参考文献:
[1]习近平在中央第七次西藏工作座谈会上强调 全面贯彻新时代党的治藏方略 建设团结富裕文明和谐美丽的社会主义现代化新西藏[EB/OL].新华网:http://www.xinhuanet.com/politics/leaders/2020-08/29/c_1126428830.htm.
[2]陶芳,史卫云.感悟迪庆清代藏文档案[J].档案学研究,2009(05).
[3]李燕兰,李莉.迪庆少数民族档案史料的收集与抢救[J].云南档案,2003(05).
[4][20]郑荃,陈子丹.云南藏文历史档案及其开发利用[J].档案学通讯,2007(01).
[5]KATY BARRETT.From pamphlet to pixel:the humanities intransition[EB/OL].[2024-3-20]https://www.cam.ac.uk/research/discussion/from-pamphletto-pixel-the-humanities-in-transition.
[6]华林,刘大巧,许宏晔.西部散存民族档案文献遗产集中保护研究[J].档案学通讯,2014(05).
[7]肖珑.人文社会科学文献资源的共建共享与国家保障[J].图书情报工作,2010,54(11).
[8]中办 国办印发《国家信息化发展战略纲要》(全文)[EB/OL].央视网:http://news.cctv.com/2016/07/27/ARTI2inGuJovBM0jdxJnZKGh160727_3.shtml.
[9]“十四五”国家信息化规划[EB/OL].中华人民共和国中央人民政府:http://www.gov.cn/xinwen/2021-12/28/content_5664873.htm.
[10]在2020年全国档案局长馆长会议上的报告[EB/OL].中华人民共和国国家档案局:https://www.saac.gov.cn/daj/yaow/202101/2d00d00de2c54e9b87bd429843ba98b2.shtml.
[11]《中华人民共和国档案法》[EB/OL].中华人民共和国国家档案局:https://www.saac.gov.cn/daj/falv/20200679ca4f151fde470c996bec0d50601505.shtml.
[12][13][14][15]徐丽华.云南藏文古籍概述[J].中国藏学,2002(02).
[16]杰西.西饶江措.“法王皇帝圣旨”藏文石碑释略[J].西藏研究,1995(04).
[17]冯智.一块发现于滇西北的藏文石碑:格子石碑[J].云南社会科学,1993(06).
[18][19]迪庆藏族自治州地方志编纂委员会.迪庆藏族自治州州志(下)[M].昆明:云南民族出版社,2014.
[21]夏翠娟,贺晨芝,刘倩倩.数字人文环境下历史文献资源共建共享模式新探[J].图书与情报,2021(06).
[22]周林兴,张笑玮.以文促旅,以旅彰文:地方特色档案资源赋能文旅融合研究[J].档案管理,2022(03):34-38.
[23]王爱辉,丁华东.我国档案公共服务均等化的推进:特点、动力与路径[J].山西档案,2021(06):38-45.
[24]周晨.国际数字人文研究特征与知识结构[J].图书馆论坛,2017(02).
[25]汪建军.数字政府建设背景下档案数据治理的内在逻辑与实践进路[J].档案与建设,2023(09):49-53.
[27]归吉官,田晓青.档案资政服务样态及路径优化—基于多案例研究[J].档案管理,2023(03):66-70.
[28]西藏古籍文献数字化提速 大批珍贵藏文古籍近期实现“云阅读”[EB/OL].新华网:http://www.xinhuanet.com/photo/2020-03/12/c_1125703698.htm.
[29]西藏自治区档案局(馆):数字化手段延续历史记忆[EB/OL].中国西藏网:http://www.tibet.cn/cn/index/syyc/201901/t20190108_6476292.html.
[30]徐晨飞,包平.面向农史领域的数字人文研究基础设施建设研究:以方志物产知识库构建为引[J].中国农史,2019(06).
[31]刘文俏.大模型与古籍档案文化遗产数字化:价值、挑战与应对[J].山西档案,2024(01):104-107.
[32]THOMAS R.GRUBER.A translation approach to probable ontology specification Knowledge Acquistion[J].Knowledge Acquistion,1993(02).
[33]严孝珍,张秀红.红色档案智慧数据:概念、组织与应用[J].山西档案,2024(02):84-86.
[34]高大伟,韩瑞雪.城建档案领域知识图谱构建方法研究[J].档案管理,2022(03):57-58+62.
[35]李海军.档案管理信息化之本体方法讨论(上)[J].山西档案,2007(06):16-18.
[36]余红梅,梁战平.文本可视化技术与竞争情报[J].图书情报工作,2011,55(08).
[37]高建辉,朱思嘉.基于数字人文技术的滇西抗战口述历史档案开发研究[J].山西档案,2023(03):104-109.
[38]邵澍赟.档案编研出版中增强现实技术的应用场景与路径探究[J].档案与建设,2022(12):36-39.
(作者单位:云南大学历史与档案学院 何志丽,博士研究生,档案副研究馆员;华林,教授,博士生导师,全国档案专家领军人才;冯安仪,硕士研究生 来稿日期:2024-06-04)