多维视角下的少林寺档案内容挖掘与知识服务研究*

2021-08-12 04:57李海涛杨晗
山西档案 2021年5期
关键词:少林寺少林可视化

李海涛 杨晗

(中山大学信息管理学院 广州 510275)

少林寺档案在一定程度上反映了少林武术的基本面貌与文化根脉,是人们了解、把握少林寺文化和历史脉络必不可少的资料。2006年少林功夫入选国家级非物质文化遗产名录,2010年8月包括少林寺常住院在内的历史建筑群被联合国科教文组织列为世界文化遗产,2017年初中共中央办公厅、国务院办公厅下发的《关于实施中华优秀传统文化继承发展工程的意见》指出要实施非物质文化遗产传承发展工程,进一步完善非物质文化遗产普查建档制度。少林寺文化是我国珍贵的非物质文化遗产,其所蕴藏的传统文化在提升中华民族文化自信上有着重要意义。新时期开展少林寺档案的挖掘利用与知识服务,促进资源的集成整合,主动向社会提供集成化、可视化、多元化的少林寺档案知识服务是保护少林文化、弘扬少林文化的重要途径。

“少林寺档案是围绕少林寺形成的综合性寺庙档案”,既包括少林寺本身的档案文献,也包括少林文化圈形成的档案文献。现存少林寺档案约有2万件,主要包括金石、纸质、声像档案及口述档案[1],因少林文化历史悠久无论是历史档案还是现代档案都相当丰富,但是对少林寺档案的开发利用工作远远落后于实践的需要。当前少林寺档案馆仍在建设中,对档案资源的利用仍停留在收管存阶段,并且少林寺档案资源增量大,动态、散乱、无序特征明显,需要改变传统的资源组织方式。借助知识挖掘有关技术对杂乱的少林寺档案信息进行有序化、可视化、系统化处理,发现海量少林寺档案资源的关联,实现少林寺档案信息的高效组织与深入挖掘,从而提高少林档案服务效益是新时期对少林寺档案利用的新要求。少林寺档案馆应利用现代信息技术扩宽少林寺档案服务渠道、改变服务方式、提升服务能力,进而向社会各界提供少林寺档案知识服务。而主题模型、可视化技术、数字人文仓储技术可为这一目标的实现创造条件。

1 研究现状

随着互联网技术的发展,当前已有将这几种新兴技术与档案开发利用相结合的研究:在主题模型方面,陈忻等将主题模型应用于北京香山红色档案的编研中[2]、霍光煜等采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联[3];在可视化技术方面,陈海玉等在数字档案资源语义本体的基础上构建可视化的“南昌起义”专题网站[4]、施仲添等以杭州规划审批档案为例,运用GIS技术将档案信息空间可视化[5]、谢玉雪对美国、英国、澳大利亚、加拿大数字档案资源的线上展览予以分析,总结出可视化叙事数字档案资源服务的一般模式[6]、祝振媛通过历史人物解析与数字技术相结合的手段实现家谱档案可视化[7];在数字人文仓储方面,徐拥军等借鉴加拿大可信数字仓储的成功经验,构建出适合我国的统一集成数字资产体系[8]、李建伟构建的梅州侨批史料数字仓储系统方案可以实现非结构化数字记忆资源基于知识元的深度聚合[9]、王艳丽在对Fedora数字仓储技术研究的基础上,提出构建基于Fedora的数字档案保存系统[10]。

当前档案学者在新兴技术的应用研究中有着较为成熟的分析和理论基础,而在少林寺档案的开发利用中,当前的研究成果较少:谭必勇等人分析了少林文化发展的困境与机遇,结合少林寺档案资源的开发现状为少林寺档案的开发提出对策[11],丁海斌等人介绍了少林寺档案的组成、特点和开发的独特优势[12]。可以看出,学者对少林寺档案的关注较少,针对少林寺档案开发利用的研究不足。

综上,将主题模型、可视化技术、数字人文仓储三种技术应用于档案开发利用中的研究类型和方式呈现多样化并逐渐成熟,但对少林寺档案的研究仅有两篇成果,为此文章在参考已有研究成果、分析有关技术的基础上,结合少林寺档案的特点,从内容挖掘、展示和利用方面为少林寺档案开发利用提供新思路,为进一步实现少林寺档案的知识服务提供技术蓝图和理论支撑。

2 基于主题模型的少林寺档案信息挖掘

档案较其他史料具有更强的真实可靠性,在知识管理时代,对其的研究利用除了对容易量化的文本进行编纂外,更重要的是对其信息内容进行分析,因此对已数字化的少林寺档案进行有效的信息提取和数据整合是信息时代开发利用少林寺档案的主要途径。目前,西方学者和我国已经积极开展将主题模型(Topic Modeling)应用于文献内容挖掘的研究中,拓宽了内容分析与提取的研究路径,如弗吉尼亚大学英语系的“罗塞蒂档案库(Rossetti Archive)”项目,利用文本标记、词频分析以及语义挖掘等技术对Rossetti有关的档案信息资源进行深度开发和融合,加强对文献主题的研究[13]。此外,还有美国女作家档案、威廉.布莱克档案等都属于专题历史档案文献资料库。

2.1 主题模型

建立主题模型即在文本分析的基础之上,借助自动化技术选用合适的特征词汇来对文本内容进行描述和建模,其来源于隐性语义索引,它基本思想为假设文档是由K个潜在主题随机混合产生,这些词汇可以通过概率分布计算出来,从而可以根据词汇分布来进行主题聚类或文本分布。一个主题模型通常包括5项内容:(1)主题模型的输入,包括输入文档集合和主题个数K;(2)主题模型的基本假设,其中重要的一个假设是词袋假设,即一篇文档内的词汇只考虑是否出现,而不考虑其出现的次序;(3)主题模型的表示,有使用图模型和生成过程两种;(4)参数估计过程,主要是分析各主题下的词项概率分布和各文档的主题概率分布;(5)新样本的推断[14]。目前主要的主题模型有:Blei等人提出的描述主题间相关性问题的CTM模型;基于主题演化思想的动态主题模型DTM;Zhao等人提出的Twitter-LDA模型主要解决社交网络中出现的短文本数据等。在pLSI基础上,Blei等人提出了LDA(Latent Dirichlet Allocation),LDA是一个完整的生成模型,且近些年为了解决不同问题,研究多是围绕LDA模型进行优化扩展,是比较成熟的主题模型,因此越来越多地应用到自然语言、图像处理等领域。

2.2 平台设想

研究设计了基于LAD模型的“明代少林寺档案”文本分类和聚类的平台建设方案,如图1所示。方案构思如下:

图1 基于LDA主题的少林寺档案文本分类、聚类流程图

(1)实验数据处理

以明代的少林寺档案资料为数据来源进行数据采集,并对导入的档案文献进行数据处理,包括对文献进行人工筛选、导入文献词表、对文本语料进行分词处理、对文献进行剔除停用词、标点、标注等处理。档案文本语料的选择和数据处理是文本聚类的重要环节之一,文本聚类结果的精度及效率都与该步骤有着密切关系,因此这些步骤要尽量做到精准。之后按照时间片原理划分这些文件,由于明朝历时二百六十七年,时间跨度大,所以本实验设计五年为一跨度的时间划分原则。

(2)主题抽取

构建实验平台,在主题分类众多模型中,LDA模型有非常重要的地位,因此本文采用LDA模型对“明代少林寺档案”进行主题自动抽取。利用模型获得文档总词汇后,根据实际情况设置主题数,确定主题数在LDA模型中是一个困难的问题,传统方式采用按照经验设置主题数,此方法科学性和合理性较差。因此本文采用通过文本-主题最大平均分布概率和主题-词语平均相似度概率的加权数值的方法确定主题数量[15],经过计算本文主题数设置为10个,接着将迭代次数设为1000次进行实验。另外,在主题抽取的基础上,注意主题表达强度。

(3)主体监测与识别

在得出的结果中进行筛选得到最能表示文本内容的词汇并对其进行监测与识别,以得出不同主题的分布与强度的演化趋势,比如洪武五年至十年这五年中,主题词为“佛塔”、“僧司”等;嘉靖三十一年至三十六年这五年中,主题词为“僧兵”、“抗倭”等。

3 基于可视化技术的少林寺档案内容展示

目前对历史档案文献的开发与利用的方式主要有:查询服务、利用大众媒介宣传档案史料、档案展览和档案编研工作,这些传统档案利用方式大多依靠人力完成,可有效保证开发的质量,但人力、时间、资源有限,且当代人们追求一种“快文化”,传统的手段无法满足人们迅速获取及筛选出有效信息的需求。当前可视化技术应用于多种领域,同样可应用于少林寺档案的利用中,它将文本中隐含的关系、内容和规律以视觉形式展现出来,它借助人们与生俱来的感官能力,能够快速直接地帮助人们获取少林寺档案资料中的关键信息。可视化的少林寺档案资料的艺术性和生动性,弥补了少林寺档案资料分散、晦涩难懂的缺点,降低了少林寺历史档案资料的阅读、利用门槛,有利于扩大少林寺档案文献的影响力和实现少林寺档案资料的价值。

可视化技术在人文学科研究中的应用越来越得到国内外学者的重视,比如北德克萨斯大学与斯坦福大学合作开展的旧报纸数字化新闻文本挖掘与可视化项目;Schich等绘制的三年欧洲和北美的文化史图项目以及Cho等人开发的罗马历史可视化分析系统等。国内的有Peter K.Bol教授与北京大学合作建立的“中国历代人物传记资料库”(CBDB)项目,是目前世界上最大的中国历史人物专辑资料分析数据库,包括“历史人物迁徙图”和“学术师承可视化”两个部分。

目前信息可视化的数据分为以下几类:一维数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据[16]。对应的目前用于多维数据的可视化技术有:几何、图标和动画的多维可视化技术;用于时态数据可视化的技术主要有:线形图、堆积图、地平线图和时间线图等;用于层次数据的可视化技术主要有:节点连接图和树图2种方式;用于网络数据的可视化方法核心是自动布局算法,目前主要包括:力导向布局、分层布局和网络布局3种。本文选取了几种可用于少林寺档案可视化的方法进行介绍。

3.1 主题可视化

一份档案的主题可以从一系列能反映事件发生、发展过程的关键词体现出来,因此可以通过关键词的可视化来实现档案主题的可视化。可以将“主题河”技术用于少林寺档案主题的可视化中,主题河的原理是将同一主题的多个时序文章进行汇聚,按照时间顺序展示这个主题的发展变化状况,也可以将多个不同主题的时序文章进行汇聚,用户既可以看出某个时间点这些主题的分布状况,又可以看到多个主题的发展变化情况[17]。横轴表示时间,主题强度用条带的宽度表示出来,就可以得到随时间线宽度变化的若干个条带,因形状类似河流所以起名主题河技术。主题河技术可应用于有一定时间跨度的少林寺历史档案中,比如以少林寺有关“戒律”的档案文献汇编为例,利用主题河技术,可以看出每个时期少林寺对僧人犯戒惩罚的侧重点。

3.2 时空可视化

通过对档案中时空信息的抽取,将某一事件或某一地方的发展变化状况以动态的方式在时空框架中展现出来,可以让读者了解事件发生的始末和空间背景,从而直观、深刻地对事件产生更深刻的理解。可运用于少林寺档案中的时空可视化技术主要是“时间序列地图”。时间序列地图主要用于反映同一空间区域在不同时空下的状态并展现其动态变化情况,这一特点可用于少林寺档案文献中有关地主庄园的资料中。少林寺是一座古老的封建庄园,许多资料尤其是石碑上多有关于少林寺田地变化资料的记载,如《古堰禅师道行碑》中记载古堰禅师于元皇庆间来到少林寺,在他主持少林寺期间,曾“置庄一所,寺域开田两倾”;《淳拙禅师道行碑》中说道“创钟楼、西堂、新南寺、普照寺,益膏腴二十倾”等等[18]。在历史上,少林寺地界东面曾至白沙(在今禹县),西面到西白沙(在今伊川县),面积最多时曾达八百余倾,但是每个朝代都会发生很大变化,利用时间序列地图,将少林寺档案中有关田地变迁的有关信息、时间序列进行离散化处理,基于矢量数据模型或栅格数据模型制作出单一图幅反映此朝代少林寺土地的情况,并且对应某一行政区域内的人口、城区、土地、水文、气象等地理因素的分布状况,也可制作出多幅连续的地图反映少林寺田地面积、位置的时空演变特征,对研究少林寺经济、地位变化有所帮助。

此外,“流向地图”可应用于研究少林寺迁移的历史档案中;“故事板”可应用于展示少林寺某一事件中的多个重要场景,把这些场景串联起来形成一个完整的事件,形象展示该事件始末。

3.3 武术档案文献可视化

20世纪90年代末,马明达先生提出要重视武术古籍,有关少林寺武术文献的研究取得了一些成就,但是这些武术文献研究普遍忽视了文献中附加的图像的作用[19]。将这些武术图像进行可视化展示,有两方面意义:一是方便考订文献内容,厘定版本形成。现有的清代“少林拳棍刀枪谱”系列文献在辗转传抄的过程中,由于种种原因,招式名称发生了变化,但有图像作为依据,根据动作样式特点,将每一幅图像做成每一帧动画,图文互参,方可以确定版本间的关系以及文字错讹情况。二是便于后人对少林武术的学习。将少林武术档案文献中的拳法、枪谱以动画形式直观的展示于后人面前,再配以语音说明,可以帮助人们充分理解少林武术中的动作,加深对动作的理解。目前国内的动画制作技术已非常成熟,可以将这一工作外包给有关公司,并加上有关少林武术人员协助,利用Matlab、Flash等动画制作软件,将静态的少林武术档案文献以连续播放或快速变化等形式转变为动态连贯的武术教学视频。

3.4 人物关系可视化

少林寺经过多年发展,在维护管理、继承传授方面形成了一套官府式的组织机构,人员关系众多复杂。来自九省十三县的千门万户的寺僧,一到寺里便形成了乃徒乃师、法子法孙的大家族组织形式。此外,少林寺的家族分为大悲庵、永化堂、弥陀庵等十八门,每门一般都是祖孙三代,清凉庵的辈数甚至达到八、九辈,每一门好像寺里的一个小宗。这些复杂的人物关系可以借助“人物知识图谱”技术将其可视化。“人物知识图谱”是一种知识可视化方法,通过语义检索技术,筛选出少林寺档案中某一人物相关信息,并以可视化的形式来分析和表示人物之间的关系。人物知识图谱可谓是目前研究少林寺僧人间的繁杂关系最便利、效果最好的手段之一。人物知识图谱的核心表示对象是角色和关系,利用人物知识图谱显示寺僧间的师徒关系、宗亲关系,也可应用于某一少林寺名人的专题档案中,显示该人物的地缘关系和业缘关系。

4 基于云计算、数字人文仓储等技术的少林寺档案利用

少林寺建于北魏太和十九年,但是少林武术源于何时学界还没有统一的定论[20]。虽然没有确切的说法,但少林寺文化源远流长,尤其在唐朝达到了繁荣时期,至今已有千年历史。在这悠久的历史长河中,少林文化逐步享誉世界,并且形成了众多少林寺档案文献,主要有五类:第一类是少林武术文献,比如明代的《少林棍法禅宗》、《少林拳棒枪刀谱》等拳棍刀枪谱类以及《少林拳术秘录》、《拳经拳法备要》等拳谱;第二类是古代少林寺在日常活动中形成的档案文献,比如讲经、传道、朝觐、布施、法事等记录性文书以及农业生产、田产契约、戒律守则等内、外部管理档案;第三类是实物档案,比如金石、碑碣以及法器、供器、饰品等,尤其在碑刻方面,少林寺寺内外碑铭繁多;第四类是医药档案,少林科技文化中最重要的是少林医药文化,自五代十国起少林伤科得到发展再到明清时期的繁荣,少林医药经过千余年的发展形成了类型丰富的少林医药秘术档案;第五类是新中国建国之后少林寺形成的档案,包括文书档案、会计档案、基建档案等业务档案以及旅游接待、对外交流等档案文献。可以看出,少林寺形成的档案文献种类数量丰富,但是由于天灾、战乱以及人为等种种原因,少林寺档案文献已经散落于各地,给查找利用少林寺档案文献带来很大阻碍。云计算、大数据、数字人文仓储等信息技术的逐渐成熟给少林寺档案的利用提供了新的手段。

运用云计算、数字人文仓储技术利用少林寺档案,即建立少林寺特色资源库。首先要对各类少林寺档案文献进行数字化,对于纸质档案文献以及实物档案可以利用复印、拓印、三维激光扫描等手段,将其形态进行转化,再依据国家古籍保护中心编制的《古籍数字化工作手册》及其他规定为依据,对少林寺档案文献进行数字化处理。

其次,利用“云计算”、“大数据”等信息技术,建设大型少林寺特色档案文献库。少林寺在国内有大量下院,在国外有200多个文化交流中心,形成了少林文化圈,其档案也应包括少林文化圈档案,因此让全国乃至世界各地的博物馆、档案馆、文化交流中心、其他寺庙以及个人通过身份认证后,将所拥有的与少林寺有关的文献资料上传至文献库中,将有关的数字档案文献集中管理,共同建设少林寺文献资源库,形成我国文化特色,为弘扬少林寺传统文化以及学者研究提供便利。

最后,利用数字人文仓储技术在这一文献库中,建立各种不同主题的小型少林寺档案文献资源库。“数字人文仓储”是将“数字人文”和“数字仓储”两个概念融合在一起产生的一个新的领域,是“数字仓储”技术应用于数字人文项目、人文社科领域研究的一种新方式。概念创始人Inmom WH认为“数字仓储”面向的数字资源具有一定主题的、集成的、稳定的、能够不断更新等特点,支持对数字资源进行保存、管理和访问等操作的综合性系统[21]。在少林寺档案中,从武术方面上分为“拳棍刀枪谱”、“拳法”“功法图籍”三类;在日常事务中,古代少林寺将其分为六类,有禅堂、生产、招待、库房银钱、日常事务、饮食等;在旅游接待档案中,有少林寺宣传文件、旅游接待情况统计、旅游路线设计、旅游项目策划等;在对外交流中,分为国内和国外以及在此过程中产生的各种材料,比如预算审核表、出境申请、研讨会材料等。少林寺档案种类繁多、数量丰富,因此可以按照不同主题对少林寺档案进行分类以建立不同主题档案文献库。

根据数字仓储的设计思想和主要功能,本文设计的小型少林寺主题档案仓储由3层架构组成,依次为存储层、业务逻辑层和服务层,体系结构如图2所示。

图2 少林寺档案数字仓储体系架构图

(1)存储层

存储层主要功能是保存数据以及对数据进行读、写、删、增等各种处理,数据包括数据流及其元数据文件。因为数字人文仓储保存的资源是有一定相同主题的,因而这个仓储是围绕某个特定的研究对象来建立的,这个特定主题称为“人文实体”。具体到少林寺历史档案仓储中,其保存的数字资源主要包括某武术、经济、人物等主题的全部档案资料,比如扫描后的原始文件图像、加工后的数字化档案、3D建模后的石碑档案等。

(2)业务逻辑层

业务逻辑层分为处理子系统、内容管理子系统和知识组织子系统三个部分。处理子系统包括人文领域本体建模、人文实体数字化采集与归档。内容管理子系统包括信息资源导入和知识组织。知识组织子系统负责将导入的资源进行标注和转换为通用的元数据模型。

(3) 服务层

服务层指的是多维度聚合服务。在今后发展中,此仓储不仅融合了少林寺档案,更包括与该人文实体有关的图书、文物、影视资料、图谱和其他文献等实体,通过二维扫描设备进行纸质文献扫描、通过三维设备进行石碑、实物等立体数字扫描、通过音频信息技术进行歌曲、影视等信息的数字化采集。各类数字化采集成果根据需要进行格式转换,基于人文实体进行标注后归档保存到数字仓储的服务层中,这些资料补充了特定人文实体档案的匮乏,后续可以为用户提供多维度信息服务,满足用户多方面、深层次的信息需求。

5 结语

总的来说,信息时代为少林寺档案的开发利用工作带了三个方面的影响:首先是内容挖掘方面,可利用LDA模型自动抽取文本主题;其次是内容展示方面,利用相关可视化技术使少林寺档案主题、时空、武术动作和人物关系可视化;最后是内容利用方面,利用云计算、数字人文仓储,生成多维度聚合服务,满足用户深层次、多方面的信息需要。信息技术使少林寺档案资源的整理和开发方式趋于多元化,有利于档案部门开发利用档案中的信息内容,而不单单是关注档案实体的收集和管理。

信息技术在其他领域发展较为成熟,但应用于少林寺档案中,具体的开发项目和平台较少。由于新技术的不断更迭和逐渐成熟以及档案复合型人才较为匮乏,本文提出的技术方案目前实现较为困难,但是从理论上研究具体技术特点,提出相应的方案蓝图是具备现实意义的。档案学者及有关人员只有把握好当前时机,积极研究和勇于实践,才有可能在不断发展的未来占领先机。

猜你喜欢
少林寺少林可视化
自然资源可视化决策系统
思维可视化
编辑部的故事
少林小罗汉拳(十)
《少林寺2》立项拍摄
少林小罗汉拳(五)
少林小罗汉拳茵(四)
基于知识图谱的我国短道速滑研究可视化分析
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学