本文在中国气象局和南京信息工程大学合作项目“中国气象台站史研究”的支持下,收集中国第二历史档案馆(以下简称二档馆)对外开放的民国时期气象类档案400余份,挑选出与气象台站直接相关的档案共109条加以分析。二档馆的档案史料目前只开放部分档案以供查阅,没有建立数字化的全文检索方式。面对大量的条目和文字量,研究者如何快速、有效寻找目标资料信息是一个难题。本文对这部分资料的题录进行分析,对其涉及内容进行总结,并探讨档案题录分析的可能性。
目前在二档馆收集到有关“气象”的档案资料集中为全宗号“三九三”的档案,少部分档案全宗号为“三九三(2)”“五”“五(2)”(本文所涉及的档案史料均为二档馆馆藏档案,具体案卷号文中表格已有标明。因数量较多,所以如未提及,以下均不再做注释,同时也不在参考文献中一一列出)。检索方法是在二档馆内部查档系统中以“气象”“气候”等为主要检索词,并将所得检索结果加以筛选和整理,最终得到有效档案目录清单,共包含446条信息,涉及档案资料约14307页。
(一)录入题录信息。将检索所得有效档案资料的题录信息录入制成Excel表格,包含的信息条目与示例如下所示:
表1 民国时期气象台站档案史料题录示例表
(二)标签定义。数据库的建立过程实际上是信息的存储过程,包括对在一定专业范围内的信息选择基础上进行信息特征描述、加工并使其有序化[1]。经典的信息检索模型使用一组具有代表性的关键词(索引词)来描述数据库中的每一篇文档。本文所研究的“标签词”即是一组具有代表性的关键词或索引词,由文档中的一些简单的能反映主题的单词构成,通过它们可以与数据库中的文档相联系[2]。
大部分标签词为名词,因为名词语义易识别。但是并非所有名词都能用来描述档案内容,因为用作标签词的词语必须恰当、稳定、可辨别,且标签词的使用应遵从“名词优先”“统一用词”“全而不冗”三个原则。
基于档案内容定义的标签词应提炼五大主体:时间、地点、人物、单位、事件。二档馆因资料具有保密性,故不完全对外开放,所以目前收集到的446份档案只有题录信息,而不具备全部档案资料的具体内容。很多档案资料的题名能够给查档者提供档案信息的大体内容,因此档案标题是目前进行标签词定义的主要参考信息,尤其是能够清晰描述档案内容的标题,如《中央研究院呈请政府资助气象所建设西南测候网及筹设中央气象局计划预算书统一全国气象行政机构意见书等有关文书》。但是有部分档案的标题并不能够完全反映出档案资料的信息,如《气象法规》,这部分档案在定义标签时就无法仅参照标题,而是需要对档案信息进行阅读,提取主要内容后加以凝练,再赋予标签。
1.对时间定义标签的方法。民国时期气象档案中对于时间的表示可能会出现公元纪年与民国纪年两种方式。如,有可能会出现民国纪年“民国二十九年九月”的表达,也有可能直接省略“民国”,只出现“三十年”,需要根据上下文推算出这样的表述是否为“民国三十年”的意思。同时,档案中也会出现部分公元纪年的表示,这种情况在档案首页尤其常见。所以,在对时间进行标签定义的时候需要注意的问题主要有两点:民国纪年与公元纪年的转换;数字的表现形式。档案中以文字形式展现的时间,在定义标签的时候,这两种表达方式都应具备,因为更详细的标签定义有利于用户在搜索的时候更加精确地检索到所需信息。
2.对地点定义标签的方法。地点信息提取时主要难点在于文中可能使用该地名的简称或者旧称。如《1891中央研究院气象研究所各测候所隶属机关》出现《肃州测候所概况》一文,其中的“肃州”为“酒泉”的旧称,所定义标签如下:肃州;酒泉。地名的简称在档案中使用也很常见,民国时期省市简称与现行中国各省市的简称并不完全相同。
3.对人物定义标签的方法。档案资料涉及的人名甚多,会有简称、字号以及别称的出现,标签定义需要将简称补充完整,并将字号以及别称等与人物姓名相对应。比如,对于竺可桢先生,档案中提及的称谓可能有“竺可桢”“竺先生”“竺所长”“竺兄”“藕舫”等,在标签定义的时候统一为“竺可桢”。
4.对单位定义标签的方法。馆藏气象档案多以函件或公文形式出现,其中会涉及多方组织或机构,在对这部分机构组织名称进行标签定义时,主要注意的问题在于全称与简称的问题,比如,“国立中央研究院”很多时候都简写为“中央研究院”或“中研院”,“气象研究所”通常简称为“气象所”,在定义标签时应统一定义为全称。
5.对事件定义标签的方法。事件的描述通常为句子,而标签词通常为词语或词组形式,所以对于事件的标签定义实际为对于事件中关键名词以及事件类别的定义。比如,事件“内设天文历数气象及磁力地震四科”在标签定义时根据事件类别定义为“机构设置”。经统计整理,民国时期气象档案在气象台站方面的事件类别主要有以下几个方面:历史沿革,包括建立台站、撤销台站、迁移站址、台站更名;管理体制;气象业务;气象服务;机构设置;人员状况;仪器设备;台站建设;经费预算;人员薪资等。
(三)对已经检索出的446条信息进行二次检索。为方便说明,本文以“气象台站”和“气象教育”两个主题的档案检索为例。“气象台站”方向的档案主要通过“气象台”“气象站”“测候所”“气象局”等几个关键词进行检索,共整理出109条,部分示例如下:
表2 民国时期“气象台站”相关档案检索结果示例表
“气象教育”方向的档案主要通过“培训班”“学校”“教育”“练习班”等关键词进行检索,共整理出40条,实例如下表所示:
表3 民国时期“气象教育”相关档案检索结果示例表
根据不同的分类标准,对现有档案可以进行不同的分类。
最基础的分类是基于档案全宗号,上文已经提及,目前收集到的二档馆馆藏有关气象的档案的全宗号主要有四类,为“三九三(2)”“五”“五(2)”。
第二种分类方法就是在定义标签词以及对题录信息二次检索的基础上基于内容对档案资料进行分类,这也是对课题研究最为有益的分类方法。经整理汇编,现将446份档案资料分为以下几类:
(一)与气象台站建设密切相关。这部分上文已经提及,详见第二部分第3点。
(二)与气象教育密切相关。这部分上文已经提及,详见第二部分第3点。
(三)与中央研究院或气象研究所密切相关。由于全部446份档案中,绝大多数来自全宗号三九三的档案,所以标题中出现“中央研究院”或者“气象研究所”的档案在数量比例上占有明显优势。其中,出现“中央研究院”的检索结果有308条,“气象研究所”的检索结果有214条,这两部分档案有很大程度上是重合的。部分示例如下:
表4 民国时期“中央研究院”与(或)“气象研究所”相关档案检索结果示例表
(四)涉及经费、预算等事宜。该部分档案共48条,部分示例如下:
表5 民国时期气象台站档案中“经费”或“预算”相关档案检索结果示例表
(五)与竺可桢先生密切相关。该部分档案共32条,部分示例如下:
表6 民国时期气象台站档案中“竺可桢”相关档案检索结果示例表
(六)涉及气象观测业务事宜。该部分档案共28条,部分示例如下:
表7 民国时期“气象观测业务”相关档案检索结果示例表
(七)与筹建测候所相关。该部分档案有17条,部分示例如下:
表8 民国时期“筹建台站”相关档案检索结果示例表
(八)气象法律法规或观测规范相关。该部分档案有13条,部分示例如下:
表9 民国时期“气象法律法规”或“气象观测规范”相关档案检索结果示例表
图1 二档馆各类检索结果数量表
根据第二、三部分二次检索时所用分类对档案条目检索,结果数量表如图1所示。各类数量对比揭示出民国时期大量气象台站相关的档案史料都与“中央研究院”或“气象研究所”密切相关,在笔者看来其中原因有二:一方面,本文所选取的档案史料本就是多来源于全宗号三九三的档案卷宗,“中央研究院”或“气象研究所”的检索结果远超其他检索词是必然的;另一方面,在竺可桢所长的带领下,中央研究院气象研究所与民国时期气象台站的建设关系密切,所以在气象台站档案中出现频次颇高。
本文提出针对民国气象台站档案题录定义标签词的方法,通过选取特定标签词对档案资料进行检索与分类,可迅速定位和提取有效档案。这套标签定义的方法变通性强,适用于各主题的档案资料。此外,对于民国时期气象台站档案史料的检索和分析并不局限于上文所提及的类别,根据具体研究课题,研究者可选取自己所需的关键词以及类别进行检索或重新分类。
注释与参考文献:
[1]朱丽君主编.信息资源检索与应用[M].北京:化学工业出版社.2004.
[2]符绍宏主编.信息检索[M].北京:高等教育出版社.2004.