古籍索引数据应用研究

2017-06-27 18:57肖禹
新世纪图书馆 2017年5期
关键词:古籍图像文本

摘 要 古籍索引数据包含古籍电子索引和其他具有索引功能的古籍元数据。两者在基本性质、数据结构、加工方式、学术含量等方面差异明显,但是可以在一定条件下实现相互转换。古籍索引数据能够支持资源揭示、文本碎片化、数据挖掘、创建新数据等应用。

关键词 古籍 索引 数字化

分类号 G255.1

DOI 10.16810/j.cnki.1672-514X.2017.05.×××

Abstract The index data of ancient books includes digital index of ancient books and other metadata of ancient books which has index functions. They are different from the aspects of basic features, data structure, processing methods and academic quality and so on. The format of the index data of ancient books can be mutually transformed under the certain conditions. The index data of ancient books can support the application of the resource description, the text fragmentation, data mining, and the creation of new data.

Keywords Ancient books. Index. Digitization.

索引是对某种或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物等)以简明的方式分别著录标引,为用户提供便捷检索服务的工具[1]。在《索引编制规则(总则)》(GB/T 22466-2208)中,索引定义为指向文献或文献集合中的概念、语词及其他项目等的信息检索工具,由一系列款目及参照组成,索引款目不按照文献或文献集合自身的次序排列,而是按照字顺的或其他可检的顺序编排。按索引在文献检索中的功用分,可分为文献内容索引、文献篇目索引;按索引的标目分,可分为主题索引、著者索引、名称索引、地名索引、题名索引、代码索引、关键词索引、全文索引、引文索引等[2]。

古籍索引是揭示古籍内容的一种特定形式,是将古籍中的有关事物名称、篇名、字句、词语、人名、地名、内容主题等分别摘录标引,注明出处、页码与行数,并按一定的排检方法编辑而成,供人们查寻有关古籍文献的内容[3]。陈东辉在《二十世纪古籍索引编制概述》[4]《台港地区所编古籍索引综述》[5]《试论日本所编的中国古籍索引》[6]《欧美中国古籍索引编制概况》[7]等文章中梳理了我国古籍索引发展的脉络,同时概述了台港地区、日本、欧美等汉籍索引编制的情况。毛建军在《古籍索引的电子化实践》[8]《古籍索引电子化与古籍图谱数据库的建设》[9]《古籍索引研究20年回顾及其电子化趋势》[10]等文章中讨论了我国古籍电子化的发展现状。黄建年在《中国古籍索引编制软件概述》[11]《基于VFP+Word的多文本古籍索引编制实验》[12]《汉文古籍索引自动化实践与研究概述》[13]等文章中综述了我国古籍索引编制软件及古籍索引自动化方面的研究与实践。

古籍索引电子化是指古籍索引编制过程的计算机化,其内涵包括两个方面:一是用计算机编制的各种纸质形态的古籍索引;二是用计算机表达的古籍索引系统[9]。古籍索引电子化的成果即为古籍电子索引、索引电子版或索引数据库(以下通称为古籍电子索引)。与之相关的研究中,经常涉及古籍全文检索系统,一些研究者甚至把古籍全文检索系统与逐字索引相提并论。然而,两者的区别显而易见。古籍全文检索系统通常由检索软件和数据库组成,数据库中至少包含古籍文本数据和索引数据。只有古籍全文检索系统中的索引数据才具备索引功能,可与逐字索引进行比较。

1 古籍索引数据

狭义的古籍索引数据即古籍电子索引,而广义的古籍索引数据是具有索引功能的古籍数据。在古籍数字化领域中,常见的古籍数据包括目录数据、索引数据、图像数据、文本数据等,并在此基础上形成了目录库、图像库、全文库、资料库、知识库等,与相关软件一起构成古籍数字化资源系统,实现显示、检索、浏览、下载等功能。这里的索引数据即广义古籍索引数据(以下简称古籍索引数据)。

古籍索引数据既包含古籍电子索引,也包含其他具有索引功能的古籍元数据,如古籍图像标引数据、古籍全文索引数据等。与古籍电子索引相比,其他具有索引功能的古籍元数据具有自身的特点。为了便于说明,选用古籍图像标引数据与古籍电子索引进行比较。

古籍图像标引数据是指向古籍图像或图像集合中所涉及的各种内容(如篇目、人物等)的标引数据,具有索引的基本功能。与古籍电子索引相比较,两者主要有以下几点区别。

其一,古籍图像标引数据是古籍元数据,既要与书目元数据相关联,又要指向古籍图像数据(对象数据)。同时,古籍图像标引数据是机读数据,必须依据应用系统的需求进行编码。以国家图书馆数字方志项目[14](以下简称数字方志)为例,图像卷目标引数据如下:

而古籍电子索引是成熟的信息检索工具,可单独使用,可读性好。

其二,古籍图像标引数据的结构较为复杂,要依据系统和应用的需求加入必要的字段。仍以数字方志为例,图像卷目标引数据包括包含数据编号(No)、卷次(chapter_num)、卷名(chapter_name)、层级标识(serial_num)、被标引文献编号(book_num)、图像路径(volume_num)、文件指针(page_num)、标引数据属性(page_prop)等字段。同时,古籍图像标引数据类型多样,数据结构各不相同,尚无统一的标准规范。而古籍电子索引的结构统一,索引款目作为基础单元,由标目、注释、副标目及出处组成,使用见参照和参见参照作为索引连接系統,符合《索引编制规则(总则)》的要求。

其三,古籍图像标引数据是古籍数字化加工的产品,要在一定的成本范围内实现大规模量产,通常采用软件工具自动标引,或借助软件工具人工标引。以国家图书馆中华寻根网项目[15](以下简称寻根网)为例,2年内完成家谱扫描2300余种250余万筒子页,使用图像数据标引软件,完成人名标引数据20 223 716笔,篇名标引数据723 452笔。而古籍电子索引编制包含选题、选书、选本、勾标、排序[16]等环节,必须由专家指导或参与,虽然使用索引软件能够大大提高古籍索引编制的效率,但是古籍索引的编制周期远长于古籍图像标引数据加工。据潘树广、黄镇伟编译《中国文学语言学文献指南》[17]统计,国内外编制中国古籍索引(包括后附式索引)811种,被索引古籍约3000种。

其四,古籍图像标引数据是古籍数字化项目的成果物,既要满足项目的总体需求,又受项目各项条件的制约。古籍图像标引数据强调的是应用价值,其学术含量具有不确定性。而古籍索引既是从事古籍整理研究的必备工具书,编制工作本身又是古籍整理研究事业的有机组成部分,是一项繁重艰难而又别具意义的学术性工作,应将其成果与古籍整理研究其他成果等同看待[18]。通常情况下,古籍图像标引数据的学术含量远低于古籍电子索引。

虽然古籍图像标引数据与古籍电子索引区别明显,但是古籍图像标引数据也具备索引功能,在一定条件下可与古籍电子索引相互转化。以古籍图像标引数据为基础,在专家的指导和参与下,确定文献或文献集合,依据《索引编制规则(总则)》修订索引款目,添加必要的参见,并按照字顺或其他可检的顺序重新编排索引款目,即可将古籍图像标引数据转化为古籍电子索引。另一方面,依据古籍数字化项目的需求,确定古籍对象数据,将索引款目中的出处直接替换为对象数据链接,再按需加入必要的字段,处理参照关系、一对多索引等情况,并对索引款目重新排序,即可将古籍电子索引转化为古籍图像标引数据。

综上所述,古籍索引数据是具有索引功能的数据,既包含古籍电子索引,也包含其他具有索引功能的古籍元数据,如古籍图像标引数据、古籍全文索引數据等。古籍索引数据既要与目录数据相关联,又要标引到对象数据,在古籍数字化资源系统中发挥着不可替代的作用。

2 古籍索引数据应用

古籍索引数据本身就是检索工具,资源揭示是古籍索引数据的基本应用方式。此外,古籍索引数据还可以支持文本碎片化、数据挖掘、创建新数据等应用。

2.1 资源揭示

古籍索引数据能够揭示不同粒度的信息,既包括卷、篇、章等数据对象,又包括人名、地名等专类数据。同时,古籍索引数据可以直接链接到图像、文本等对象数据,支持浏览、检索等功能。无论是北京书同文数字化技术有限公司的《四库全书》《四部丛刊》等数据库,还是北京爱如生数字化技术研究中心的《中国基本古籍库》《中国方志库》《中国类书库》等数据库,都使用卷目索引数据,用户通过卷目数据可以直接跳转到所需的卷册,显示相应的图像或文本。

在当前的技术条件下,图像数据的加工成本远远低于全文文本数据,通过加入古籍索引数据,能大大提高图像数据的可用性和易用性,并使图像数据具备一定的检索能力。仍以寻根网为例,通过加入人名和篇名标引数据,可以提供人物、支派、像赞、墓图、传记、序跋、艺文篇目、家规家训等检索。

2.2 文本碎片化

文本碎片化是将全文文本数据按语义拆解为文本片段,每个文本片段能够表达独立语义且不可再分。同时,每个文本片段具有所属文献、所在位置、时间、空间、内容等属性,通过结构元数据可以重构为卷、篇、章等数据对象。文本碎片可以直接应用于古籍自动编纂、自动辑佚、自动校勘、数据抽取、智能检索等领域。

古籍索引数据在文本碎片化过程中发挥着重要的作用,既可以作为文本片段划分的依据或结构元数据,又可以作为文本片段的属性。如国家科技支撑计划“基于方志和古地图的文化旅游信息资源处理与整合”课题(2013BAH67F04),先以《大清一统志》的卷目数据为依据,将文本切分为若干文本块,再利用原书版式信息,将文本完全碎片化,生成文本片段超过10万个;再将卷目数据进行分类筛选,包含方志类目的卷目数据作为内容属性,包含地名的卷目数据作为地理属性;再结合卷目数据的层级信息,对文本片段进行属性标注;最后依据项目需求,按照文本片段属性筛选出5万个文本片段,通过软件结构化后生成专题资料库。

2.3 数据挖掘

古籍数据挖掘包含信息标注、数据抽取、数据分析、知识重构等方式,受古汉语词汇和语法研究的制约,很多算法不适用于古籍,尤其是没有标点、未经过整理的古籍。同古籍全文文本相比,古籍索引数据是结构化数据,又具备一定的知识含量,可以作为数据挖掘的数据源。如国家科技支撑计划“地方志资源调查与数字化加工规范研究”课题(2015BAK07B01),以数字方志约46万条卷目数据为数据源,使用分类、聚类、异常检测等数据挖掘方法,研究古代方志的体例及内容特性。

同时,古籍数据挖掘需要使用领域本体,古籍索引数据可以作为本体种子,应用于本体实例加工。如数字方志历史人物本体试验项目,先将《二十五史纪传人名索引》[19]数字化,再转换成古籍索引数据,包含姓氏、人名、又名、出处等字段,以中华书局标点本《二十四史》和《清史稿》为数据源,通过软件生成人物本体数据。

2.4 创建新数据

古籍索引数据具有一定的信息含量,可在索引数据的基础上添加其他数据,创建具有新功能的数据。仍以寻根网为例,人物标引数据包含姓、名、性别、讳、字、号、世代、支派等信息,篇目标引数据包含题名、著者、世代、关键词、出处等信息。在人名与篇名标引数据的基础上添加人物关系数据,生成谱系树。谱系树将每个人物作为一个节点,每个节点包含该人物的主要信息和父子、兄弟等亲属关系,并将像赞、荣恩、家传、艺文等与该人物进行关联,既可存储谱系数据,又能支持谱系图动态显示[20]。

3 余论

在古籍数字化领域,古籍索引数据的实践较为丰富,但相关研究严重滞后。以《地方志数字化模式与案例分析》一书为例,该有并没有将图像标引数据列为单独的章或节,只是在“图像数据发布”部分列出了古籍图像数据标引的原则,分3类(面向文件、面向目录和面向内容的图像标引数据[21])讨论了图像标引数据的内容与格式,并举例说明。

而在索引学领域,研究热点分布在多个方面,包括索引编制的研究、模式识别与智能系统相关的研究、空间索引的研究、信息检索相关的研究、数据库的相关研究、引文索引的研究和资源发与利用的研究等[22]。古籍索引数据并非索引学领域的研究热点。

目前,古籍索引数据研究面临很多亟待解决的问题,如古籍索引数据基本属性、古籍索引数据标准规范、古籍索引数据整合、古籍索引数据应用等。无论是将索引学引入古籍数字化领域,还是将古籍索引数据及其应用纳入索引学的研究范畴,都将产生一系列的新成果,推动古籍索引数据的研究,指导古籍索引数据的应用实践。

参考文献:

[ 1 ] 张琪玉.图书内容索引编制法:写作和编辑参考手册[M].北京:化学工业出版社,2006:1-2.

[ 2 ] GB/T 22466-2208,索引编制规则(总则)[S].北京:中国标准出版社,2009:1-3.

[ 3 ] 黄建年,侯汉清.基于GB/T22466-2008的古籍索引编制技术要点[J].图书馆建设,2011(6):45-48.

[ 4 ] 陳东辉.二十世纪古籍索引编制概述[J].文献,1998(2):65-78.

[ 5 ] 陈东辉.台港地区所编古籍索引综述[J].辞书研究,2005(3):212-219.

[ 6 ] 陈东辉.试论日本所编的中国古籍索引[J].文献,2005(2):74-91.

[ 7 ] 陈东辉.欧美中国古籍索引编制概况[J].中国索引,2006(1):28-30.

[ 8 ] 毛建军.古籍索引的电子化实践[J].中国索引,2006(4):37-40.

[ 9 ] 毛建军.古籍索引电子化与古籍图谱数据库的建设[J].档案与建设,2009(2):13-18.

[10] 毛建军.古籍索引研究20年回顾及其电子化趋势[J].辞书研究,2007(5):21-29.

[11] 黄建年.中国古籍索引编制软件概述[J].图书馆学研究,2011(6):65-68.

[12] 黄建年.基于VFP+Word的多文本古籍索引编制实验[J].现代图书情报技术,2011(10):85-89.

[13] 黄建年.汉文古籍索引自动化实践与研究概述[J].佛山科学技术学院学报:社会科学版,2011(6):50-56.

[14] 数字方志[EB/OL].[2016-05-01].http://mylib.nlc.gov.cn/web/guest/shuzifangzhi.

[15] 中华寻根网[EB/OL].[2016-05-01].http://ouroots.nlc.cn/index.jsp.

[16] 王雅戈,杜慧平.机编古籍索引探讨:以《道德经》语词索引自动编纂为例[J].图书馆论坛,2008(5):34-37.

[17] 潘树广,黄镇伟.中国文学语言学文献指南[M].西安:陕西人民出版社,1988.

[18] 陈东辉.关于古籍索引工作的若干思考[J].国家图书馆学刊,1997(1):42-47.

[19] 上海古籍出版社,上海书店.二十五史纪传人名索引[M].上海:上海古籍出版社,1990.

[20] 肖禹.Lib2.0环境下谱牒文献的收集与整理:以全球中华寻根网项目为例[J].科技情报开发与经济,2010(29):17-19.

[21] 王荟,肖禹.地方志数字化模式与案例分析[M].北京:国家图书馆出版社,2012:196-204.

[22] 邱均平,楼雯.近二十年索引学发展演进与研究热点探析[J].图书馆杂志,2012(12):12-17.

肖 禹 国家图书馆副研究馆员。北京,100034。

(收稿日期:2016-05-11 编校:方玮)

猜你喜欢
古籍图像文本
文本联读学概括 细致观察促写作
西藏大批珍贵藏文古籍实现“云阅读”
古籍修复师的巧手与匠心
挖掘文本资源 有效落实语言实践
搭文本之桥 铺生活之路 引习作之流
文本与电影的照应阅读——以《〈草房子〉文本与影片的对比阅读》教学为例
A、B两点漂流记
江苏完成九成以上古籍普查
名人语录的极简图像表达
一次函数图像与性质的重难点讲析