●王丽英 ,王东海
(鲁东大学 a.图书馆;b.文学院,山东 烟台 264000)
数字资源库建设是图书馆工作的核心之一,而承载中国文化与文明的古籍资料的数字化建设与智能化使用又是工作重心。古籍数字资料库建设既可减少古籍整理、保护、使用方面的财力、人力、物力成本,又可为用户提供更方便、智能的检索和输出功能,提高了效率,更好地体现出图书资源服务社会的功能。
我们认为,古籍资料库资源的建设必须紧跟用户的需求,在充分开展用户需求分析后,再有的放矢地建设,这样才能提高古籍资料库的针对性和应用价值。随着计算机技术及古籍整理工作的发展,古籍数字资料库建设的目标和原则都发生了很大变化,要满足不断发展变化的使用需要,就要进行改革与创新;另外,当前古籍资料库的重复建设情况比较严重,互相抄袭拷贝文本数据的情况大有泛滥之势,在这方面需要建立明确的评价鉴定标准,以防止这种低水平的重复建设。我们拟从数字资料库辅助工具的特性出发,以语文词典的编纂对古籍资料库的需求为解剖对象,探讨当前图书馆古籍数字资料库建设和质量评价的八个要求。
历史语文词典的编纂需要什么样的语料库?
首先要区别开第一代语料库和第二代语料库。第一代语料库主要是生语料库,即将纸制印刷文本电子化,提供各种全文搜索功能。第二代语料库是利用计算机给生语料自动加上分词、词性、语义特征、句法、语篇、语用等属性标记(目前做得最成熟的是词性标注),基于这些语言学标记,可进行各种数理统计、形式分析。例如自动统计文本字频、词频,对词语搭配进行数据挖掘和知识发现,自动提取文本常用句树(句型形式树)、句型(常用搭配角度)、句模(句义角度)、句类(语用角度)等。当前流行的古籍数字资料库属于第一代语料库。
词典编纂是一项实用性很强的工作。当代词典由于所编纂的内容都是活生生的使用态的语言,所以对语言事实和规律的描写要求细致全面,因此有各种语言属性标记赋码的第二代语料库就是首选。而历史性语文词典的编纂核心是词义的引申变化,对语料库的要求有所不同。
第一,目前在古籍语料库计算机技术方面,除了少数古文今译方面的应用需要建立古今汉语对齐平衡语料库(即文言文本和白话翻译的对齐)外,其余资料库的开发重心都集中在古籍资料文本化、版面还原、文本版面与原籍版面的对应保真、检索关键词异体字关联、大型数据库索引与检索技术五大方面,并没有向二代语料库过渡。这一思路是对的。对于中文信息处理技术来讲,古籍历史文本历时跨度大,绵延几千年,难以用一套定型的分词和词性标注标准进行统一标注,所以进行赋码的难度较高,可操作性较弱。
第二,历史语文词典的编纂中,词义和词用信息的厘定和释义主要依靠词典编纂者的主观经验,即使在语料库大行其道的今天,人们也不能否定主观经验在词典编纂中不可替代的作用。历史词典的编纂要求主观推断和客观验证紧密结合,“语料库至上论”在历史性语文词典编纂中是行不通的。
第三,历史词典编纂要归纳词义的引申变化,最关心的是词用语境的时间性属性,而这一属性是靠资料文本中的书证进行标记的,编纂者对于文本分词、词性标注等赋码没有太多要求。
第四,即使有人做过古籍文本的赋码工作,也只适合个别词的个案分析,不适用于大范围的词典编纂工作,因为随着语料库文本赋码的增多,有时不但不会引导形成正确的结论,反而会形成很多不必要的干扰信息,而且还影响到检索效率以及检索结果呈现的简明性。
结合以上四点意见,作为第一代语料库的古籍资料库基本能满足历史词典编纂需要,目前无必要也无可能将历史语文词典的编纂所依据的古籍资料库提升到二代语料库水平,但这并不意味着现在的古籍资料库就能很好满足历史语文词典编纂的需要。
国内历史性语文词典编纂中使用比较多的是四大综合性数字资料库——“四库全书”“四部丛刊”“国学宝典”“中国基本古籍库”。一些新的文本化数据库工程还在不断开发过程中,旧有的数据库工程也在不断完善与扩容。这些数据库工程在为文史哲的研究和应用方面提供了重要的材料支撑,根本性地改变,甚至颠覆了传统史料学的存在形态及使用机制。不过也存在不少问题,如重复性建设、互相抄袭数据等,但这并不是最大的不足。
数字资料库最大的价值体现在两方面:一是内容,二是服务,以上这些资料库的建立定位并不是为语文词典编纂服务,而是以服务于知识主题检索为主,所以大都追求扩大收录文献的篇目数量和文字字数,而在内容的平衡性和服务的多样化方面做得还有所欠缺,特别是用户需求分析不够,缺少明显的针对性,同质化现象严重,这些才是最大的问题。
古籍资料库的建设工程浩大,仅为词典编纂这一单一用户服务的思路是不切实际的,但将资料库的建设与词典编纂需求紧密结合,适当增加功能,在技术上是完全可行的。
数字资料库建设在资料收录方面追求“人无我有,人有我优,人优我特”的目标,这是无可厚非的。但对于词典编纂来讲,必须优先考虑语料库内容的平衡性。库内文本没有平衡性就没有代表性,历史语文词典的编纂要基于平衡性的资料库,其释义才能准确客观,符合历史语言事实和语言规律的原貌,否则就会犯以偏概全的错误。具体的建设原则和要求如下:
(1)语篇内容要尽量保持主题类别的平衡(语域平衡)。语文词典的编纂对义项的语域使用情况比较关注,例如“保辜”一词是法律术语,如果法律语域的语篇数量不足,则其释义难免偏颇,因此,建立一个库中语篇的主题分类知识本体(Ontology)至关重要。建库者从主题分类树上即可观察:哪些分支的语篇量不足,哪些叶子节点出现空位等,然后进行适当的补充。
当前的古籍分类主要依据的是“经史子集”四部法,例如“四库全书”电子版。从保真性、还原性的原则看,这一分类是必须的。但这一传承自古代的分类体系颗粒度比较大,相对粗疏。例如,在“四库全书”电子版中,很多“四部”总目下只有一二个分类层次,而更多语篇的主题内容则没有做类别标记,这直接导致定向检索范围过大,检索结果过多,冗余数据影响词典编纂的效率;另外,分类标准混杂,集部下层分类分为“楚辞”类和“别集类”,而二者的下位,一个是直接列专书,一个是按照时代标准再次分类,不同的分类标准存在于一个分类体系中,这不利于观察平衡性。
可以适当借鉴现代图书馆分类索引使用的叙词表、主题词表的分类模式来建构古籍分类体系,但由于古今差别,具体内容不能照搬,如果能够建立一个古籍主题词知识本体,各类文献都可以根据这一分类体系进行比附,形成语篇分类树,即可评价各语篇所占比重,较易实现语篇内容的基本平衡。
(2)成书年代属性要尽量保持平衡。历史语文词典编纂的一项基础工作是根据提取书证的源语篇的年代属性来确立义项的排列顺序,因此资料库中语篇的成书年代属性是最为关键的影响因子;另外,历史语文词典一般需要列出首出书证,这也需要对语篇的年代属性进行准确认定。缺少一个时代的资料,义项的引申义列中可能就会出现缺环,同时也无法保证例证的首见性,所以,标注语篇的年代属性对于古籍资料库建设尤为重要。要根据年代属性进行语篇类聚,衡量哪些年代的古籍资料会有所缺欠,然后积极开展搜集、文本化等工作,对其进行完善。
古籍资料库年代属性的确定不同于现代语篇,这要求做好两方面工作:
第一,在浩瀚的古籍资料中,古籍的伪造、损毁、亡佚等现象都会直接影响到成书年代的确定,所以文献资料索引入库前,一定要仔细鉴伪。可结合已有《四库总目提要》、各种藏书索引等资料对成书年代进行考证,做到资料库中的每一古籍语篇的成书年代都有确考,还要将时代属性落实到具体朝代年号上,并换算成具体的公元纪年。
第二,对古籍的内容文本的时代属性进行鉴别。这主要是针对一些类书、政书、资料长编等辑佚类古籍,其中辑录的文本本身就是泛时性的,并非都是一个时代,如果根据类书的成书年代来判断文本或书证的年代,只能是贻笑大方。另外,还要关注训释类文本的时代属性鉴别。原文和注释的作者并非同一时代的人,所以成文年代不同,但在语篇中,它们却是共现的,提取书证时极易出错。很多已有资料库已经关注到训释类语篇的特点,将原文和注文用大小字或单双行排版的方式进行区分并分别检索,如果能进一步标记原文与一度训释、再度训释材料的时代属性,效果更好。如果无法对语篇内泛时文本进行全面的时间属性标注,一定要对这种类型的古籍语篇设置提醒标记,以防止国学基础薄弱者将文本年代属性与成书年代相等同,从而误用语料导致词典内容错误。
做好这两方面工作,还有助于完善资料库检索功能。根据年代属性测查是每个历史性语文词典编纂者使用最多的基础检索,但现在的资料库大多没有提供这一功能。
(3)语篇典型性要尽量保持平衡。当前已有的资料库大多崇尚收录经典文献,甚至追求经典版本,有的资料库将所有能够找到的版本都进行录入,因而产生资料同质化、相似性过高的问题,这将古籍资料库的建设囿于文献学研究的范围。
词典编纂对资料库的要求是词义的使用语境要有丰富的类型,词汇语用特征要有多样性,经典文献并不都能全面准确地反映当时的主流语言现象,一些非经典文献可能对当时的语言事实和重要规律反映得更加明显。因此词典编纂要求的资料必须是全面的,要将经典文献与非经典文献、主流文献与非主流文献的收录按照一定的比例初步平衡起来。
可以根据文献的影响面、流通度、知晓度、重要性等因素建立一个评价标注体系,最好等级化和参数化,这样可以允许用户根据语篇重要性的阈值设置检索参数,进行对比检索,以保证被释词的义域的广度、释义的丰度以及例证的代表性。
(4)语体色彩要尽量保持平衡。很多资料库排斥古白话作品,认为其不登大雅之堂,这种做法是不可取的。
历史语文词典侧重描写历史词汇历时发展演变或历史上某一时期的词汇情况,观察和描写的范围应该包括所有的词汇,文言词(雅言)、口语词、方言词、语法功能词等类型都应按照一定的收词标准进行适当收录,这是词典收词平衡性的体现,这就要求使用这些词的古籍文本不能在资料库中失衡。如果只收录经典文言作品,由于其以模仿上古语体风格为荣(如唐朝的古文运动文风、乾嘉学派文风、清朝桐城派文风莫不如此),文言词居多,与当时的共时语言现象疏离,如果仅依靠文言语体风格的文本,历史词典就无法准确、客观地反映出词义的全面发展状况。
(5)难易度要尽量保持平衡。词汇学中测量现代语篇传播度和难易度的常用方法是词汇密度法。语篇的词汇密度是通过一个语篇或语句中实词数量占整个语篇或语句总单词数的百分比来表示,[1]如果比值高,说明其所含信息丰富,如果比值低,则信息量较低。一般信息密度高的文本较难解,而信息密度低的较易懂。现代文本中,科技语篇的词汇密度是最高的,而日常交际口语语篇的词汇密度则最低。
仿照这种方法,也可对资料库语篇的难易度进行测查并标记。由于古代汉语中很多字、词有同形同体的特点,所以可用每个古代语篇所用的生僻字字数除以全文总字数的比值来标记语篇的难易度。如果僻字占比大,文字密度就高,文章难解度就高,使用面就比较窄;而生僻字占比少,文字密度小,则较易解读,流通面也就相对广泛。
词典编纂需要的资料库要求难易度平衡,也就是文字密度属性平衡,这可以辅助考察词典被释词在平易性文献、中等难度文献、高难度文献的分布度,提供更多的词汇信息。例如一个词在难度高的文献中分布度过高,说明这个词的文雅度比较高,一般可以设为雅词;而一个词在平易性文献中分布度高,说明此词可能更为通用,有可能是当时的基本词汇中的一员。
这项工作可利用计算机自动完成,在索引每个语篇入库时,系统可自动提取字表,并提供字种与字频、总字种数与总字数等方面的信息,最后计算出每个语篇的文字密度。所有的语篇进行文字密度标注后,还可以衡量古籍资料库整体内容难易度,成为评估资料库的一个重要的参数。
资料库的服务不是指产品的售前或售后服务,而是功能服务。词典编纂需要古籍资料库能提供多样化的定向检索服务。大一统的检索模式只能造成检索结果的混乱芜杂,给人工排检、聚类带来麻烦。当前资料库大多将古籍以文本数据存储,辅以主流的关键词检索,有些提供表达式检索功能,但这些检索服务同质化现象比较严重,也没有关照到应用的个性需求,还需要做好定向检索技术的开发。定向检索技术可分为主动型检索和自动型检索两种。
在检索方面要注意三方面的开发原则和要求。
主动型检索由用户主导,按自己感兴趣的关键词检索。这种检索也是一种主动创造。因为检索结果不是预期的,当出现大量检索结果超出自己的预期,就将产生“发现”的喜悦。在词典编纂中,这些检索结果将极大地超出其原有经验,大量的语言事实不断丰富完善词典编纂者的经验,同时也使词典的释义信息不断丰化。
基本的主动定向检索服务就是关键词检索,这是资料库提供的基本功能。有些数据库,提供了一些可选择的定向检索服务,如允许用户在指定作者、指定著作、指定分类中进行定向检索,这是非常符合用户需要的,能使检索的指向更集中,检索结果更具针对性,但能提供的定向条件太少了,这也成了当前资料库的最大应用“短板”。
衡量一个资料库检索服务的水平,很重要的标准是其定向检索条件的多样性,这需要建立语篇属性的多维度、多角度、多特征的立体标记法。
多维度主要指的是用户维度。要建立多用户观念,分清文献研究用户、古代文学研究用户、古代史研究用户、汉语史研究用户、文字学研究用户、历史性词典编纂用户等,这样可以保证一库多用,在增强资料库用户群的适用面的同时,又不影响其服务的针对性。维度在检索时可由用户自主选择,而各维度中和用户无关的角度和属性标记则忽略不计,这样可以实现检索的精确化。
每个用户还可根据需要,设定语篇标注角度和具体的语篇属性特征群,如语篇载体角度,要建好语篇名、内容的主题分类、文体类型、版本、总字数、字种数、难易度与文字密度、语体风格属性、文献典型性等特征群;时间角度要建好成书年代、朝代及年号、公元纪年、文本内容年代属性等特征群;作者角度要建好作者名、作者时代、性别、籍贯等特征群……这些属性特征要以关键词的形式确定,最后形成关键词表。有了词表,就能初步体现主动型检索的定制性和多样性的特点。例如根据基于内容主题分类标记就可以类聚同语域文献,如选择“立法文献”,则《法经》《唐律疏议》《宋刑统》《通制条格》《大明律》《大清律例》等材料就会自动类聚成一个小型立法法律资料库;选择“司法文献”,则《龙筋凤髓判》《棠阴比事》《折狱龟鉴》等材料就会自动类聚成一个古代司法资料库,为历史语文词典中的法律百科词的编纂提供了帮助。
有了语篇属性的立体标记群,还可进行跨类系联检索。例如查找“凌迟”一词时,除了在前面所说的法律文献子库中进行查询,也可自动跨库系联二十四史中的“刑法志”、类书《文苑英华》中的判词等材料进行扩展测查,提供这些法律词语在司法语境中的使用情况。目前,“北大法宝”[2]最新的技术就是开发了法规条文和相关案例、裁判文书、法学文献等信息之间的关联功能,不仅能直接查找到目标关键词,还可链接与此相关的其他法律、法规、司法解释、案例、裁判文书、法律释义、实务指南和法学论文,能快速、全面、准确地提供使用者所需要的相关法律知识。但在古籍数字资料库中,这种自动的跨类检索还没有做过探索和尝试。
另外,有了多维度的特征标注集,还可以实现自由的组合检索,不同的组合检索将产生不同的检索结果,从而以材料的独特发现保证词典内容的新颖性,这样编纂出来的词典与同类词典相比创新性更为突出,更具竞争优势。
主动检索是检索的主要方式,但毕竟是有目的的检索,需要用户有充足的预备知识,而且有既定思路。这一思路有时会因检索者知识储备的不足或盲区,遗漏一些重要的语言事实和语言现象,自动型检索可很好地弥补这一缺陷。
词语在一种语言中都是处于一个复杂的语义网络中,词和词之间通过类义、同义、反义等最多达几十种语义关系进行复杂的线性和非线性联系。近些年已经建立了很多大型的“语义网”知识库,如词网、知网等。基于语义网的检索在词典编纂中尤其重要。
词典编纂是一个系统工程,词条的释义并非是个体独立的,词和词义都处于一个复杂的网络中,任何一个人都不可能凭个人力量掌握所有的已有词汇信息。而有了语义网,就可以对海量文本数据进行自动的知识挖掘和数据挖掘,将与搜索关键词有语义关系的其他词的用例全部类聚出来,从而使检索拥有了“语义联想”的功能。这一自动型联想机制所形成的扩展检索不是由用户控制的,而是由计算机自动提供的,既可为用户提供重要的二次检索的线索,也可为用户提供大量知识储备以外的检索线索,从而弥补用户知识面的不足。如果与主动检索的方式相结合,效果更好。
对于古籍资料库,建立这样的语义网络是有基础的,因为现在已经有大量的纸媒知识库,如人名词典、地名词典、职官名词典、文化词典以及雅书等类型资料汇编和辞书,如果能用现代知识本体理念整合这些已有的历史语言知识工程,建立一个全面的、层次清晰的古代词汇语义网是可能实现的。谁先拥有这样一个知识工程,谁将领导下一代古籍数字资料库的发展方向,同时对词典编纂者的吸引力也就最大。
目前,李铎在这方面做了一些研究,[3]如在《资治通鉴》中,结合扩充的正史、墓志、地方志、家谱、年谱、笔记等文献,可以要求计算机自动报告唐代皇族世系关系,生成一个以李渊为根的一个大型树状结构,不仅如此,再由母系“戚”的关系联络到李氏以外的人物,一个唐代社会结构图也会由此而产生。这一研究为服务于词典编纂的古籍数字资料库的建设提供了借鉴的样板。
主动型和自动型检索可以称为用户的主检索行为,要提高一个古籍语料库对词典编纂的服务水平,还要设计全面的辅助检索功能。例如,历史语文词典收词包括常用词和偏僻词,这两种词的处理对资料库的检索功能的要求是不同的。
在资料库中检索生僻词时,结果不会太多,处理起来较容易。但要保证两方面目标的实现:
第一,查全率。即资料要全,词典所收录的生僻词尽量都能在资料库中检索到用例。
第二,查准率。古汉语字、词多同形,生僻词在文字层面很多时候指的是生僻字,生僻字的最大特点是异体字多,与其他字之间的“通”“同”等字际关系比较复杂,所以常出现查错现象。为此,我们曾经做过专门的研究。[4]很多资料库在检索时都建好了字际关系整理表,查找一个关键字时,其异体关系也都在检索范围之内,这是一个很好的解决思路。
但字际关系是很复杂的,现在的系联工作还不够全面和细致。其中有一点至关重要,那就是一个字往往是多音、多义、多用字,而字际关系往往发生在某一个具体的义项上,所以系联时不能简单化地以词位来对应,而应该落实到词项,即以音带义,以义定用,严格按照这一原则建立一个字际关系网络,对于提高古籍检索的查准率和查全率都有裨益。为实现这一目标,我们正在研制基于Unicode大字符集的“字网”。
古汉语常用词的数目大体是固定的,几千年来基本词汇因其稳定性特点,词种变化不是太大。在一个巨型资料库中检索常用词,常会出现几万甚至几十万条的数据,而一般人手工处理检索结果的数目最高阈值在2000条左右,这使常用词语例的利用反而更困难。这种不足主要是由两种原因造成:
第一,重复用例。例如后世古籍经常会引用前世古籍,就会产生大量重复的例句,即使不是原句的重复,固定搭配字串的重复率也非常高,所以检索结果重复率的控制以及重复检索结果的有效过滤一直是资料库所要面对的重要问题。
第二,呈现方式。当前资料库检索结果的呈现方式一般是采用篇目呈现,而不是例句。使用检索结果时需要逐一打开才能看到例句及其上下文,这种呈现方式当然也就无法应用“关键词居中”技术。另外,这种显示方式整体性差,无法对检索结果产生直观的印象,而词典编纂有时特别倚重语感,语感往往就是由这些直观印象触发的。
可有针对性地采用以下措施对检索结果进行限制:
第一,过滤重复结果。如果古籍文献有句读,可以顺利地过滤掉完全重复的例句,如果没有句读,根据古文献短句多的特点,将检索跨距设置为5—8个字符(5字串以下词汇单位所占比例较大),然后类聚相同的词汇串,最后过滤重复的词汇串用例。
第二,抽样提取。如果检索结果数量过大,用户可设定例句提取的间隔行,如每n行提取一条例句,这样虽可能有遗漏,但便于词典编纂者总体了解一个常用词的大体使用情况,根据一些抽样出来的线索,再进行二次定向检索。
第三,二次检索。可根据语篇属性的立体特征群对海量检索结果进行二次检索。二次检索常用到组合检索方式。词典编纂者大多是文科出身,所以最好将多特征组合检索所要用的表达式直观化,设置好窗口界面的编程控件,让用户通过简单的点击操作就可完成合取、析取、排除检索、跨距等方面的设置。
第四,检索结果以例句的形式显示。例句及其前后语境是词典编纂的第一关注点,一屏显示多个例句并减少操作步骤,这本身也是约束常用词过多检索结果的便捷处理方式。
综上所述,我们提出了图书馆古籍数字资料库服务于语文词典编纂的建设方向,即内容方面要满足五个方面的平衡性要求,服务方面要满足主动检索、自动检索、辅助检索的功能需要。围绕这一建设方向进行图书馆古籍数字资料库的开发和应用,才能形成开发者和用户多赢的局面。同时这八方面的要求也会成为评价图书馆古籍数字资料库质量的重要参数或参考标准。
[1] Eggins Suzanne.An Introduction to Systemic Functional Linguistics[M].London:Pinter,1994:61.
[2]“北大法宝——中国法律检索系统”能帮我们做什么 [EB/OL].[2010-11-23].http://www.chinalaw info.com/bdfb/Lib_02.asp.
[3]李铎.从检索到分析——计算机知识服务的时代[J].文学遗产,2009(1):135-137.
[4]王东海.古文献数字语料库的异形字处理[J].语言文字应用,2005(4):116-120.