索引排序软件开发*

2019-01-20 16:12王雅戈叶继元黄建年
图书馆论坛 2019年11期
关键词:标目标引繁体字

王雅戈,叶继元,黄建年,唐 强,桑 梦,杨 斐

1 索引排序演进

索引编制主要包括索引标引和索引排序两个方面。索引标引主要通过人的智力劳动完成,需要人工辨别并选取索引标目。索引排序主要是机械重复工作,最好借助自动化工具完成,这样既能提高速度,还能保证准确性。索引排序主要有标目排序与合并两个步骤。标目排序,就是把不同的索引款目按照一定的顺序依次排列。20世纪20年代到60年代四角号码排序法比较流行,后来多用笔划排序,现在则以拼音排序为主。标目合并,就是把相同标目去重,并把其后的页码按照从小到大的顺序依次连接起来,页码之间用标点符号或空格分隔,形成一条条索引款目。索引排序方式取决于读者的阅读和检索习惯,按照图式理论,读者阅读和自身已有体系相一致的知识时,即使不专门学习新的知识和技能,阅读效率也会比较高[1]。目前汉语拼音普及化程度高,因此,索引排序以拼音音序法最容易为当代读者所接受。

2 索引排序软件现状

(1)办公软件。常用办公软件MICROSOFT OFFICE和WPS OFFICE都有汉字排序功能。OFFICE的WORD和EXCEL都能对汉字按行排序,既可以按汉语拼音音序排序,也可以按汉字笔画排序,排序操作简便,能直接在编辑窗口利用排序按钮进行操作,一次性完成排序。办公软件排序最大的局限是不能自动合并相同标目。

(2)索引软件。CINDEXER、Macrex、SKYTM等国外索引软件无法用于中文索引排序[2]。通用性最强的中文索引软件“索引之星”[2]标引效果良好,且具有一定的索引排序功能,但只能对索引标目按拼音或笔画排序,没有对相同标目进行合并及页码接续的功能。

(3)排序软件。许多学者进行过中文索引排序软件的研究开发[3-11]。这一类开发数量不少,但大多是临时程序,通用性不强,有的甚至只能在本机上使用,没有开源并发布,随着索引编制工作结束,排序程序就被丢弃,无法推广应用,至今没有成功开发出一个可供独立运行的索引排序软件。

3 索引排序软件开发

(1)思路。索引排序软件开发主要考虑:标目合并、页码序接两个功能;软件的完整性、独立性和通用性;用户界面友好,操作简便。

(2)架构。索引排序软件平台使用B/S架构,前台采用面向对象开发工具Java或.net,服务器端采用关系型数据库管理系统MySQL、应用服务器Tomcat。用户只需通过浏览器访问服务器网站,即可进行编制索引操作。在B/S架构下,平台的维护成本集中在服务器上,客户端只是浏览器,不需要做任何的维护。Tomcat和MySQL都是免费的,且对于中小型用户来说足够稳定可靠。

(3)字库。包括字库容量和字符顺序,不用考虑字体、字号。字库容量和字符编码标准密切相关,不同的编码标准容纳的字符数不同。通行的汉字编码标准主要有:GB2312-1980收录汉字0.6万多个;Big-5收录汉字1.3万多个;GBK收录汉字2.1万多个;GB18030-2000收录汉字2.7万多个;GB18030-2005收录汉字7万多个;ISO/IEC10646/Unicode字符集收录汉字大约8万个;《通用规范汉字属性字典》课题组已收录汉字10万个左右[12],基本包括在现有文献中所能见到的所有汉字字符。在如此多的字符集标准中,选择匹配的标准很关键。索引排序分为简体字排序和繁体字排序,两种情况需要分开进行排序。按照“索引排序对象需求原则”,先确定所需排序的索引要用到多少汉字,再选用相应字库容量的字符标准。字符集越大,数据库相应增大,排序耗时越长,服务器需更快的处理速度,网络传输需更大的带宽,维护成本随之相应增大。如果简体字用大字库,成本增高;如果繁体字用小字库,则无法排序。例如,地方志书单字多,人名、地名、职官名、物产名等专有名称,经常有异体字、避讳字等生僻字。以《上海府县旧志》为例,原文为繁体字,索引也是繁体字,索引排序需要调用繁体字排序软件。样例如下[13]:

鷄縮腿 54

糯稻 54

羊鬚糯 54

紅蓮稻 54

深水紅 54

香沙糯 54

師姑粳 54

籠下歡 54

下馬看 54

十月青 54

(4)索引排序预处理。索引排序软件处理的文档一般为TXT格式。当预先编制的索引标引稿,无论是WPS WORD、MICROSOFT WORD格式,还是EXCEL、TXT格式,甚至数据库格式,都要进行转换。如果是简体字排序,需要转换为ANSI编码的TXT文档;繁体字排序则需要转换为UTF-8编码的TXT文档。需要注意的是,文本格式转换时要保持索引标引稿的版面不变。例如,标目和页码之间的区分符号(如采用半角分号“;”)等应前后统一。仍以《上海府县旧志》索引为例,样例如下[13]:

早糯;54

大麥;54

小麥;54

耦麥;54

蕎麥;54

黄豆;54

页码和标点符号的优先顺序(汉字数字、阿拉伯数字、罗马数字,以及逗号、引号、句号)需要固定。二级标目、三级标目和一级标目的自动区分规则都应当前后一致(如以行开头每2字符空格为下一级,依此类推)。

(5)索引排序纠错。在索引标引实践中,无论是手工标引,还是利用软件自动标引,经常会发生标引错误,如有些标目和页码之间的间隔符号缺失或标错、页码缺失或误标。当标引稿中有这些类似的格式错误时,排序软件会报错,不能识别标引稿,无法完成排序。这时就需要人工校正标引稿中的格式错误,当索引标引稿篇幅比较长时,靠人工发现错误的难度大、费时长,校对效率低,往往还会遗留错误。开发纠错软件可以为人工校对提供辅助,先把标引稿搜索一遍,发现格式错误,显示错误所在行的行号及整行内容。排序人员可以根据提示快速准确找到错误所在位置予以修改,再进行排序,就能得到正确的排序结果。

(6)运行。索引排序软件已经发布,使用非常快捷方便。以往的方式索引排序所需时间与标引时间基本相当,通常需要一到两天。在索引家平台上利用排序软件,只需几秒钟即可完成一部索引的排序任务。

4 结语

索引排序软件可以是一个集成型软件,也可以是多个单一型软件,两种开发方案各有利弊。集成型索引排序软件可以把所有功能集成于一体,用户操作时按照需要,点击开关键选择功能进行操作就能实现。但这会增加索引排序软件的维护负担,有时一个不常用的功能键发生问题就可能导致整个软件无法使用。如果把它们制作成功能单一型的多个软件,则可以分别维护、分别使用,互不影响。“索引家”研发团队选择后一种开发方案,开发了一系列的多种索引排序软件,包括拼音排序软件、笔画排序软件、四角号码排序软件、排序纠错软件等,排序功能基本完善[14],使用效果良好。这些排序软件作为索引家平台的重要组成部分,与索引标引软件共同承担着中文索引建设的责任。

猜你喜欢
标目标引繁体字
中医古籍医案知识元标引方法的思考及对策
哈哈镜
《传奇汇考标目(别本)》的版本及其他
《牡丹亭》第一出《标目》英译本的翻译批评与赏析
档案主题标引与分类标引的比较分析
汉字繁简再引热议
《牡丹亭·寻梦》疑难三则新解与《标目》一则辨正
台网友鼓动“繁体字申遗”
不孕不育等2则
外国个人责任者在CNMARC中的规范标目和著录