近十年来汉字字料库研究综论

2017-03-07 05:44:23史晓丹
关键词:汉字学字书用字

史晓丹



近十年来汉字字料库研究综论

史晓丹

(渤海大学 文学院,辽宁锦州 121013)

字料库是汉字学和计算机科学两个学科交叉的产物。目前,借助语料库研究语言学的方法日臻完善,基于字料库的汉字学研究也应该成为当代汉字学研究的重要方法。论文概述了前人对字料库及字料库汉字学的研究成果,并对其进行了整体评价。总体来说,目前字料库的研究还不成熟,还有诸多问题需要解决。未来应该致力于字料库的实体建构以及字料库汉字学方面的综合研究。

字料库;基于字料库的汉字学研究;发展方向

随着计算机科学的飞速发展,很多传统学科开始与计算机科学接轨,产生了不少交叉学科,研究手段和研究领域随之获得更新。人们可以通过计算机手段对语言进行系统研究,语料库在语言研究方面发挥着越来越重要的作用。受其影响,汉字学界也尝试把语料库这种新的工具和研究手段运用到汉字研究中来,如对语篇汉字进行字频统计的计量研究。但是,语料库的研究对象主要是语言,目的是对语言、词汇、语法等现象进行探讨,从而发现语言的某些本质特征。利用语料库对汉字进行研究,忽略了汉字字形本质特征的保真效果,所以亟需建立一种可供汉字学研究的字料库,并开展基于字料库的汉字学研究。本文拟就近十年来对字料库本体理论的研究和基于字料库的汉字学研究进行简要综述,希望能对目前字料库的实体建构以及字料库汉字学的研究情况有一个整体的把握,进而探求字料库研究未来的发展趋势。

一、对字料库本体理论的研究综述

“字料库”这一全新的概念最初是由李国英、周晓文提出的,字料库是指“以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。”[1]48由于字料库的概念提出时间不长,而且目前可公开使用的字料库为数不多,因此,借助字料库进行汉字学研究和汉字整理的成果比较少见。

李国英、周晓文全面描述了汉字整理的现状以及存在的诸多问题,并指出,有效解决我国汉字整理信息化建设的瓶颈问题,就必须建立统一的汉字整理平台、建立一个“全”而且“真”的真实文本大规模数据库[2]。

王平以魏晋南北朝石刻用字数据库与断代汉字发展史研究为例,对数据库汉字学的研究内容、研究方法、分类及研究流程等四个方面内容展开论述。数据库汉字学的研究内容大致可以分为两大方面:一是对于数据库本身的加工和建设;二是数据库在汉字学研究上的应用[3]。对于数据库汉字学的分类,标准不同,划分出的类别也不同。

周晓文、李国英、王颖、毛承慈详细介绍了BNUZLK字料库系统建设的情况,包括BNUZLK字料库系统设计、运行模式及数据库处理时需要注意的要点问题等等[4]。这虽是一篇主要探讨字料库建设的文章,但是同时也给我们指出了字料库在汉字研究中应用的几项重要内容,如选取字形,汉字字频统计,文字演变研究等等。文章材料详实,论证充分,足以引起学界对字料库研究的重视。

柳建钰、王晓旭认为,只有建立高标准、操作性较强的字料库,才能更好地进行汉字学的研究。字料库系统建设的过程可以分为规划阶段、需求分析阶段、设计阶段、实现阶段、字料采集阶段、字料标注阶段和使用及维护阶段等七个阶段[5]。文章强调字料库建设完整系统的重要性,并对每个阶段相关问题的具体内容和要求做了详细阐述,对字料库的实体建构和研究具有重要的指导意义。

周晓文、李国英、朱翠萍、陈莹专门探讨了构建“基于字料库的开放式异体字整理平台”的基础及流程,并说明借助现代科技手段对异体字特点和发展规律研究的作用[6]。该文提出的异体字识别方法及整理步骤,在借助字料库开展汉字异体字整理研究中有非常好的借鉴价值。

柳建钰系统论述了字书字料库中字料标注的诸多问题,作者认为,字料标注要遵循生字料和标注内容的数据独立性原则、公开性原则、通用性原则、标准化原则及多维度原则[7]。文章勾勒出了字料库标注的具体内容,填补了前人研究的空白,是字料库研究的又一重要研究成果。

柳建钰探讨了汉字字料库在汉字整理与相关学科研究工作中的重要价值,并提出建立字料库汉字学的设想。指出字料库汉字学是“以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于各层次汉字教学及其他相关学科研究的一门集理论研究与实践研究于一体的交叉学科”[8]137-140。

柳建钰介绍了汉字字料库理论提出的背景,指出汉字字料库理论是在学科交叉方法影响下,在汉字整理研究的实践过程中,不断总结前人经验教训基础上形成的,对以后汉字学的研究以及汉字学理论体系的丰富具有重要的影响[9]。

综上,学者对字料库的本体研究主要集中在字料库系统的建构和字料标注两个方面。汉字学界对字料库系统建设与应用的研究逐步走向深化。首先,确立了字料库的本体研究和实体建构情况,研究对象和内容日益扩大,研究成果日益增多,专门的研究成果尤以北京师范大学和渤海大学最为突出;其次,研究手段逐渐从传统走向电子化的程度越来越高,研究领域逐渐发展;最后,对字料库的研究有了专门的研究课题,并且目前也建成了一些供汉字学研究的字料库或类字料库,比如北京师范大学字料库(BNUZLK)、渤海大学字书字料库(CCFD)、华东师范大学古今文字及历代字书资源库、台湾“中央研究院”“汉字构形数据库”、日本东京大学“石刻拓本资料库”等等。总之,字料库的建设与研究是一项富有应用价值和现实意义的研究课题。

但是,字料库毕竟还是一个新生事物,其研究还存在很多空白点。从当前字料库的研究成果来看,还存在字料库研究力量相对薄弱,研究领域比较狭窄;字料库研究方法还不完善,加工技术有待提高;字料库标注内容不标准、不统一、标注层次不深;字料库资源公开性较差,不能共享等诸多问题,而且虽然已经建成了不少类字料库和字料库,但是能够真正公开投入使用的却不多。

二、基于字料库的汉字学研究综述

字料库既是一种工具,也是一种载体。汉字学的研究内容主要包括汉字属性、汉字整理等方面的综合研究,基于字料库的汉字学研究可以提高汉字学研究的效率和研究结果的信度。学者们对基于字料库的汉字学研究进行了一系列的探索,取得了不少研究成果,下面按研究内容分别予以概述。

(一)基于字料库的社会用字及字频统计研究

字料库能够有效满足汉字计量研究的需要,为汉字学的研究提供了新的思路和方法。通过字料库平台,可以科学准确地描写出不同社会历史时期汉字字频的变化情况,了解社会用字的整体情况,理清汉字内在的变化规律和发展趋势,为当前的社会用字研究以及字频统计研究提供有利借鉴。

李国英、周晓文在前人社会用字调查研究的基础之上,提出字料库是解决社会用字调查的新方法,认为只有充分利用现代的计算机技术,才能真正科学客观地对社会实际用字状况作全面、系统的测查[10]。二人又指出以往基于语料库对汉字字频统计存在的主要问题,并提出改进的办法,即要建立一种满足汉字字频统计要求的字料库,使得字频统计的科学性得到保障[11]。

毛承慈详细论述了语料库对汉字字频统计研究的重要作用,仔细梳理了前辈时贤的观点看法,附带说明基于语料库的其它汉字学研究情况,指出前人利用语料库进行汉字研究的不足,并对其做出具体评价,提出字料库这种新理论对汉字学研究的重要作用以及未来的发展方向[12]。

朱玉华认为在《第一批异体字整理表》《简化字总表》《印刷通用汉字字形表》公布之前,社会用字存在一字多形、笔画繁琐、印刷不规范的问题。作者利用字料库工具,对社会用字进行综合检索、分析、对比等,真实还原了20世纪50年社会用字的基本情况,并客观评价了《三表》在制定汉字规范上的经验和不足[13]。

侯佳利通过建立《人民日报》字料库,以20世纪60年代社会用字为材料,对常用字、高频字和低频字进行统计,考察社会用字在繁简字、新旧字形以及异体字三方面的使用状况,基本上反映了当时的用字情况,在此基础上提出了汉字规范的基本观点[14]。

刘凝以《西安碑林-唐开成石经-春秋左氏传》为底本,建成一个汉字字料库。基于字料库提供的材料,按照字样、字种两个单位,对《西安碑林—唐开成石经—春秋左氏传》总体用字情况加以介绍和字频区的划分,制成《字样字频统计表》和《字种字频统计表》进行对比分析,最终得出总字数和字频数[15]。冯莉以开成石经《孟子》拓本为底本,建立相应的字料库。论文基于《孟子》字料库提供的一手材料,从字式、字种和字样三个层面对开成石经《孟子》文字进行全面的测查,得出确切的字频统计结果[16]。

后面四篇硕士论文是以字料库为载体的汉字字频统计整理和用字研究,因为充分利用了计算机测查技术,从而提高了汉字字频统计和社会用字研究结论的整体质量。

(二)基于字料库的专书字料整理研究

基于字料库的专书字料整理研究主要是指:以字料库为载体,对某本专书中的文本字形进行详尽的描写,包括汉字的字样、形音义、字际关系等。通过全面整理专书中的文字现象,探讨汉字发展的规律。

王颖建立了《尚书》字料库,具体说明字料库建设的过程,运用字料库的研究方法,对《尚书》中的文字现象进行了全面整理[17]。论文将《尚书》不同文本间的差异进行比较,在字料库的基础上,提取《尚书》不同文本具有代表性的汉字,制成《尚书》不同文本的汉字字形差异对照表,探求《尚书》汉字变异形成的主要原因。

毛承慈通过建立《诗经》字料库,对开成石经《诗经》字频统计与用字进行了研究,从字料库材料中提取一系列基本数据:总字次、字种、字式、字样等,将整理后的结果进行描述,再定量研究[18]。

朱翠萍、周晓文、陈莹介绍了字料库在字书整理方面的研究情况,认为字书文字整理方面的主要意义是能够更好地解决字书的字形采集和整理工作。作者提出利用字料库整理字书有三大主要任务:字形的采集、字形的识别、属性填充与关联[19]。字料库系统在采集、筛选字形的效率和字形保真方面具有一定的优越性,但是当前还存在许多尚待解决的问题。

冯莉以开成石经《孟子》为一手研究材料,运用字料库理论和方法,对《孟子》进行了字样的提取和字表整理,建设了开成石经《孟子》字料库,对石经《孟子》异写字、异构字进行了探讨[20]。

柳建钰、史晓丹利用字书字料库平台,对《集韵》《类篇》两本字书的实际收字数量进行了重新统计。《集韵》字头层析比较复杂,二人认为,在统计字书收字数量时,应该把正字头、释文字头、笺注字头都作为统计对象,但是要排除重出字头。经过统计,《集韵》实际收54 633字(单见31 436字),《类篇》实际收31 233字(单见30 583字)[21]。

柳建钰、王伊佳、安冬雪利用字书字料库对《集韵》和《类篇》所收字头进行穷尽性对比分析,把《类篇》未收《集韵》的字头分为字头单纯漏收和字形转写变异两大类,并以具体实例加以论证。作者认为《类篇》未收《集韵》字头的主要原因在于:《类篇》成于众手;当时的编纂条件有限;《类篇》误合《集韵》字头;《集韵》字头写法多歧以及《类篇》编纂者的思想观念较为保守等四个方面[22]。

上述论文都是借助字料库进行的汉字整理研究,是字料库理论应用于实践的良好例证,为今后汉字整理方面的研究提供了极大的便利。除此之外,还有利用字料库对中外汉字进行比较的研究。例如:王平以中日韩传世汉字字典数据库为例,详细介绍了中日韩传世文献字典数据库的各种版本,并按照一定的标准原则进行分类[23]。文章对各国历史汉字进行了整合与研究,为东亚汉字研究工具书的编纂奠定了基础。

三、发展方向

通过分析字料库及字料库汉字学的研究情况,我们可以发现,作为一种崭新的汉字学研究工具,字料库已经引起了汉字学界的关注。学术界在这方面的研究正在逐渐走向正轨。但是,学者们的研究重点主要集中在字料库的本体研究和基于字料库的汉字整理研究,而对字料库汉字学应用研究的成果还比较少,而且各方面的研究目前都还存在不少空白点。今后应该努力做好以下几个方面的工作。

(一)拓宽研究领域

字料库的研究着力要均衡,拓宽字料库及字料库汉字学研究的领域,尤其是在字料库汉字学的应用研究方面,如基于字料库的各层次汉字教学研究、基于字料库的字典编纂研究以及基于字料库的社会用字规范研究等。另外基于字料库的汉字学研究也有许多新的研究课题,如基于字料库的汉字构形属性描写与研究、基于字料库的汉字构形系统的对比研究、汉字书写属性研究、基于字料库的跨语言汉字传播研究以及字书汉字的断代研究等等。

(二)采用自动化技术

字料库的自动加工技术有待进一步完善。以我们所使用的字书字料库为例,在字料采集阶段,当前采用人工方式将字书字头切入库中,难免费时费力,效率不高。如果采用自动分析书籍版面、切图入库并识别字形,就可以节省时间,并进一步提高研究的效率和质量。

(三)字料标注高标准

字料库中汇存的字料可以分为两类,未经加工的字料称为生字料,经过加工的字料称为熟字料,熟字料的价值更大。当前字料库的字料标注侧重于数据的罗列,层次比较浅,且各家标注方式不一。要尽快拟定一个字料属性标注的基础模板以供规范使用,加大字书字料标注的规模,提高标注内容的质量,字书标注的内容要尽量做到精细,兼顾字料库建设者和使用者的要求。

(四)资源公开化

利用计算机建立公开化的资源交流平台,为用户提供字料库免费许可使用权,使用户能够获取完整的汉字学研究数据,实现资源共享的最大化。为避免资源共享的过程中出现信息泄露、成果被窃取等问题,建立资源交流平台时必须同时建立严格有序的管理机制,以保证各资源分享者研究成果的独创性和安全性。

总之,从整体上来说,字料库的研究工作还处于起步阶段,还有大量工作需要做,还有诸多问题需要解决。未来字料库的建设要向标准化、系统化、公开化方向发展,字料库汉字学的研究要结合信息网络技术,拓宽研究领域,重视研究应用性与资源的共享性。

[1] 李国英, 周晓文. 字料库建设的必要性与可行性[J]. 北京师范大学学报(社会科学版), 2009(5): 48.

[2] 李国英, 周晓文. 汉字整理工作的现状与任务[J]. 云南师范大学学报(哲学社会科学版), 2008(3): 8-10.

[3] 王平. 数据库汉字学刍议——以魏晋南北朝石刻用字数据库与断代汉字发展史研究为例[J]. 中国文字研究, 2013(1): 159.

[4] 周晓文, 李国英, 王颖, 等. BNUZLK字料库系统的建构与应用[J]. 民俗典籍文字研究, 2014(1): 111.

[5] 柳建钰, 王晓旭. 试论字料库系统建设的七个阶段[J]. 渤海大学学报(哲学社会科学版), 2015(6): 75-77.

[6] 周晓文, 李国英, 朱翠萍, 等. 基于字料库的开放式异体字整理平台的设计与实现[J]. 中国文字学报, 2015(6): 280.

[7] 柳建钰. 字书字料库中字料标注若干问题刍议[J]. 语言文字应用, 2015(3): 133-135.

[8] 柳建钰. 汉字字料库与字料库汉字学析论[C]. 陈建民. 第二届社会科学与当代人类发展国际会议论文集. 阿姆斯特丹: 阿特兰蒂斯出版社, 2016: 137-140.

[9] 柳建钰. 试论汉字字料库理论的提出背景及其价值[J]. 渤海大学学报(哲学社会科学版),2017(1).

[10] 周晓文, 李国英. 关于社会用字调查的研究[J]. 中国文字研究, 2011(1): 161-162.

[11] 李国英, 周晓文. 汉字字频统计的方法和改进[J]. 北京师范大学学报(社会科学版), 2011(6): 45.

[12] 毛承慈. 基于语料库的汉字研究综述[J]. 语文学刊, 2011(10): 48-50.

[13] 朱玉华. 基于字料库的20世纪50年代社会用字调查及规范研究[D]. 北京: 北京师范大学文学院, 2011.

[14] 侯佳利. 基于《人民日报》字料库的20世纪60年代用字调查及规范研究[D]. 北京: 北京师范大学文学院, 2011.

[15] 刘凝. 基于字料库的《春秋左氏传》字频统计与研究[D]. 北京: 北京师范大学文学院, 2012.

[16] 冯莉. 基于《孟子》字料库的字频统计与研究[D]. 北京: 北京师范大学文学院, 2012.

[17] 王颖. 基于字料库的《尚书》文字研究[D]. 北京: 北京师范大学文学院, 2012.

[18] 毛承慈. 基于字料库的《诗经》文字研究[D]. 北京: 北京师范大学文学院, 2012.

[19] 朱翠萍, 周晓文, 陈莹. 基于字料库平台的字书整理研究[J]. 中国出版, 2013(23): 55-57.

[20] 冯莉. 开成石经《孟子》字料库的异写字、异构字分析[J]. 北方文学, 2013(3).

[21] 柳建钰, 史晓丹. 《集韵》《类篇》实收字数今考[J]. 渤海大学学报(哲学社会科学版), 2016(3): 76.

[22] 柳建钰, 王伊佳, 安冬雪. 《类篇》未收的《集韵》字头考论[J]. 三峡大学学报(人文社会科学版), 2016(6): 69-73.

[23] 王平. 基于数据库的中日韩传世汉字字典的整理与研究[J]. 中国文字研究, 2014(1): 217-220.

(责任编校:叶景林)

2016-11-15

2013年度教育部人文社会科学研究青年基金项目(13YJCZH117);2014年度国家社会科学基金青年项目(14CYY060);2014年度国家社科基金重大项目(14ZDB099);渤海大学研究生创新基金项目(071502224-16)

史晓丹(1993-),女,辽宁沈阳人,硕士生。

2017-04-21 16:29;

http://kns.cnki.net/kcms/detail/21.1415.C.20170421.1629.008.html

10.15916/j.issn1674-327x.2017.03.016

H124.1

A

1674-327X (2017)03-0055-04

猜你喜欢
汉字学字书用字
“汉字学”在高中语文课堂中的实际应用及反思
容易混淆的词语
《汉语大字典》“人名用字”考误举隅
科技论文表格的编排要求(五):用线和用字
关于“宗”字的汉字学阐释
大型字书疑难字新考
无字书图书馆(节选)
汉语国际教育专业汉字学课程教学思考与方法创新
传扬汉字精神,展现汉语魅力
考试周刊(2016年63期)2016-08-15 14:42:29
辽代避讳用字“元”