中型学习词典信息库的建立和属性分析*

2014-08-03 03:03刘善涛
关键词:辞书信息库义项

刘善涛, 王 晓

(南开大学 文学院,天津300071)

一、引 言

语料库语言学被称作现代语言学甚至后现代语言学[1]的重要特征。“自从COBUILD词典问世以后,建立语料库已经成为当代编纂原创性词典的必要条件”。[2][p.27-29]语料库语言学和词典学结合所形成的新型交叉学科——语料库词典学已成为辞书现代化建设的重要“法宝”。[3]语料库词典学主要指以语料库为基础的词典编纂和词典研究两方面的内容。目前,我国语料库词典学的研究多集中在计算机辅助辞书编纂的理论性研究以及基于语料库的个案性、小范围内的词条编纂实践研究,“我国语料库、知识库等基础资源库建设相对滞后,多数出版社主要还是靠手工编纂,技术比较落后,我国迄今尚没有真正意义的使用语料库编写的辞书”[4]。因此在加快词典语料信息化、数据化发展,推进语料库的深加工或数据化研究及开发[5]的同时,对已出版的、不同类型辞书的信息化处理和对比分析也是语料库词典学研究的重要课题,它将使我们更为清晰地认识词典编纂现状,了解我国词典编纂和国外同类型词典编纂的具体差距,从而进一步推动我国的辞书编纂理论和实践研究。

面向对外汉语教学的外向型学习词典的编纂是汉语辞书编纂的一个重要分支,尤其是在当前汉语国际推广的大背景下,学习词典的编纂是做好汉语国际传播,提高我国辞书的国际地位,把我国建设成为辞书强国的重要途径。但是,调查表明,国内出版的汉语词典只有6.8%的留学生拥有;93.2%的外国留学生不购买国内出版的汉语学习词典;40.18%的留学生不知道这些词典的存在。同时,国内英语学习词典的市场基本为英国出版的5大词典所占据,2009年的市场份额达93.19%。[6]数据上的巨大差异迫使我们需要进一步加强对汉语学习词典的系统深入研究。

语料选取的典型性和代表性是语料库建设的核心问题,本研究中,我们选取了我国第一部专门为具有中级汉语水平的外国人编的汉语原文词典[7][8][9],同时也是在对外汉语教学界和词典学界广受好评[10][11][12][13]的《商务馆学汉语词典》(简称《学汉》,下同)作为语料来源,对词典正文部分进行电子化处理,建设成完整系统的中型学习词典信息库,进而对信息库中的各种属性进行定量分析,以期对本词典有一个较为系统的认识,对汉语学习词典的编纂和研究有所帮助。

二、信息库的构建与实现

信息库的建设和对库中属性的定性定量分析是一个复杂系统的工程,既需要手工的纸质文本电子化处理,也需要在一系列思想和原则的指导下对信息库属性信息进行整体设计和分步描述,同时还需要一定的电脑技术手段对材料进行半智能化处理。具体步骤和做法如下:

(一)词典纸质文本的电子化处理

本词典分为双色本和四色本两个版本,由于四色本的印刷质量更为优越,不同板块的颜色标记和词典插图的画面质量也更为清晰,因此,我们将四色本作为将要处理的纸质文本。

1.词典文本的扫描和编号。用专业扫描仪将纸质文本逐页扫描到计算机,储存成电子图片,并按照词典的页码顺序对其进行编号。

2.词典图片的处理。用专门的图片处理软件对所扫描的电子图片进行处理,检查图片的完整性和清晰度,保证图片质量。同时对扫描过程中所形成的图片边框冗余成分进行切除,以便提高图片OCR(Optical Character Recognition,光学字符识别)处理过程中的软件运行速度和文字识别的正确率。

3.词典图片的OCR识别。使用专业的OCR软件ABBYY FineReader Pro 10.0版对图片文本进行自动识别,并按照图片名称逐个保存为word文档。

4.词典文档的校对和整理。软件的自动化处理并非一劳永逸,还需要将零散的word文档按顺序进行合并,并和词典文本进行对照,逐字逐句校对,统一符号和格式,保证文档处理的真实可信,为后续工作打下坚实的基础。

(二)词典信息库建设的思想和原则

1.全面真实地描述词典正文的全貌。本词典在正文前后虽在前置页和后置页部分设有说明、附录等内容,但正文是词典的主体,也是信息库建设的全部来源。本信息库除全面反映词典中的条目、注音、释义、例证等要素外,还真实呈现本词典的某些特色,如声旁字、逆序词、语素义统领词条,以及丰富的词目辨析、注意和插图等。

2.宏观、中观、微观相结合。词典正文是在一定的编纂宗旨的指导下,按照一定的体例把相关的构成要素合理布局形成的有机整体。信息库的建立既需要将有关构件进行合理切分,同时也不能切断各构件之间的联系,打破正文结构的整体性和系统性。在综合前人[14][15][16][17]理论研究的基础上,结合本信息库建设的实际,我们将词典正文分为宏观、中观、微观三个交错呼应、相互联系的有机系统。

3.分条目、逐义项单独标注。纸质词典限于其编纂传统、编纂理念、生产成本等方面的要求,在排版印刷方面显得较为紧凑,而出于研究目的的词典信息库则需要使研究对象尽量明确、具体,保证各微观要素都能在库中找到恰当的位置,进而体现出该要素的编纂价值。在具体的建库实践中,我们将一个条目(声旁字除外)对应一个语音(注音)、语法(词性或语素性质)、语义(义项)、语用(例证)、逆序、另见、注意等属性,其中语音和语义属性是必有属性。

上述思想和原则可用下图1加以表示:*本图在设计过程中参考了Hartmann的词典结构图。[16]

图1 词典信息库建设的思想和原则示意图

(三)中型学习词典信息库的建立

在上述思想和原则的指导下,我们为本信息库共确立了12种属性信息,分别为:条目、注音、语法属性、释义、例证、逆序、另见、注意、辨析、插图、参见、源词等。最终将词典正文内容按照上述12种属性信息填入由微软发布的关联式数据库管理系统Microsoft Office Access 2007中。信息库界面部分内容如图2所示:

三、基于信息库的词典属性分析

信息库的建立是为了更为全面系统地认识本词典,进而对外向型汉语学习词典的编纂和研究有所帮助。下面我们将从宏观、中观、微观三个方面对词典正文的各属性信息进行分析。

(一)词典正文宏观属性信息分析

词典是“词的一份单子”,[14][p.49-66]收词与立目对词典的宏观结构有着重要影响。义项的确立和多义义项的切分关系到对所收词目意义区域的划分和词典的体系性问题。

《学汉》共立条目12372个,总义项数17721个(包括声旁字),平均每个条目设置1.43个义项。条目单位大致分为下面几类:

声旁字76个,占条目总数的0.6%,在词典中单独立条,并用网文标出。其作用是使读者体会汉字读音时的规律,在词典中只标记读音,没有释义和例证。

单音节条目3645个,占条目总数的29.5%,分列义项数7204个,占义项总数的40.7%。其中义项数最多的为“下”,共19个义项,其次为“打”和“点”,各18个义项。各义项数所占有的条目数量和在条目总数中的比重如下表1所示:

表1 词典各义项数所占有的条目数量和在条目总数中的比重表

信息库的建设是以义项为单位的,在7204个义项所统领的单音节条目中,词典中标记为“素”的实语素项2609个;词典中标为“尾”(词尾)和“头”(词头)的虚语素项分别为16个和8个;词典中没做属性标注,表示具有构词能力的单字有274项;作为特定语境下的口语变体,词典中没有做属性标记的成词条目2个(哪、那);其他条目为能自由使用的成词语素,共计4295项。

多音节成词条目8435个,占条目总数的68.2%,分列义项数10203个,占义项总数的57.6%。其中义项数最多的为“起来”,8个义项;其次为“什么、下来”,各6个义项,见表2:

表2 词典义项数、条目数与所占条目总数比值对照表

信息库中,短语条目213个,*词典正文中有9个条目(头疼、往后、一度、一方面、一会儿、一下、有点儿、有些、干吗),虽出自同一词条,但在有的义项上没有标记词性,视为短语,有的义项上标记了词性,视为词。短语义项共计11条。占条目总数的1.8%,分列义项数238个,占义项总数的1.3%。在238个义项所统领的短语条目中,成语80项,待嵌格式26项。

(二)词典正文中观属性信息分析

词典中观结构不是一种顺序性结构,而是用以连接分布在不同位置上的信息的网络状结构,旨在重现自然语言以及学习者心里词库中的关系网络,在词典中最终表现为一种具有多维性、发散性的网络关系。[18]在本词典的正文部分,中观系统又表现为条目之间的中观联系和同一条目之内的中观联系。前者指以本条目为基点所引发的与他条目之间的联系,如:逆序词、条目辨析、和……相对、另见……页、参见……页等;后者指本条目内的附属信息与该条目的联系,如:插图、外来词的源词形式等。

为了帮助扩大读者的词汇量,本词典在单音节条目的每个义项下分别列出了逆序和正序两类词语。据统计,词典共为单音节条目的2838个义项设立了6863个逆序词,每个义项平均2.42个逆序词,设立逆序词的义项数占单音节条目义项总数的39.4%。设立逆序词数最多的义项为“人(二)”,共40个;其次为“语(一)”共36个。词典中逆序词的数目与所在条目义项总数的数值对照表,如表3:

表3 词典中逆序词的数目与所在条目义项总数的数值对照表

为了深入区分近义语素或近义词之间的差异,词典专门设立了词目辨析栏,共142组,形成了近义现象之间的互相参照。其中有139组为两个词语之间的辨析,占词目辨析总数的98%;有3组为3个词语之间的辨析,占词目辨析总数的2%,如“被——叫——让、惩办——惩罚——惩治、小时——钟头——点钟”。

在提示条目的反义语素或反义词中,词典设有“(和……相对)”的标记,形成反义现象之间的互相参照,本词典中共有669处。在提示多音字或多音词的其他读音中,词典这有“另见……相对”的标记,形成了多音现象之间的互相参照,本词典共有584组字或词设有语音另见的互参标记。同时,词典还专设了“参见”项,以便有关词语或词条和词典中的附录等信息相互参照,此类设置共有21处。

为了更为形象地理解词义,也为了方便留学生将汉语词与其母语词形成对照,加深对汉语外来词理据的理解,词典还设置了一定数量的插图,并在释义或例证之后用括号标注了该外来词条目的源词形式,形成词条内部的相互参照。其中插图共有636副,外来词所标示的源词108个。*有部分外来词标注在某些条目的释文和例证中如:“佛”和“迦”的释文和例证中都出现了“释迦牟尼(Shìjiāmóuní,梵文:Sakyamuni)”,“普”的例证中有“吉普(jípǔ,英文:jeep)”,形成了外来词标记体例以及词典立目的不统一,本文不计入外来词的数量。

(三)词典正文微观属性信息分析

微观结构是词典的基本结构单位和功能单位,是词典的主体,[14][p.68-83]它按照一定的格式提供词目词所蕴涵的全部或主要信息,主要包括注音、词类、释义、例证、注意等相关信息,其中释义是词典的核心,例证是对释义的补充和延伸。

《学汉》本着“易懂、易查、易学”[9]的目标,在词典注音方面有3点变通:一是把CH、SH、ZH从C、S、Z中分出来,单独设部;二是在L、N两部中的lǘ、lǚ、lǜ、lüè和nǚ、nüè分别排在两部的最后;三是按字头的义项统领词目,词目按照音序排列和注音。

《学汉》将同词性的多音节成词条目在词头前标记一个词性;将兼类词和同音词设在一个条目之中,不同词性分别设立不同的义项;对同形词则分立条目,用“另见……页”标示。词典为单音节条目和多音节成词条目的词性设置情况如下表4:

表4 词典中单音节条目和多音节成词条目的词性设置数据表

词典正文所标记的词性总数为14498个,其中643个短语词又分为动——宾式502个、动——结式94个、动——趋式42个、动——介式5个。

除声旁字外,《学汉》为每个条目都进行了释义,我们使用从中国语言文字网所下载的“MyZiCiFreq字词频率统计工具”软件对释文语言进行分析可知,释文总字数为186079个,所用汉字共2875个,其中只使用一次的汉字有456个,占所用汉字总数的15.8%;使用两次的汉字有320个,占所用汉字总数的11.1%。释文中所使用词语总数为133882个,出现不同词语的个数为7297个,其中只使用一次的词有2340个,占所用词语总数的32.1%;使用两次的词语有1065个,占所用词语总数的14.6%,见下表5:

表5 词典释文所用汉字数量和词语数量出现次数对照表

《学汉》为14681条义项设置了例证,占义项总数的82.8%,共设例证数为55793,平均每条义项设置3.8个例证,其中例证数最多的为“周(六)”,共13个例证,其次为“风(一)”,共12个例证,再次为“柜、国(一)、某(一)、工业、革命(二)”,各有11个例证。下表6为例证数量和义项数量的对应表:

表6 词典例证数量和义项数量的对应表

《学汉》为了更为准确地描述条目的意义和用法,深入揭示词的微观要素,还设立了“注意”栏,共511个,进一步提示了不同条目的语法搭配条件,词义色彩,文化内涵、使用条件等。

四、结 语

词典是教材的补充和延伸,是使用者解疑答惑的良师益友。在信息技术迅猛发展的环境下,[19]外向型汉语学习词典的编纂是推动汉语进一步走向世界的有效工具。但是,我们“对辞书理论研究不够”,还“缺少有针对性编写的学习型辞书”[4]。本文选取了当前学习词典中的代表为语料来源,结合现代语言学研究的数理化、计量化趋势,建立了一个封闭的词典信息库,并对词典正文中的各属性信息进行了初步统计分析。在后文的研究中,我们将对各信息进行深入挖掘,并与内向型汉语词典的典范(以《新华字典》、《现代汉语词典》为代表)和英语学习词典的代表(5大家族:牛津、剑桥、朗文、麦克米伦、柯林斯)进行对比,探讨汉语外向型词典在编纂过程中所应注意的问题以及应体现出的特色等。

[参 考 文 献]

[1] 卢磊.语料库语言学:后现代语言学的兴起[J].湖北大学学报(哲学社会科学版),2006,(4).

[2] 杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.

[3] 李宇明,庞洋.关于辞书现代化的思考[J].语文研究,2006,(3).

[4] 王铁琨.规范化、现代化与辞书强国——中国辞书事业发展的思考[J].辞书研究,2007,(1).

[5] 章宜华.国际辞书现代化技术的新理念:辞书语料数据化[J].辞书研究,2012,(2).

[6] 章宜华.汉语学习词典与普通汉语词典的对比研究[J].学术研究,2010,(9).

[7] 江蓝生.商务馆学汉语词典·序[Z].北京:商务印书馆,2007.

[8] 陆俭明.商务馆学汉语词典·序[Z].北京:商务印书馆,2007.

[9] 鲁健骥,吕文华.编写对外汉语单语学习词典的尝试与思考——《商务馆学汉语词典》编后[J].世界汉语教学,2006,(1)

[10]郑艳群.《商务馆学汉语词典》插图评析[J],世界汉语教学,2009,(1).

[11]杨金华.突出“对外”特性的释义和用法说明——析《商务馆学汉语词典》的释词[J].辞书研究,2009,(6).

[12]高慧宜.一部易查易懂的对外汉语学习词典——《商务馆学汉语词典》评论[J].辞书研究,2009,(6).

[13]刘晓梅.浅析《商务馆学汉语词典》例证的文化传播功能[J].辞书研究,2011,(4).

[14]黄建华.词典论[M].上海:上海辞书出版社,1987.

[15]袁世全.三个结构与第三结构——九论辞书框架,兼与三种观点商榷[J].辞书研究,2000,(4).

[16]Hartmann.词典学教学与研究[M].北京:外语教学与研究出版社,2005.

[17]章宜华,雍和明.当代词典学[M].北京:商务印书馆,2007.

[18]章宜华.学习词典的中观结构及其网络体系的构建[J].现代外语,2008,(4).

[19]孔辉.新形势下高校图书馆特色文献资源建设探析[J].大理学院学报,2012,(1).

猜你喜欢
辞书信息库义项
CISHU YANJIU LEXICOGRAPHICAL STUDIES
大型辞书疑难字考释七则
借助BIM构建动态造价信息库的新思路
基于普元EOS平台的信息库的设计与实现
科举干禄与语文辞书编纂
两用成语中的冷义项
Enhanced Precision
中国辞书学会第四届领导成员名单