基于语料库的盲文隐性标调研究

2018-09-10 01:34钟经华
北京联合大学学报 2018年2期
关键词:盲文

[摘要]汉语盲文标调问题困扰了我国盲文界60多年,标调准确、篇幅增加、新旧衔接、学习负担等多种矛盾交织,盲文语料库为综合平衡地协调这些矛盾提供了可能性。以使用频率、辖字数、构词数、音节平衡指数、隐性标调指数等定量研究为基础,对盲人的阅读习惯、触觉品质等进行定性研究,广泛征求盲文使用者的意见和建议,

有望形成符合盲人习惯、新旧衔接顺畅、兼顾汉语表音准确性和盲文简洁性的隐性标调方案。

[关键词]盲文;隐性标调;盲文语料库

[中图分类号]H 0262[文献标志码]A[文章编号]10050310(2018)02007306

Abstract: Tone marking has been an overwhelmed problem in Chinese Braille for more than 60 years. There are many contradictions among Pinyin accuracy, increasing space, new and old cohesion, and learning burden. Braille corpus provides the possibility of harmonizing these contradictions in a balanced manner. Based on quantitative studies on frequency, number of characters, word formation, syllable balance index and recessive tone index, and qualitative research on reading habits and tactile quality, widely consulting the views and suggestions of Braille users, it is hopeful to form a recessive tone Braille scheme in line with the blind habit, new and old cohesion, Pinyin accuracy and Braille simplicity.

Keywords: Braille; Recessive tone; Braille corpus

盲文是盲人使用的特殊文字符号,是国家语言文字的重要组成部分,自新中国成立以来一直受到国家的高度重视。目前,我国大陆存在两套互不兼容的盲文,处在书不同文的尴尬境地中。

1隐性标调的目标

《国家通用盲文(试行)》是在字字标调的基础上,利用零标记原理,将4个声调中的3个用声调符号标出,另1个声调符号隐性标调(零标记)。隐性标调是一种崭新的标调方式,表面无调实质有调。隐性标调的盲文可以通过简单规则直接读出隐藏的声调,可以使表面没有声调符号的盲文有确定的声调,起到标调的作用,而不增加篇幅。

解决现行盲文的标调问题,不仅仅是为每个字标上声调符号,还必须同时实现“读音准确、新旧衔接、省时省方、易读易写”这4个目标。前2个是刚性的上位目标,后2个是弹性的具体目标。

11读音准确

现行盲文是拼音系统,声韵调各用1方盲文符号。为了适应建国初期的经济形势,现行盲文方案非常注重节省篇幅,标调的总原则是“一般不标调,需要时才标调”。盲文出版物标调率仅为5%左右[1]。不标调的盲文读音有高度的不确定性,“猜读”是现行盲文阅读的常态,严重影响了盲人阅读理解的效果。由于标调规则的可操作性低,标调不一致的现象常见,造成了“一词多形”的现象,加剧了拼音文字“一形多词”的现象,这也成为现行盲文信息化的主要障碍。

要重新认识声调在汉语盲文中的地位和作用。汉语是声调语言,表音的汉语盲文声调必须准确。过去60余年实践中遇到的读音不准、词义不清问题,根源就是标调率低和标调的不一致性。依赖上下文猜读声调很多时候是不可靠的,标调准确才是实现读音准确的根本。

本研究重新定位了现行盲文“准确”与“节约”的关系,将“读音准确”提升为隐性标调的首要目标;将“节约篇幅”的地位大幅度降低,作为在“读音准确”的前提下力求达到的目标。

隐性标调是在字字标调基础上进行的,符合特定条件的就隐性标调,其余的都使用声调符号显性标调。隐性标调能够保证现行盲文的读音唯一确定、无歧音。为了确保隐性标调的音节能够还原出唯一的声调,同音不同调的音节不能同时隐性标调[2]。

12新旧衔接

读音准确是现行盲文标调的外在目标,新旧銜接则是内在目标。做到了新旧衔接,表面上不会显得多么重要,但是,如果做不到新旧衔接,它会成为一票否决项。双拼盲文的教训生动地显示了新旧衔接在语言文字发展中的前提性地位。

隐性标调以新旧衔接为前提,要保持现行盲文的根本稳定,使掌握现行盲文的读者可以很自然地阅读隐性标调的盲文读物。隐性标调不能设计新的声韵母及声调符号,不能改变任何原有符号。隐性标调实施后要保障现行盲文的稳定性,要保障盲人的文化传承,绝无盲文文化断层之虞。通过隐性标调改良后的现行盲文,要平稳、顺畅地实现新旧过渡,做到“学新会旧、懂旧识新”。学习了隐性标调的盲人,不需要任何准备性学习,就可以阅读旧版盲文书籍。掌握旧版盲文的人,只需经过很简单的学习和记忆隐性标调,就可以顺利阅读新版盲文,避免猜测读音。没有掌握隐性标调的人,也可以继续沿用其习惯的“猜读”方式阅读新版盲文,并且“猜”的困难小于阅读旧版盲文。

隐性标调只是完善现行盲文标调规则,规范声调符号的用法,读者感觉不到大的变动,更不会感觉又出了一套新盲文。

13省时省方

由于触觉的分辨率和感知速度都远远低于视觉,所以盲文的篇幅大、阅读速度慢。而且触觉没有类似于视觉的“余光”,阅读速度慢是各类盲文触觉阅读的共性。国际上,不同语言的盲文都尽可能地通过省方,提高盲文阅读和书写

的速度,进而省时。在这方面,英语盲文走在了前面,有比较成熟的简写方案[3]。

现行盲文字字标上声调符号,显然费时费方。隐性标调的价值正是标调而不费时费方。在字字标调的基础上隐藏部分声调,可减少篇幅,提升阅读与书写的效率。直接字字标调虽然填平了计算机不能跨过的“猜”的鸿沟,可以消除汉语盲文信息化一直存在的巨大障碍;但是,在纸介质上字字标调会大幅度增加篇幅,与盲文的简洁性背道而驰。通过隐性标调解决篇幅冗长问题,最大限度地省时省方,是本项目研究的主体内容。现行盲文囿于设计之初的时代背景,过于强调了省方省纸。随着我国经济的巨大发展和盲人阅读的多元化,省时比省方更重要。

这里所追求的省时省方是相对于字字标调而言的,相对于现行盲文的现状,是追求省时少费方。

14易读易写

易读易写是要求隐性标调简便易行,既容易阅读也容易书写。否则,可能会造成使用过程中省方不省时、省方费力的尴尬局面。

要达到易读易写,就要使隐性标调方案简单、规律性强,避免规则过于复杂或者例外过多。要做到阅读顺畅、书写方便,也使教和学省力,记忆负担小。同时实现“易读”和“易写”,要尽量使各年龄段的盲人使用隐性标调都省力。方案简单也可以在保障出版物标调准确的同时,降低盲文编校的劳动强度,提高生产效率。

充分尊重并尽可能延续多数盲人的阅读习惯是易读易写的一个方面,习惯改变的越多越费力。易读易写还包括隐性标调后盲文符号的触觉易感性,容易造成触觉辨认困难的不进行隐性标调,提高隐性标调的触觉品质也是实现易读易写的一个途径。

2语料库建设

汉语盲文研究学科基础薄弱,文献缺乏。研究资料难以搜集,盲文资料处理难度大。为此,本研究自行建立了汉语盲文研究数据库,包括基本音节表I(人教社语文&人民日报,260万字)、基本音节表II(借用现代汉语平衡语料库,1 487万字)、高频词词表(372万词)、常用同音词词表

以及轻声词表。

与国家社科基金重大项目“汉语盲文语料库建设研究”相结合,从盲文基础研究、盲文信息化研究、规范标准制修订

及教学出版等方面,对汉语盲文语料库的需求进行分析,确定盲文语料库建设目标。根据盲文语料的特点,在借鉴汉语语料库建设的理论与方法基础上,结合盲文的特殊性,探索语料库的选材原则、样本采集方案、标注加工体系,设计计算机辅助软件。采用通用和特殊相结合的方法,按照年代、内容题材,随机抽取2 000个语篇,每个语篇包含連续整段截取的5 000±500方盲文。建成了约包含1 000 万方盲文的平衡性较高、代表性好、经过多层级信息标注,在盲文领域内通用性好、盲文—拼音—汉字对照的专用型语料库。

本研究使用了在建盲文语料库中完成标注精校对的570万方盲文语料[4]。

3隐性标调定量研究

31去声统一隐性标调

在现代汉语的4个基本声调中,去声使用频率最高,约占35%[56]。将所有去声符号都隐性标调,没有记忆负担。但是,这样选择只考虑了使用频率这个因素,出现了很多不符合盲人阅读习惯的情况,如:wò隐性标调为wo,而绝大多数盲人很容易将其读成wǒ,要读成wò就很费力。比较突出的还有“你、和、他、有、一、也……”,如果将这些字所在的音节作为特例筛选出来另外处理,形成很多例外,记忆负担大大增加,不用记忆的优势也大打折扣。

另一方面,如果将所有去声符号一刀切地隐性标调,读多了新版本盲文书,再读旧版本很不习惯。隐性标调规则的导向清晰而强烈,遇到未标调的音节总认为是去声,不利于猜读旧版盲文,新旧衔接困难较大。

32高频音节隐性标调

如果放弃一刀切式的去声隐性标调,可以从基本音节中灵活选择高频音节隐性标调。在每个基本音节中进行1次独立选择,不同音节之间互不制约。

以现代汉语平衡语料库1 487万字语料[7]为基准,该语料包含1 473个带调音节,将前150个高频带调音节作为隐性标调首选对象(语料前10%的最近整十数)进行研究:使用频率是主要因素,它直接关系到隐性标调的省方效率;辖字数是指语料中出现的包含该带调音节的汉字个数,反映该带调音节对汉字的覆盖情况;构词数是指该带调音节所辖汉字能够构成二、三、四音节常用词语的个数,反映该音节的构词能力。

表1按声调分组,同一声调内按频次降序排列。因为轻声本身已经没有声调符号,不属于隐性标调的研究范畴,所以表1不包括使用频率排名前150以内的轻声音节de5、le5、li5、me5、men5、zhe5、zi5。由于这些高频轻声音节已经没有声调符号,它们所在的基本音节中不能再对其他音节隐性标调,否则,无法保障表面无调音节声调还原的唯一性。因此,表1不包括使用频率排名前150以内的li4、zi4。由于zhe4所辖字几乎仅使用在词首,而zhe5(着)几乎不使用在词首,所以zhe4隐性标调几乎不会与轻声混淆。

同一个基本音节只能有1个声调符号可以隐性标调,音同调不同的音节中,只有1个最高频音节入选表1,作为隐性标调首选音节。排除轻声后,从使用频率的角度得到109个隐性标调首选音节。但是,含隐性标调字“一、不、他、之、也、是、在”(见4.隐性标调定性研究)的7个音节不能整音节隐性标调,表1实际列出了102个隐性标调首选音节。

在本研究语料中,辖字数5个及以下的音节有32个,其中,仅辖1个字的音节有wo3、neng2、fa1、ti3、deng3。

ji4的辖字数达到43个,平均辖字数为104个。首选高频隐性标调音节的平均构词数为1915条,构词能力最强的是ren2,达501条,构词能力最弱的是dou1,只有9条。首选高频隐性标调音节平均使用频次为51 6941次,高频首选隐性标调音节在语料中的总出现率即省方效率,约为3545%。

候补高频音节是指在基本音节内的第二高频且使用频率排名前150以内的音节,表2列出了17个候补高频隐性标调音节。

只有最高频音节隐性标调明显不适合盲人阅读习惯(包括习惯上标调的字词或没有包括习惯上不标调的字词)或者有触觉缺陷时,第二高频音节才作为隐性标调的候补音节。因为轻声li5的原因,li3的候补资格取消。因为特殊隐性标调字的原因,zhi1、shi1、ye4、yi4的候补资格取消。

用候补隐性标调音节替换首选隐性标调音节,省方效率会有所降低,频次相差越小,降幅越小。例如:用jie2(频次为

31 344)替换jie1(频次为31 589),省方效率降幅微乎其微;用you2(频次为34 512)替换you3(频次为140 296),省方效率降幅明显。

排名在前150以内的第三高频音节有:ji1、xiang1、qi4、zhong4、you4。只有第二高频音节也不适合隐性标调时,才选择第三高频音节。

排名在前150以内的第四高频音节只有ji3,它在基本音节内是最低频音节,不会被选择作为隐性标调的音节。

33最高平衡性指数音节

表3列出了平衡性指数[8]为1(最高)的16个音节,这些音节是在其基本音节中唯一的带调音节,为了弥补实际语料中罕用字的偶然性,附加了《现代汉语词典》第7版中仅收录一个声调的条件。唯一声调天然具备隐性标调的条件,把它们隐性标调后,盲人不用专门记忆,也几乎读不错,很容易自然而然地还原出隐藏的声调。但是,罕用的唯一声调音节隐性标调没有省方的实际意义。这里仅将有一定省方效率的唯一声调音节作为隐性标调首选音节,但是,它们总的省方效率也很低,仅为09%左右。

34高隐性标调指数音节

表4包括了14个隐性标调指数大于15 000,且平衡性指数高于08的音节[8](ri4是唯一声调音节),以隐性标调指数降序排列。这些音节在各自的基本音节中非常突出,

被还原出隐藏的声调是顺其自然的事,盲人仅需浏览性记忆即可。它们的省方效率也较低,只有19%左右。

高频音节是隐性标调省方的主力,总省方效益靠每个音节

的积累,需要数量取胜。高频音节需要机械记忆,存在省方效率和记忆负担、读写难度的博弈。平衡性指数最高和隐性标调指数高的音节记忆负担小,但是对省方效率的贡献只能起到补充作用。

4隐性标调定性研究

定量研究是隐性标调的基础,只能给出隐性标调的候选音节,最终确定需要大量的定性研究。除了考虑各声调的使用频率、构词能力、所辖字数等定量因素外,还要综合考虑盲人阅读习惯、触觉品质等多种定性因素。

隐性标调的外形与不标调相同,这是隐性标调符合盲人习惯的基础。从遗落在定量推选出的隐性标调范围外,将盲人特别习惯不标调的音节纳入隐性标调方案,减少“该隐没隐”的现象,更好地尊重盲人阅读习惯。例如,从正在建设的汉语盲文语料库中检测发现,“很、好”不标调已经形成明显的习惯,虽然“hao3”频率不高,隐性标调指数亦不达标,但是将其纳入隐性标调方案才能符合盲人阅读习惯。类似的有biao3、nü3等,应考虑把它们作为特例进行隐性标调。

少量特殊字包括“一、不、你、我、他、之、乎、也、是、在”需要隐性标调,其同音同调字显性标调,才符合盲人习惯。它們的共同特点是使用频率较高,也有特殊性。“一、不”隐性标调,同音字显性标调,方便“一、不”变读。为了区分“他”与“她”,应延续“她”标调的习惯。还有,盲人已经习惯将“是、在”不标调,与标调的“事、再”进行区分。“之、乎、也”主要是方便阅读古文(盲人已经习惯将“者”标调,与轻声“着”区分),“乎”在本研究语料中使用频率虽然不高,但也应纳入隐性标调方案。

不带调的音节yun、yan、ya分别兼作希腊字母大写号、根号、三角函数符号[9],它们各个声调都不应隐性标调。yun还是后单列符号(第456点),不隐性标调,有利于触觉辨识。wen2虽然勉强进入首选高频隐性标调音节,从触觉品质角度考虑,其优先性应提高。

隐性标调数量的多少,选择哪些音节隐性标调,只对“省时省方、易读易写”2个弹性目标有直接影响,规律性越强,越“易读易写”。隐性标调数量越多,越“省时省方”,越不“易读易写”。只要保持声韵调符号不变,就能够保持盲文的稳定性。只要保持仅1个声调隐性标调的红线,就能够保障读音的准确性,就能够实现“读音准确、新旧衔接”这2个上位目标。

最终形成隐性标调方案,还需要广泛征求盲文使用者,包括不同年龄段的在校盲生、社会盲人、盲校教师及盲文出版专业人员的意见和建议。

5隐性标调是现行盲文的无障碍升级版

从“康熙盲字”诞生之后的130多年来,汉语盲文始终在崎岖的道路上艰难前行,每次升级都以牺牲文化积累为代价,我国至今没有深厚的盲人文化底蕴[3]。隐性标调将双拼盲文字字标调的精髓引入到现行盲文中,保留了现行盲文的外形,具有了双拼盲文的内涵,是现行盲文与双拼盲文没有文化断层的融合。

隐性标调消除了现行盲文“一词多形”,减少了“一形多词”(仅同音同调词保留同形);在表音层面上,实现了汉语的音与盲文的形一一对应,实现了从“一对多”到“一对一”的嬗变,为盲文信息化提供了支点;排除了现行盲文在信息化方面的障碍,帮助计算机跨过“猜”的鸿沟,扭转我国大陆盲文信息化远远落后于英美、落后于我国港台地区的局面。隐性标调有利于现行盲文与双拼盲文、与我国台湾盲文的计算机转换。在信息技术条件下,有望实现两岸盲人的书面沟通无障碍;为盲文信息化打下良好的基础,对盲人共享改革成果,促进盲文信息无障碍,促进盲人语言文字权益平等有重要意义。

[参考文献]

[1]钟经华,韩萍,肖航,等. 现行盲文隐性标调的理论构建[J].中国特殊教育,2013(6): 53-56.

[2]钟经华,韩萍,肖航,等. 现行盲文隐性标调的优选设计[J]. 中国特殊教育,2014(3): 30-35.

[3]钟经华. 简写是汉语盲文升级的必由之路[J]. 中国特殊教育,2005(11):37-41.

[4]汉语盲文语料库建设研究课题组

.盲文分词修改平台[DB/OL].(2017-05-15)[2017-06-16] .http://12027230228:8080/MW3.

[5]刘连元,马亦凡. 普通话声调分布和声调结构频度[J]. 语文建设,1986(3):21-23.

猜你喜欢
盲文
用手和心读
Making Braille children
盲文图书应该摆放在哪儿
希望每一本书,都是你看向这个世界的眼睛
乐高盲文积木
推广使用通用盲文的必要性
浅谈如何激视障学生学习盲文兴趣
浅谈如何激视障学生学习盲文兴趣
实用盲文教学法浅析
盲文手机