现代汉字形声字声符在普通话中的表音度测查

2013-04-23 10:15胡韧奋杜健一
中文信息学报 2013年3期
关键词:声符声旁声调

胡韧奋,曹 冰,杜健一

(1.北京师范大学 中文信息处理研究所,北京 100875;2. 百度,北京 100085;3. 香港大学教育学院,香港)

1 引言

据统计,甲骨文当中有20%为形声字,在《说文解字》中已经有80%的字是形声字,现代汉字中85%以上都属于形声字[1]。造字之初,形声字读音随声符保持一致。而伴随语音系统的演变、汉字形体的变化以及各种方言的汇入影响,形声字声符的表音度悄然生变。可以说,日常生活中声符的表音作用正在汉语教学中处于一种十分尴尬的境地: 一方面它是标音读字的重要依据和工具,另一方面,根据声符读字又屡屡闹出笑话。这种问题对于学习汉语的外国学生而言尤为突出。

有学者曾研究指出,汉字教学应根据由易到难,由常用到次常用的原则,声符字的安排顺序应取决于声符字和形声字的关系[2]。即对于同一声旁形声字教学顺序的安排需要考虑声旁和所构形声字之间的语音相似度。语音相似度高的形声字在前,相似度低的在后[3]。因此,我们有必要加强形声字的研究,从不同角度出发进行形声字声符在普通话中表音度的测查。本文的研究成果——以表音度为纲的形声字类聚,不仅可以作为现代汉字规范制定的佐证,也可以帮助汉语教学工作者循序渐进地实施汉字教学,以实现教学效果的最优化。

2 相关研究

从上世纪60年代起,国内学者便开始关注形声字声符的表音状况,并开始引入统计学的方法进行分析和讨论。1965年,叶楚强先生最早对形声字声旁的表音度进行测查,并统计了《新华字典》中表音功能较强的汉字数量,得出声旁能完全表音的形声字的占总数的23.6%[4]。但其测查方式主要基于人工计数,且对形声字的分类是根据声韵调的特征是否相同,忽略了这些特征的影响比例,故而没有对声旁的表音度形成直观呈现。

周有光先生于1978年发表《现代汉字中声旁的表音功能问题》,并于1980年出版《汉字声旁读音便查》一书,同样对《新华字典》中声旁的表音情况进行统计,他计算出声旁的有效表音率为39%[5]。周先生虽然进行了精细的量化研究,但是他把部首意外的半边一概视为声旁,但汉字的合体字中除了形声字外,还有会意字等,所以这种方法是不够严谨的[6]。

上世纪90年代中期,李燕和康加深以《现代汉语通用字表》为对象,根据声韵调是否相同统计出相应8种情况下的字次。他们的研究考虑到声母和韵母对发音的影响要大于调值,故而在权重赋值上进行了调整: 只同调的计0.1分,声同或韵同的计0.45分,声、调同或韵、调同计0.5分,声、韵两项同的计0.9分,声、韵、调全同计1分,声、韵、调全不同的计0分[7]。这样的赋值与此前学者的分析统计相比可算向前进了一大步,但是,他们没有考虑到声母和韵母对于发音的影响效果不尽相同,且不同的声母或韵母间还因发音部位或发音方法之间的同或似有着一定的相关性。

上世纪90年代末,王小宁以《现代汉语常用字表》的 2 500 个常用字为字料,将1 290个形声字按语音相似(此标准将只有韵同的字也包括在内)的标准进行统计,结论是64.4%的形声字可以通过它的声旁提示出读音[8]。王小宁的研究结果从整体上揭示了声旁表音情况,但未对其分布进行具体的分类和讨论。

2008年,种一凡以《汉语水平词汇与汉字等级大纲》为研究对象,在定量的基础上根据现代汉字的形、音、义做了形声字理想分类考察。它遵循音义并重的原则,对1 945个可分析的形声字从表音、表义两个维度综合考察,赋值测算,最后分出了理想状况下的六个形声字小类[9]。

综上来看,前辈学者从上世纪60年代起便开始将定量研究的方法引入形声字声符研究范畴,试图在统计的基础上对声符的表音度进行直观的呈现。40多年来,研究者们对这一问题持续关注,并在该领域不断耕耘,取得了很大的进步,但是在声符表音度的测查上还存在以下几点不足: (1)未能考虑到声母和韵母对于发音的影响比重不同,在实际测算中将二者效用等同;(2)未能考虑到由于语音的流变,音节的声母或韵母会向其发音相近的声韵母转变,故而,不能简单地按照声、韵、调同或不同来对其表音情况进行分类,而是需要考虑声韵相似的诸种因素;(3)未能对样本中每个形声字声符的表音度进行测算,研究多偏向完全表音形声字比例的测算,这样一来便失去了对样本整体的处理和呈现;(4)研究很大程度上依靠人工辨认和统计,需要耗费大量的人力和时间。

故而,本文拟针对以上四点不足,在分类时将声调的关系分为“相同”和“不同”两个类型,而将声母、韵母的关系改分为“相同”、“相似”和“不同”三个类型,其中声母“相似”的程度充分考虑其发音部位、发音方法对发音的影响,而韵母相似程度则从介音、韵腹和韵尾三个维度进行相似度考量。同时,考虑到声、韵、调相似度对表音度大小的影响程度不同,需要制定三个不同的影响系数。最后,根据聚类分析结果得到以表音度为纲的形声字基本分类体系。

3 数据来源

为了适应语文教学、辞书编纂以及汉字机械处理和信息处理等各方面的需要,国家语言文字工作委员会、国家教育委员会共同制定并发布了《现代汉语常用字表》,包括常用字(2 500字)和次常用字(1 000字)两部分,共3 500字。经计算机抽样检测,常用字在语料中的覆盖率达到99.48%,可以说,掌握了常用字就达到了利用汉语的基本要求。本文正是以《现代汉语常用字表》中的3 500字为研究对象,对其中形声字的声符表音度进行考察。

4 声符表音度判定模型

一个汉字的读音由声、韵、调三种元素组成,形声字的声符对所构字的表音度的大小由两者声、韵、调的相似程度决定。因此,若想根据表音程度的大小对各种表音情况进行分级归类,可以将分类标准分为以下三个性状:

I(initial)——声符和所构字的声母相似程度;

F(final)——声符和所构字的韵母相似程度;

T(tone)——声符和所构字的声调相似程度。

由于声符和所构字声、韵、调的相似程度对表音度大小的决定程度并不相同,因此,须先设w1、w2、w3三个系数分别代表声、韵、调对表音度的影响程度。考虑到韵母的影响程度大于声母,且前两者远远大于声调,令w1=0.35,w2=0.55,w3=0.1。那么,声符对所构字的表音度可表示为

假设有两个形声字A和B,它们的性状数据表示如表1所示:

表1 形声字性状赋值表

如果以三个性状作为坐标轴,由性状状态的数值表示坐标值,那么形声字A和形声字B可以表示为三维空间中的两个点。我们可用两点间的距离表示他们的相似性,定义A和B的距离为

若两点距离较近,那么它们的相似性较好;反之,相似性较差。将形声字按照性状值在三维空间标出它们的坐标,属于同一类别的形声字距离应该较小,这样一来,不同类别的形声字集合应该占据着不同的空间区域。

接下来,本文将讨论形声字I、F、T三个性状值的求解,由于声、韵、调各自的影响发声机制不同,故下面对三者相似度判定分别展开讨论。

4.1 声母相似度判定

从语音学角度看来,我们可以知道,声母的发音与发音部位和发音方法有关。发音部位指气流受阻的部位,发音方法则需从三个方面进行分析: 气流的强弱(送气/不送气)、声带的振动与否(清/浊)、形成和克服阻碍的方法(塞/擦/塞擦/鼻/边/闪/颤/半元音)[10]。特别值得注意的是,在汉语普通话音系中,发音部位的影响普遍大于发音方法。

不同发音部位、发音方法相似度可由图论解决,具体标准如表2所示(不含半元音y和w):

表2 声母发音表(发音部位、方法)

图1为发音部位带权无向图P(place),设 p(i,j) 代表从Pi到Pj的最短距离。

图2为发音方法带权无向图M(manner),设m(i, j)代表从Mi到Mj的最短距离。对于发音部位和发音方法来说,两点之间距离越近代表二者发音越相近。

图1 发音部位带权无向图P

图2 发音方法带权无向图M

设两个声母Ii和Ij,其发音部位和发音方法分别对应顶点Pi、Mi、Pj、Mj,则两个声母之间的相似度可表示为

I(i,j)=100-p(i,j)-m(i,j)

另设半元音y和w与其他声母之间相似度为0,y和w之间相似度为80。

4.2 韵母相似度判定

一个音节中的韵母,通常可以分为介音(又称韵头)、韵腹和韵尾三个部分[11]。任何一个音节都一定有韵腹,但不一定有介音和韵尾。一般来说,每一个部分均由一个单元音韵母承担。其对应关系如表3所示。

表3 韵母分类表

按照国际音标的分类, 现用汉语拼音中的单元音韵母基本属于舌面元音,其发音主要由舌位的高低、舌位的前后和唇型的圆展来分类。如图3,国际上通行的舌面元音舌位图生动地为我们展示了各单元音韵母的类别和发音方式。根据此图可以整理韵母发音如表4所示。

图3 舌面元音舌位图

表4 韵母发音表

基于以上分析,我们可以构建表示介音、韵腹、韵尾各自单元音韵母之间相似度的无向图,如图4、图5、图6所示。同理,两点之间距离越短,表示二者发音越相近。

图4 介音相似度无向图

图5 韵腹相似度无向图

图6 韵尾相似度无向图

韵母由介音、韵腹和韵尾三部分组成,由于韵腹是指复韵母中开口度最大、发音最响亮的元音,也叫主要元音,因此它占据最重要的地位。我们可以设置参数c1、c2、c3来代表三个组成部分对韵母整体发音的影响程度,其值分别为25%、50%、25%。

设两个韵母F1和F2,它们的介音、韵腹和韵尾分别为F11、F12、F13,F21、F22、F23,则两个韵母之间的相似度为

F(F1,F2)=c1×F′(F11,F21)+c2×F′(F12,F22)

+c3×F′(F13,F23)

4.3 声调相似度判定

声调对音节的影响显然小于声母和韵母,而且四个声调调值之间相似程度也不相同。普通话有四种基本调值,可以归并为四个调类。根据古今调类演变的对应关系,定名为阴平、阳平、上声和去声[12]。具体描写如下:

1) 阴平: 高平调,发音时由5度到5度,简称55;

2) 阳平: 中升调,发音时由3度到5度,简称35;

3) 上声: 降升调,发音时由2度降到1度,再升到4度,简称214;

4) 去声: 全降调,发音时由5度到1度,简称51。

具体发音情况如图7所示。

图7 四声调值图

我们可以利用调值线之间的平均距离推导出两个声调之间的相似程度T(tone),如图8所示。

图8 声调相似度无向图

5 分析结果

本文从3 500个常用字中挑出2 305个标准形声字,并按照上述模型对待分类的形声字进行分类,得出结果如下。

5.1 声符和所构字的声母相似度分析

如图9所示,相似度100%(声母完全相同)的形声字有1 314个;相似度在70%到100%之间的形声字有705个;相似度在35%到70%之间的形声字有32个;相似度在0%到35%之间的形声字有254个。

图9 声符与本字声母相似度分析图

5.2 声符和所构字的韵母相似度分析

如图10所示,相似度100%(韵母完全相同)的形声字有1 603个;相似度在70%到100%之间的形声字有211个;相似度在35%到70%之间的形声字有359个;相似度在0%到35%之间的形声字有132个。

图10 声符与本字韵母相似度分析图

5.3 声符和所构字的声调相似度分析

如图11所示,相似度100%(声调完全相同)的形声字有1 193个;相似度在70%到100%之间的形声字有366个;相似度在35%到70%之间的形声字有517个; 相似度在0%到35%之间的形声字有229个。

5.4 声符和所构字的表音度分析

如图12所示,表音度100%(声韵调完全相同)的形声字有749个;表音度在80%到100%之间的形声字有830个;表音度在50%到80%之间的形声字有539个;相似度在0%到50%之间的形声字有187个。

图11 声符与本字声调相似度分析图

图12 声符与本字读音相似度分析图

6 结论

6.1 声符表音度分级结果

结合上文中声符和所构字声、韵、调相似度分析及表音度分析结果,我们可以生成以声符表音度为纲的形声字分级聚类,并定义声符表音程度的五大级标准及十小级标准,如表5所示。

表5 声符表音度分类结果

续表

注1: 当声、韵不完全相同的时候,声调在声符表音度界定中起到的作用远低于声母和韵母,故在其后的定级分类中将其作用忽略不计。

注2: 通过对图9和图10中的曲线进行斜率分析,我们将相似度达到70%及以上的一对声母界定为“相似”,相似度达到65%及以上的一对韵母界定为相似。低于70%及65%的声母、韵母则被界定为“不同”。

6.2 总结

本文从声、韵、调三个维度分别展开讨论,运用统计分析的方法对三者进行了精确的相似度分析,并以Matlab制图方式呈现。根据数据分析结果,我们将声调的关系划分为“相同”和“不同”两个类型,而将声母、韵母的关系划分为“相同”、“相似”和“不同”三个类型,并对三者分别进行了具体的数据界定: “相同”均为100%,“相似”为分别达到70%和65%,余下的则划入“不同”范畴。在以上数据分析和理论知识的基础上,本文制定了较为客观精确的形声字声符表音度分级标准,并按此将3 500个常用汉字中的2 305个形声字分成A~E五大等级、10小类别,从而利用程序得出每个等级、类别的形声字数量,并组成各级、各类的形声字表。

综观整个数据分析过程,本文在精确的一手数据和语音学、文字学专业知识的基础上,充分运用数学和计算机方法进行科学的定量分析研究,从而对现代汉语中形声字的表音度完成了一次系统而全面的测查。测查结果直观、详细,可在一定程度上为现代汉字规范制定和汉语教学提供参考和佐证。然而,在此过程中,一些参数的制定仍然存在一定主观因素的影响,需要进行更为严谨的科学验证。

[1] 王宁. 古代汉语[M]. 北京出版社, 2006:40-38.

[2] 万业馨. 略论形声字声旁与对外汉字教学[J]. 世界汉语教学. 2000, (1):62-69.

[3] 李艳霞. 对外汉语形声字教学之我见[J]. 安阳师范学院学报. 2012, (3):132-134.

[4] 叶楚强. 现代通用汉字读音的分析统计[J]. 中国语文, 1965, (3):201-205.

[5] 周有光. 现代汉字中声旁的表音功能问题[J]. 中国语文, 1978, (3):172-177.

[6] 廖才高. 现代形声字表义音功能研究述评[J]. 长沙铁道学院学报(社会科学版), 2003, 4(4):141-144.

[7] 李燕, 康加深. 现代汉语形声字声符研究[C]. 语言文字应用研究论文集(Ⅰ), 1995年: 29-36.

[8] 王小宁. 从形声字声旁的表音度看现代汉字的性质[J]. 清华大学学报(哲学社会科学版), 1999,14(1):66-69.

[9] 种一凡. 形声字的理想分类初探[J]. 语言教学与研究, 2008, (5):16-23.

[10] 黄伯荣, 廖序东. 现代汉语(上)[M ]. 北京: 高等教育出版社, 1997.

[11] 岑运强. 语言学基础理论[M]. 北京: 北京师范大学出版社,2005.

[12] 周同春. 汉语语音学[M]. 北京师范大学出版社, 2003.

猜你喜欢
声符声旁声调
你知道形声字吗
形旁在形声字识别中的优势作用*
声调歌
拼音宝宝扛声调
秦汉时期“迹”字声符的历时演变*——兼谈锡、铎两部通转及相关问题
浅谈汉字简化
坐着轿车学声调
单韵母扛声调
对外汉语教学中形声字声符特点的应用
汉字形声字识别中义符和声符的家族效应*