呼 和
(中国社会科学院 a.民族学与人类学研究所;b.中国少数民族语言研究中心,北京 100081)
虽然语言学家强调历史比较语言学与语言类型学之间的差异性,但二者之间具有一定的关联。如,历史比较语言学追溯语言历史渊源,通过比较不同语言在历史发展阶段的语音、语法及词汇,探讨语言之间的历史联系,并据此对世界语言进行谱系分类,重建或构拟亲属语言的共同原始语。在寻找语言之间的关联性、相似性和差异性等方面,历史比较语言学与语言类型学是一致的。语言类型学研究,建立人类语言类型体系,根据某种特征对语言进行分类,在研究方法上有与历史比较语言学相似之处。[1]1921年,爱德华·萨丕尔认识到亲属语言可能有共同的“内在的语音格局”(指语音系统的结构本身),而且此格局比语言其他成分更为稳定,不易发生变化。[2]叶晓锋提出,语音类型学从研究跨语言(方言土语)的语音系统结构出发,可探讨人类语音系统在结构上的共性及可能的约束。[3]
笔者在从事声学语音学研究中发现“语音声学空间分布模式”(简称“语音声学模式”)之间的“关联性、相似性和差异性”问题,并对无形的(或不可视的)“内在语音格局”生理或感知空间转换成有形的(或可视的)“内在语音格局”(声学空间格局)进行探索性研究。[4][5]笔者研究团队正在建设的“中国少数民族语言语音声学参数统一平台”(简称“语音声学参数统一平台”)是“语音声学模式”研究的基石。“语音声学参数统一平台”是语言资源声学层面的最高形式,是利用国际通用语音声学分析软件,提取有效表征语言音段和超音段的各种声学特征参数集(可比喻为语言声学特征DNA),并将其集合成完整的语音声学参数数据库,用数据库管理软件进行统一管理的平台(通用自然语言语音处理平台)。该平台具备查询检索多语种语音声学参数内所有信息、任意设定查询组合条件、对结果集合按照任意字段排序、在结果集合中查询词/音素之间任意切换、手动/自动对查询结果集进行选择并把选择结果输出到EXCEL等功能,具有实用性、稳定性、扩充性特点。[6]此平台为语音声学描写和比较研究,乃至语音类型学,特别是“基于音段或超音段(音位)声学空间分布图相似度的语言亲近度或亲属关系”研究提供有力数据支撑。
本文基于“语音声学空间分布类型”,通过计算和比较蒙古、土族、东乡、东部裕固、达斡尔等蒙古语族语言“元音声学空间分布图”和“音位声学空间分布图”的相似度,探讨其间的亲近度问题。
利用“语音声学参数统一平台”提取每种语言词首音节所有短元音的第一第二共振峰参数,并用画图软件(sma4wine)绘制每个语言词首音节短元音“元音声学空间分布图”(或“元音分布类型图”)和“音位声学空间分布图”(或“音位分布类型图”)。图1、3、5、7为未作任何修改或规整的词首音节所有元音声学空间分布格局图,图2、4、6、8为基于前者勾勒的词首音节所有元音音位声学空间分布格局图。其中,少数不是真正意义上音位分布类型图,只是变体分布范围(如,达斡尔语[])。图中MGYM、MRYM、DXYM、YGYM、DGRM依次代表蒙古语、土族语、东乡语、东部裕固语、达斡尔语的男性发音人数据。
图1 蒙古语和土族语“元音声学空间分布图”(相似度为56.35%)
图2 蒙古语和土族语“音位声学空间分布图”(相似度为55.18%)
图3 蒙古语和达斡尔语“元音声学空间分布图”比较(相似度为52.49%)
图4 蒙古语和达斡尔语“音位声学空间分布图”(相似度为50.21%)
图5 土族语和东部裕固语“元音声学空间分布图”(相似度为55.19%)
图6 土族语和东部裕固语“音位声学空间分布图”比较(相似度为56.04%)
图7 东乡语和达斡尔语“元音声学空间分布图”(相似度为49.21%)
图8 东乡语和达斡尔语“音位声学空间分布图”(相似度为47.10%)
本文用图像相似度计算方法中的“直方图方法”,计算5种语言词首音节短元音“元音声学空间分布图”和“音位声学空间分布图”之间的相似度。常用图像特征有颜色特征、纹理特征、形状特征和空间关系特征等,其中颜色特征的计算是最为常用的。颜色特征又分直方图、颜色集、颜色矩、聚合向量和相关图等,本项研究利用图像的直方图特征。为保证通用性,把所有图统一为特别规格,规则图像分为4×4块,每块分辨率为64×64。转化成规则图像之后,调用img.histogram方法获得直方图数据。获得直方图数据、图像的相似度计算,可转化为直方图的距离计算。[7]数值大小主要取决于距离公式的使用,本文直接使用网络提供的公式(本公式最初发表在赖勇浩“恋花蝶”的博客,感谢北京邮电大学信息与通信工程学院于晋尉同学的帮助):
在下面图中,图9为蒙古语(MGY)、土族语(MRY)、东部裕固语(YGY)、东乡语(DXY)和达斡尔语(DGY)男性发音人“元音声学空间分布图”相似度比较,图10为5种语言男性发音人“元音音位声学空间分布图”相似度比较;图11为土族语、东部裕固语、东乡语和达斡尔语等语言男性发音人“元音声学空间分布图”相似度比较,图12为4种语言男性发音人“元音音位声学空间分布图”相似度比较。
图9 5种语言“元音声学空间分布图”相似度比较
图10 5种语言“元音音位声学空间分布图”相似度比较
图11 4种语言“元音声学空间分布图”相似度比较
图12 4种语言“元音音位声学空间分布图”相似度比较
1.蒙古语与其他4种语言的“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较。5种语言“元音声学空间分布图”相似度为:蒙古语与土族语56%-57%、蒙古语与东部裕固语53%-54%、蒙古语与东乡语53%-54%、蒙古语与达斡尔语52%-53%,见图1、3、5、7。5种语言“元音音位声学空间分布图”相似度为:蒙古语与土族语55%-56%、蒙古语与东乡语约53%、蒙古语与东部裕固语52%-53%、蒙古语与达斡尔语50%-51%,见图2、4、6、8。5种语言“元音音位声学空间分布图”相似度数值比“元音声学空间分布图”相似度相对低,差异性较显著。最大相似度达到55%-56%,最小相似度为50%-51%(变化范围在56%-50%)。从音系层面看,“元音音位声学空间分布图”相似度相对低而差异性较显著特点,体现人类语言“语音声学类型”之间的差异性(个性),说明音系在语言中的重要性。这类关联性和差异性可作为语言亲属关系研究的衡量指标体系,具有语言学意义。从音素层面看,“元音声学空间分布图”相似度高而差异性不明显等特征,说明人类语言“语音声学类型”之间的共性(相似性),可作为语音类型研究的衡量指标体系,同样具有语言学意义。
从“元音声学空间分布图”和“元音音位声学空间分布图”两种分布图相似度数值来看,与蒙古语相似度或亲近度较高的是土族语,相似度值达56%-57%和55%-56%,而与蒙古语相似度或亲近度较低的是达斡尔语,相似度值仅为52%-53%和50%-51%,见图1-4。此结果与清格尔泰先生的“从蒙古语族各语言间的互相接近程度看,土族语同东乡语、保安语、东部裕固语比较接近”[8]的传统观点有所出入。
2.土族语、东乡语、东部裕固语、达斡尔语的“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较。4种语言“元音声学空间分布图”相似度为:土族语与东部裕固语55.19%、东乡语与东部裕固语53%-54%、土族语与达斡尔语53.13%、东部裕固语和达斡尔语51.11%、东乡语与达斡尔语49%-50%。4种语言“元音音位声学空间分布图”相似度为土族语与东部裕固语56%、土族语与东乡语54%-55%、东乡语与东部裕固语53%、土族与达斡尔语50%、东部裕固语与达斡尔语48%-49%、东乡语与达斡尔语47.10%,见图5、6、7、8。土族语、东乡语、东部裕固语和达斡尔语之间的词首音节短元音“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较结果与5种语言相似度结果相似,即“元音音位声学空间分布图”相似度数值比“元音声学空间分布图”相似度相对低而差异性较显著。最大相似度值达到了56%,最小相似度值为47%(变化范围在56%-47%)。
从两种模式图相似度数值看,土族语与东部裕固语之间的相似度或亲近度相对高,相似度值达到55%-56%,东乡语与达斡尔语之间的相似度或亲近度较低,相似度值为49%-50%和46%-48%,见图5、6、7、8。显然,上述结果与“从蒙古语族各语言间的互相接近程度看,土族语同东乡语、保安语、东部裕固语比较接近”的传统观点比较接近。[8]
通过上述分析可以看出,用直方图方法计算出来的“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较结果具有语言学意义。从音系层面看,“元音音位声学空间分布图”相似度相对低而差异性较显著特点,体现人类语言“语音声学类型”之间的差异性(个性),说明音系在语言中的重要性。这类关联性和差异性可作为语言亲属关系研究的衡量指标体系。从音素层面看,“元音声学空间分布图”相似度高而差异性不明显等特征,说明人类语言“语音声学类型”之间的共性(相似性),可以作为语音类型研究的衡量指标体系。
1.蒙古语与土族语、东乡语、东部裕固语、达斡尔语的“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较(蒙古语与其他蒙古语族语言之间的比较)。从“元音声学空间分布图”和“元音音位声学空间分布图”等两种分布图相似度数值看,与蒙古语相似度或亲近度较高的是土族语,相似度值为56%-57%和55%-56%,而与蒙古语相似度或亲近度较低的是达斡尔语,相似度值为52%-53%和50%-51%。
2.土族语、东乡语、东部裕固语、达斡尔语的“元音声学空间分布图”和“元音音位声学空间分布图”相似度比较(蒙古语以外的其他蒙古语族语言之间的比较)。从两种模式图相似度数值看,土族语与东部裕固语之间的相似度或亲近度相对高,相似度值达到55%-56%,东乡语与达斡尔语之间的相似度或亲近度较低,相似度值为49%-50%和46%-48%。
上述研究结果与结论并非是最后定论,只是探索性结果。因为这些结果与结论与图像相似度计算和图形识别技术的发展息息相关。作为探索性研究我们有待进一步澄清如下问题:第一,直方图方法是否适合用于“语音声学空间分布图”的相似度计算?是否还有更好的计算理论和方法?第二,有待更多的“音段或超音段声学空间分布图”相似度数值实证研究思路,提出较成熟的“基于音段或超音段(音位)声学空间分布图相似度的语言亲近度或亲属关系”研究的理论和方法。较成熟的理论和方法能够澄清“语言发生学上的同源关系,还是类型学上的相似性”问题。
除采用图像相似度计算方法计算“音段或超音段声学空间分布图”相似度外,还可以从“语音声学类型”视角,分类这些模式图。如,对称型和非对称型、集中型和扩散型、等边三角形、等腰三角和不等边三角形等,并观察其间的“关联性、相似性和差异性”问题,这种分类也许更符合语音类型学研究。