中国汉语方言多样性与生物多样性的结构方程建模分析

2023-04-08 16:15魏琰王春霞邹晨晨
关键词:汉语言方言汉语

魏琰 王春霞 邹晨晨

摘要:

为研究中国汉语方言多样性与生物多样性间相关性,建模分析了生物多样性、汉语方言多样性和公因子三者之间的关系。利用结构方程模型,综合分析去除公因子影响后,由多指标构建的生物多样性和汉语方言多样性这两个潜变量之间的关系,并采用Lasso、MCP惩罚参数和AMOS基于指定搜索方法选择模型。各省公因子得分与若干宏观指标的Spearman相关系数显示,结构方程所提炼公因子与各省面积、园林草湿地覆盖率、及森林覆盖率呈显著正相关,与各省人口密度呈显著负相关,与各省光照条件、GDP无显著相关性。研究结果表明,去除面积、植被公因子后,生物多样性与语言多样性分别呈微弱的负相关,统计学上不显著。

关键词:

汉语方言多样性;生物多样性;结构方程模型;模型选择;语言生态学

中图分类号:O213         文献标志码:A

语言多样性与生物多样性在世界范围内呈区域相关性[1],全球现存近7 000种语言中超过4 800种位于生物多样性高度丰富的地区[2]。近代工业化、城市化、人口迁移和文化冲击等加剧了生物多样性的丧失,同时也引发语言的衰落与消亡[3]。语言学家应用生物与环境的相互作用原理分析生物多样性和语言多样性的关联及形成机制,形成新的交叉学科——语言生态学[4]。语言生态学中,语言、生物多样性的相关性分析多基于环球或洲际的国家[5]、岛屿[6]、生物多样性热点地区的语种[2]。中国幅员辽阔、气候多样,具备高水平的生物多样性。汉语又是世界上使用人口最多的语言,各地汉语方言在词汇、语音和语法上的差异也体现了高度的多样性。中国省级行政区动植物种类与汉语方言语音、词汇、语法等表达种类的数据,验证了中国生物多样性与汉语方言多样性的地域相关性。关于语言、生物多样性的相关性分析,目前多数研究集中在语言指标与生物指标一对一式的计算和检验[7]。一方面,两种多样性都是抽象的综合性概念,凭借多种包含噪声与误差的外在指标度量和体现[8],也都不等同于任何单一指标本身。另一方面,语言多样性与生物多样性指标层面的正相关,也有面积、气候等共性因素的影响,并不完全体现语言与生态的互动机制。例如,面积大的省份,人口与动植物的容纳上限比较大,相比面积小的省份更有能力具备语言、生物的双重多样化。本文利用结构方程模型[9],以语言多样性、生物多样性及共性影响因素(公因子)为潜变量,将指标间一对一的相关性分析升级为多对多的同步建模。结构方程往往存在与预设结构拟合效果相当,结论却相矛盾的竞争模型。对此,本文利用多种结构方程模型选择算法,挖掘语言、生物多样性之间的关联性。

1 模型构建

汉语方言指标取自相关文献[7]对中国各省方言语音语法等种类的统计,生物指标选用相关文献[7]的动、植物种数以及构建的BI指数[8]。Box-cox变换是一种用于统计建模中方差稳定变换,用于连续的变量不满足正态分布的情况,所有指标经过Box-cox变换后,为正态性,满足结构方程模型数据要求。最终衡量结构方程的汉语方言指标(Y)共6个变量:汉语方言片数、汉语方言语音值变化的总种数、203个汉语方言词汇的不同表达方式总数、102个语法词、词法和句法的不同汉语方言表达方式总数、“爸爸”的汉语方言表达方式数、8个亲属称谓重叠式的区域组合种数;衡量生物多样性指标(X)有3个变量:动物种数、植物种数、BI指数。鉴于生物多样性与汉语言多样性可能受诸多共同因素的影响,在语言多样性(η),生物多样性(ξ)的基础上,引入公因子ζ作为第3个潜变量,并将以上所有9个变量衡量公因子。假定测量误差(e)服从独立的正态分布(图1)。

生物多样性和汉语言多样性存在区域相关性,多种衡量指标,两者之间的关系可能受植被覆盖率、面积等公因子的影响。基于以上结论,本文提出在去除公因子影响下,生物多样性影响汉语言多样性的假设。通过上述度量指标构建生物多样性、汉语言多样性以及公因子这3个潜变量,研究在公因子约束下的生物多样性与汉语言多样性的关系,结构方程模型为

X=Λxξ+Γxζ+e1∶3(1)

Y=Λyη+Γyζ+e4∶9(2)

η=bξ+e10(3)

其中,b为待估系数,度量生物多样性和语言多样性的条件相关性;Λx、Γx(3×1维)分别表示生物多样性和公因子在3个生物指标上的载荷;Λy、Γy(6×1维)分别表示语言多样性和公因子在6个语言观测指标上的载荷;ei:j=ei,…,ejT,i

模型的拟合优度检验结果(表1)表明,卡方/自由度为1.06,符合数值小于3的要求,相异性指标RMSEA等于0.048,小于理想标准0.08,相似性指标CFI和TLI均达到拟合优良标准[11]。这表明模型与数据拟合良好,因此可以展开关于生物多样性和汉语言多样性之间关系深入探讨。

分析图2,3个潜变量在各自对应观测指标上的载荷均为正值,为正相关,因子载荷越大越接近1,说明观测指标与该潜变量的关系越密切。这也体现了语言多样性、生物多样性各自观测指标的现实关联和表征意义,与公因子在指标上的双向促进作用吻合。生物多样性与公因子的路径系数为0.8,两者正相关。生物多样性与汉语言多样性的路径系数为-0.15,p=0.79,说明在分离出公因子影响后,生物多样性与汉语言多样性之间呈微弱负相关,统计学意义上不显著。

2 模型选择

在3种模型[12]选择Lasso[13]、MCP[14]和AMOS验证性搜索[12],图2模型(表2、3、4中*标注)的排名情况,以及排名前50%模型的结论指向。本文拟合的模型在所选择算法中均排进前50%。Lasso(表2)与MCP(表3)的筛选结果类似,均支持生物多样性与公因子正相关、生物多样性与语言多样性无关至微弱负相关的设定,语言多樣性与公因子则普遍无直接关联,仅Lasso模型支持微弱的正相关,现实意义上均无根本性矛盾。验证性搜索由软件Amos[15]执行,根据BCC排序(表4),排名前二的模型与本文结论一致,而后两名的BCC值远不如前者。

3 结果分析

为研究模型中的公因子与哪些因素有关,计算了中国30个省份的公因子得分估计与林地、面积、经济等因素的Spearman相关系数(表5),数据取自2021中国统计年鉴。结果显示,公因子与植被覆盖率中的园林草湿地覆盖率、森林覆盖率呈显著的区域正相关,与各省总面积也呈显著的区域正相关,且公因子与园林草湿地总面积的相关性大于与森林覆盖率和各省总面积的相关性。公因子与各省人口密度有显著的区域负相关关系,与各省的GDP和光照均无显著相关性。由此推测公因子与各省的自然环境和面积有关。

为研究国内外生物多样性与语言多样性差异,对国外生物多样性与语言多样性结构方程建模。语言多样性指标数据来自文献[16],生物多样性指标数据基于由世界保护联盟领导的全球两栖动物评估,所有指标做完Box-cox变换后数据均符合正态性。纳入结构方程的语言指标:土著语言、地方性语言、语言使用者小于10 000的语言;生物指标:濒危两栖动物、濒危鸟类、零灭绝物种和保护区。在语言多样性,生物多样性的基础上,引入公因子作为第三潜变量,假定测量误差服从独立的正态分布。

在分离公因子的影响后,基于国外生物热点地区的生物和语言的数据,国外生物多样性与语言多样性模型拟合,得到结构方程模型路径及载荷估计。结果显示,模型的拟合优度检验,相异性指标RMSEA,相似性指标CFI和TLI均达到拟合优良标准(表6)。去除公因子影响后,国外生物多样性与语言多样性的标准化载荷为0.25,p=0.445,统计结果不显著。

去除公因子的影响,国外生物多样性与语言多样性之间呈不显著的正向线性关系;国内生物多样性与汉语言多样性之间呈不显著的负向线性关系。表明国内生物多样性选取指标为植物种数、动物种数、生物多样性指数,不考虑公因子的影响,生物多样性与汉语言多样性为争夺有限的資源而存在着竞争与对抗关系,但这种关系在中国不是主流;而国外生物多样性选取指标为濒危两栖动物、濒危鸟类、零灭绝物种和保护区,不考虑公因子的影响,生物多样性与语言多样性为保护生态系统多样性而存在着合作的关系,但这个关系在国外也不是主流。因此人和生物既存在竞争关系又存在合作关系。

4 结论

本文运用结构方程构建了生物多样性指标与语言多样性指标的内在因子模型。在考虑共处自然环境等因素的影响时,生物多样性与汉语言多样性之间呈微弱的负相关,统计学上关联并不显著。考虑公因子的相关因素,园林、草地、湿地和森林为生命提供重要的生存资源和栖息地,其覆盖率高低以及各省面积大小制约着物种繁衍和文化发展,同时影响生物、汉语双方多样性,造成省与省之间多样性水平的差异。然而在这些因素给定时,相当于同一省域内有限的资源和空间下,人类社会与生物圈在资源占用上多少存在着竞争与阻抗,但这在当下的中国并不构成主要矛盾,呈不显著的负相关。在国内国外,提取公因子后,生物多样性与语言多样性分别呈不显著的负线性关系和不显著的正线性关系,人类与生物圈既有竞争关系,又有合作关系。

参考文献

[1]UPADHYAY R K, HASNAIN S I. Linguistic diversity and biodiversity[J]. Lingua, 2017, 195: 110-123.

[2]GORENFLO L J, ROMAINE S, MITTERMEIER R A, et al. Co-occurrence of linguistic and biological diversity in biodiversity hotspots and high biodiversity wilderness areas[J]. Proceedings of the National Academy of Sciences, 2012, 109(21): 8032-8037.

[3]SUTHERLAND W J. Parallel extinction risk and global distribution of languages and species[J]. Nature, 2003, 423: 276-279.

[4]LI J, STEFFENSEN S V, HUANG G W. Rethinking ecolinguistics from a distributed language perspective[J]. Language Sciences, 2020, 80: 101277.

[5]GORENFLO L J, ROMAINE S. Linguistic diversity and conservation opportunities at UNESCO World Heritage Sites in Africa[J]. Conservation Biology, 2021. 35(5): 1426-1436.

[6]COUTO H H. Ecological approaches in linguistics: A historical overview[J]. Language Sciences, 2014, 41(1): 6-25.

[7]ZHANG X L, BU Z T, JU H R, et al. Investigation on the relationship between biodiversity and linguistic diversity in China and its formation mechanism[J]. International Journal of Environmental Research and Public Health, 2022, 19(9): 5538.

[8]万本太, 徐海根, 丁晖, 等. 生物多样性综合评价方法研究[J]. 生物多样性, 2007, 15 (1): 97-106.

[9]MUTHN B. A general structural equation model with dichotomous, ordered categorical, and continuous latent variable indicators[J]. Psychometrika, 1984, 49(1): 115-132.

[10] ROSSEEL Y. Lavaan: An R Package for structural equation modeling[J]. Journal of Statistical Software, 2012, 48(2):1-36.

[11] BAGOZZI R P, YI Y. On the Evaluation of Structural Equation Models[J]. Journal of the Academy of Marketing Science, 1988, 16(1): 74-94.

[12] GARRIDO M, HANSEN S K, YAARI R, et al. A model selection approach to structural equation modelling: A critical evaluation and a road map for ecologists[J]. Methods in Ecology and Evolution, 2021, 13(1): 42-53.

[13] JACOBUCCI R, GRIMM K J, MCARDLE J J. Regularized structural equation modeling[J]. Structural Equation Modeling A Multidisciplinary Journal, 2016, 50(6): 736-736.

[14] HUANG P H, CHEN H, WENG L J. A Penalized likelihood method for structural equation modeling[J]. Psychometrika, 2017, 82(2): 329-354.

[15] 吴明隆. 结构方程模型: AMOS的操作与应用[M].重庆:重庆大学出版社,2010.

[16] PIMM S L, RUSSELL G J, GITTLEMAN J L. The future of biodiversity[J]. Science ,1995, 269: 347-350.

Structural Equation Modeling of Linguistic Diversity and Biodiversity in China

WEI Yan, WANG Chun-xia, ZOU Chen-chen

(School of Mathematics and Statistics, Qingdao University, Qingdao 266071, China)

Abstract:

Based on 30 provinces′ statistics in China, the Structural Equation Model(SEM)was established to analyze the relationship between the diversity of Chinese dialects and biodiversity after removing common factors. There was a benefit method to optimize the SEM model using model selection such as Lasso, MCP penalty parameter method, and Amos based on specified search method. It was found that common factors are related to the vegetation coverage and area of various provinces in China. The research results show that there is a weak negative correlation between the two after removing the common factors such as area and vegetation.

Keywords:

diversity of Chinese dialects; biodiversity; structural equation model; model selection;ecolinguistics

收稿日期:2023-04-19

通信作者:

鄒晨晨,女,博士,副教授,主要研究方向为应用统计分析。E-mail:zouchenchen@hotmail.com

猜你喜欢
汉语言方言汉语
方严的方言
学汉语
方言
轻轻松松聊汉语 后海
国家级一流专业 汉语言文学
说说方言
留住方言
西南大学汉语言文献研究所简介
追剧宅女教汉语
汉语不能成为“乱炖”