基于Leslie模型的人口语言分布预测

2019-09-10 07:22蔡银辉李淑锦池嘉莹
现代信息科技 2019年10期

蔡银辉 李淑锦 池嘉莹

摘  要:本文基于人口发展模型以及Leslie模型分析人口年龄分布和语言发展的关系,提出了语言年龄比例函数,使用阻滞增长模型预测语言传播率,得到了计算语言使用者总量和年龄分布的语言发展模型。选取杭州市统计局统计年鉴数据,使用C++进行编程,预测2020年至2035年的人口语言分布。预测结果表示二孩开放的政策使未来杭州的15-64岁年龄段普通话使用者占比明显提高,并且劳动人口抚养压力减缓,对于杭州的城市发展是有利的。另外,我们发现未来1-15岁人口数量与未开放二孩时相比会出现上升的情况,而杭州未来希望推广国际化教育,这提醒杭州政府要对未来的教育人才储备做出计划。

关键词:人口发展模型;阻滞增长;Leslie模型;全面二孩政策

中图分类号:O242.1;C924.24      文献标识码:A 文章编号:2096-4706(2019)10-0001-05

Abstract:Based on the population development model and Leslie model,this paper analyzes the relationship between population age distribution and language development,proposes a proportional function of language age,uses logistic growth model to predict language transmission rate,and obtains a language development model to calculate the total number of language users and age distribution. The statistical yearbook data of Hangzhou Statistical Bureau are selected and programmed with C++ to predict the distribution of spoken language between 2020 and 2035. The predicted results show that the two-child policy will significantly increase the proportion of mandarin speakers aged 15-64 years in Hangzhou in the future,which is beneficial to the urban development of hangzhou. In addition,we find that the number of people aged 1-15 will increase in the future compared with the second child. Hangzhou hopes to promote international education in the future,which reminds the Hangzhou government to make plans for the future education talent reserve.

Keywords:population development model;logistic growth;Leslie model;comprehensive two-child policy

0  引  言

語言是一种独特的人类交际手段,它在社会文化层面上反映了人类文明的进步。对语言的研究是必不可少的,也是历史悠久的。语言的发展一直是一个值得研究和广泛关注的问题。

人口语言结构随着政治、经济、文化的发展也在发展和变化。不同的语言之间互相渗透和融合,就会产生混杂语;其中一种语言取代另一种语言,就会造成语言的消亡;几种语言并存竞争,就会形成多语种并存的现象[1]。一个国家或者地区的语言分布与发展是政策、经济和文化发展的体现。以普通话为例,在政府政策强有力的引导下,九年义务的发展使普通话迅猛发展,也为其他多语种国家提供理论借鉴。而“一带一路”的提出,又引导了普通话走向国际,同时也促进了国际语言在中国的发展,例如英语在中国的发展。以杭州市为例,《杭州市推进教育国际化三年行动计划(2019-2021年)》的提出意味着国际语言在中国的发展将进入一个新的阶段。

预测语言的使用者数量和年龄分布是分析语言发展情况的基础,也是本文主要讨论的问题。母语使用者的数量与以该语言为官方语言的国家人口数量有关。因此,笔者考虑在预测未来人口分布的基础上建立预测语言发展的数量和结果模型,希望为决策者制定政策提供参考。

在人口预测模型方面,数学家和人口学家取得了显著的成就,其中经典的模型有Logistic模型[2]、Leslie模型[3]等。国外学者Ronald D.Lee(1993)利用时间序列方法进行有约束的生育率长期预测的方法[4];Alho JM(1990)提出了一种预测未来人口的随机人口组元方法,在该模型中,未来年龄-性别群体的大小是随机未来生命率的非线性函数[5];国内,李苑等(2015)根据基于最小二乘法的改进的Logistic模型,分别建立模型来预测中国人口的增长趋势模型[6];李琳洁等(2018)利用国家统计局第六次人口普查数 据,使用Leslie模型进行“全面二孩政策”下的中国人口预测[7];任强等(2011),用时间序列的ARMA模型对未来的生育率、死亡率进行估计,研究表明在中国人口预测方面,基于Leslie矩阵和ARMA模型的人口随机预测方法是稳健的,具有很强的适用性[8];此外,一些新的模型也被应用到人口预测领域,尹春华,陈雷(2005)将BP神经网络应用到人口预测中,预测结果表明在21世纪中国将进入老龄化阶段[9];郝永红,王学萌(2002)应用灰色系统等维灰数递补动态预测模型进行人口预测,并指出灰色预测特别适用于那些因素众多、结构复杂、涉及面广而层次较高、综合性较强、互相性较好的社会经济系统指标的趋势项[10]。

在语言研究方面,国内外学者比较关心的是语言多样化和语言迁移问题。国外学者Suzanne Romaine指出大规模语言多样性丧失的前景,促使菲什曼等学者提出了干预计划[11];Klaus Desmet研究了语言多样性对不同国家再分配的影响,指出语言多样性在统计和经济上对再分配都有显著的影响[12];国内学者罗迪江(2013)指出语言迁移是一个非线性、动态的、不断演化的复杂系统,并用CAS系统进行解释[13];于应机,韩学化(2010)从模因论的视角出发,分析迁移产生的根源,并从语言模因的观点阐释语言迁移的过程[14];唐子彦(2018)基于时间序列建立了一个语言分布预测模型,预测语言人数随时间的变化,也预测语言的地理分布[15];汪榆淋(2018)采用元胞自动机模型模拟了15种语言使用者的总人数因为各种因素的影响而随着时间的变化[16]。

根据以上分析,本文将在leslie模型的基础上,引入语言年龄比例函数,提出语言发展模型。使用杭州市统计年鉴的数据进行“全面二孩政策”下杭州的普通话使用者年龄分布。

1  Leslie模型和语言年龄比例函数的定义

根据《人口发展过程的预测》[17],结合Leslie模型的基本思路,将考虑年龄结构和生育模式的连续型人口模型离散化,即可得到离散形式的人口模型。这里不考虑迁移等社会因素的影响。

用xi(t)表示第t年i岁(指满i岁但不到i+1岁)的总人数,t=0,1,2,…;i=0,1,…,n-1(设n为最高年龄)。用bi(t)表示第t年i岁女性生育率(每位女性平均生育的婴儿数),育龄区间为[i1,i2]。简化地假设女性比与时间无关,用ki表示i岁人口的女性比,于是第t年出生的婴儿数为:

β(t)是第t年所有育龄女性平均生育的婴儿数。若女性在整个育龄期内保持生育率不变,β(t)就是第t年i1岁的每位女性一生平均生育的婴儿数,即总和生育率不变(简称生育率)或生育胎次,是控制人口数量的主要参数。

以上分析得到的式(3)、式(4)就是人口发展过程的Leslie模型。

在不考虑迁移等因素的情况下,将所要研究的地区视为一个整体。本文认为该地区的普通话使用者与该地区的人口存在联系,于是笔者定义语言年龄比例函数p(i,t),首先考虑连续情况,该函数有:

显然,表示第t年,a岁到a+k岁语言使用者人数占第t年a岁到a+k岁总人口数的比例。

为了方便计算机模拟,笔者使用离散形式用pi(t)表示第t年i岁(指满i岁但不到i+1岁)的语言使用者占i岁总人口数的比例。以普通话为例,一般情况下本文假设pi(t)≤pi(t+1),在同一个年龄段下,我们认为随着时间的推移普通话的普及率是逐渐提高的,同理有pi(t)≥pi+1(t)。在没有人口迁移的情况下,假设人口死亡率与语言无关,有pi(t)=pi+1(t+1)。此时称p0(t)为语言传播率。

本文需要考虑初始条件p0(t+1),对年龄进行分层分析时,在pi(t)=pi+1(t+1)的假设下,p0(t+1)决定了语言传播的程度,本文以普通话的推广情况为例进行讨论。

根据《中国语言文字事业发展报告(2017)》(下文简称《报告》)的介绍,新中国成立60多年来,普通话普及率从2000年的53%提高到2015年的73%左右。学界认为在推广普通话时存在以下难以彻底克服的困难:

(1)普通话推广与各民族方言文化保护之间的矛盾:《报告》显示,当前中国56个民族共有100多种语言,但是在推广普通话时,根深蒂固的本土方言和少数民族语言,依然在很大程度上占據优势,更有一些地方甚至存在蔑视和排斥普通话推广和使用的现象[18,19]。

(2)经济发展不平衡导致的地区推广差异:《国家语言文字事业“十三五”发展规划》指出虽然我国的普通话平均普及率已超过70%,但东西部之间、城乡之间发展很不平衡,西部与东部有20个百分点的差距;大城市的普及率超过90%,而很多农村地区只有40%左右,有些民族地区则更低[19]。

以上难以彻底克服的困难,说明了普通话长期推广会遇到无法避免的“阻碍”,符合“阻滞增长模型”思想,对于普通话的p0(t+1)采用阻滞增长模型进行预测,笔者认为语言的推广在一定阶段后,增长率r会递减。参数pM表示p0可以到达的最高值,初始语言传播率即p0(t+1)的预测模型如下:

在上文分析的基础上,本文希望结合语言年龄比例函数p(i,t)和Leslie模型用于对语言的使用者的总量和年龄分布进行预测,于是笔者接下来提出了基于Leslie模型的语言发展模型。

2  建立人口语言发展模型

用(t)表示第t年i岁(指满i岁但不到i+1岁)的语言使用总人数。为了方便计算引入按年龄分组的人口分布向量:

上述模型,可以计算一种语言以一定传播率传播时语言的使用者的总人数和年龄分布。

由于上述模型不考虑迁移因素,理论上xi(t)>xi+1(t+ 1),但由实际观察可知,该式并不满足。显然,将一个地区(如杭州市)看作一个不考虑迁移因素的封闭系统是不合理的。于是引入迁移量fi(t)为第t年杭州市第i年龄段净迁入人口数。即:

当一种语言的地区性分布差异不显著时,只需要通过更新人口的方法重新计算语言的年龄分布。

将fi(t)简化地看成cixi(t),在这里ci表示第i个年龄段净迁入杭州市的人口占杭州该年龄段总人口之比。假设ci与t无关,于是我们得到:

可以将矩阵A化为:

按原模型将矩阵A按以上方式更新即可得到差异不显著地区的语言的年龄分布。

对于大部分语言如普通话,笔者认为由于地方教育资源和环境影响,净迁入人口使用普通话的比例与该地区的比例函数pi(t)存在差异用pi'(t)表示净迁入人口使用普通话的比例。有带迁移的语言发展年龄分布模型如下:

不带迁移项的语言发展模型是带迁移项的语言发展模型的一种特例,当考虑一个相对孤立或者庞大的语言地区时该模型更方便。本文以杭州市的数据作为基础进行数据实验,杭州作为一个具有人口吸引力的城市,显然使用带迁移的语言发展模型更适合。

3  数据来源与数据分析

本文采用的人口数据来源于杭州统计局,历年杭州统计年鉴包含了杭州的人口数量、年龄分组和按性别分组人口结构,以及杭州市人口机械变动情况(净迁入人数)等重要数据。

由于在2008年以后杭州市统计年鉴就不再分布人口按年龄分组数据,因此我们采用统计年鉴(2008年)的人口年龄分组作为模型的初始值。全市年末人口按年龄分组(2007年末)统计了1岁到108岁每个年龄的杭州人口数量,其中44岁年龄的人口数量最多为169369人,而人口数量上排名第三的是20岁年龄的143142人。年龄结构上18岁以下人口占比为15.39%,而60岁以上人口占比为14.31%,如表1所示。

在男女性别比方面,女性占总人口的比例为48.92%,从数据上看,男女性别比在60岁前的统计数据中十分平稳,然而60岁以后由于样本的数量过少导致了男女性别比出现较大偏差。

4  “全面二孩政策”对人口语言分布及其相关方面的影响

接下来,本文采用杭州市统计年鉴(2008年)的人口年龄分组作为模型的初始值,使用带迁移的语言发展模型,预测2020年至2035年杭州市普通话使用者的变化,综合讨论“全面二孩政策”对杭州市普通话使用者年龄分布的改变,以及其对杭州市人口分布和抚养比的影响。

4.1  参数选择

本文首先确定杭州市育龄妇女的生育模式hi。在这里,通过2003年全国人口抽样调查的数据得到全国15-49岁育龄妇女生育模式(与年份无明显关系)。不失一般性,以此数据来代表杭州15-49岁育龄妇女的生育模式,如图1所示。

接下来考虑ki,即第i岁女性人口占总人口比,由杭州统计局数据得到,2007年末ki=0.4892,通过对比发现ki取值对年代t的依赖不明显,差别只在千分之几的数量级上,于是取ki=0.4892。

d0为婴儿死亡率,根据统计数据可知2008年杭州市婴儿死亡率为4.43‰,即d0=4.43‰。

对于Pi(t)即第t年i岁(指满i岁但不到i+1岁)的语言使用者占i岁总人口数的比例,无法查询到相关数据,于是我們生成一组Logistic数列,本文主要探究普通话的发展受“二胎政策”的影响。

《中国2010年人口普查资料》书中长表数据显示,2010年全国总和生育率为1.18110,我们以该数据作为未开放二孩政策下的总和生育率。在二孩政策开放后总和生育率会出现明显变化,有学者提出在二孩开放后全面实行二胎之后,新的总和生育率为原来的1.3倍[20],故笔者取1.5354作为二孩政策开放后的生育率,将模型在C++编程实现得到结果并进行分析。

4.2  “全面二孩政策”对普通话使用者分布的影响

国际一般通用标准,15-64岁属于劳动适龄范围,中国男性为16-59岁,女性为16-54岁为劳动适龄范围。《人力资源发展报告(2011~2012)》认为,中国退休年龄偏低。2013年11月12日中国共产党第十八届中央委员会第三次全体会议通过《中共中央关于全面深化改革若干重大问题的决定》指出:研究制定渐进式延迟退休年龄政策。为了方便研究我们默认15-64岁是为劳动力人口区间。

本文认为15-64岁为主要的社会劳动力贡献者,由表2可以发现在同一语言分布模式下,“全面二孩政策”使未来杭州的15-64岁年龄段普通话使用者占比明显提高,这是“全面二孩政策”对优化语言年龄分布结构的影响。对于杭州来说,这样的分布结构是更有利于杭州的城市发展建设。

4.3  “全面二孩政策”对总抚养比的影响

总抚养比就是指非劳动力人口数与劳动力人口数量之间的比率,它度量了劳动力人均负担的赡养非劳动力人口的数量。抚养比越大,表明劳动力人均承担的抚养人数就越多,即意味着劳动力的抚养负担就越严重。本文通过预测得到杭州市“全面二孩政策”前后的抚养比。

通过表3可以发现“全面二孩政策”下,抚养比增长的速度明显放缓,而且与全面开放二孩政策之前的数据差逐渐增大。因此,笔者认为“全面二孩政策”将缓解杭州市的劳动力抚养压力。

4.4  “全面二孩政策”对教育的影响

杭州市为服务“一带一路”提出《杭州市推进教育国际化三年行动计划(2019-2021年)》,计划鼓励中小学校开展国际理解教育校本课程建设。通过模型预测发现“全面二孩政策”后1-15岁年龄段的人口数量会相对于未开放二孩明显提高,如表4所示。

政策前后杭州市的15岁及以下人口出现上升,这是全面二孩计划带来的必然结果,是优化年龄结构的必要过程,而这一变化对于教育的需求提出了要求,政府部门应该考虑“全面二孩政策”对教育人才储备,教学设施的规划产生的影响,并有计划地提出新的政策要求。

5  结  论

本文在宋健的人口发展模型以及Leslie模型基础上,分析人口年龄分布和语言发展的关系,提出了语言年龄比例函数p(i,t),并用阻滞增长(Logistic)模型来预测p0(t+1),得到了计算语言使用者总量和年龄分布的语言发展模型。在数据实验中我们用C++进行编程预测。

利用杭州市的统计数据,判断“全面二孩政策”对普通话的影响,数据结果表示全面开放二孩生育的政策使未来杭州的15-64岁年龄段普通话使用者占比明显提高,劳动力人口抚养压力相对减缓,对于杭州的城市发展是有利的。另外,本文发现未来的1-15岁人口数量会比未开放二胎时会出现上升的情况,到2035年时候,会比未开放二胎增长30%,而杭州未来希望推广国际化教育,这需要杭州政府对未来的教育人才储备做出针对性计划。

参考文献:

[1] 姜国权.人口语言结构的语言经济学视角——以北京为例 [J].前沿,2011(4):151-154.

[2] 王志福,管杰,苏再兴.基于logistics模型的中國人口增长预测 [J].渤海大学学报(自然科学版),2010,31(4):326-330.

[3] 解保华,陈光辉,孙嘉琳.基于Leslie矩阵模型的中国人口总量与年龄结构预测 [J].广东商学院学报,2010,25(3):15-21.

[4] Ronald Demos. Modeling and forecasting the time series of US fertility:Age distribution,range,and ultimate level [J]. International Journal of Forecasting,1993,9(2):187-202.

[5] Juha M. Alho. Stochastic methods in population forecasting [J]. International Journal of Forecasting,1990,6(4):521-530.

[6] 李苑,杨陈陈,王雪峰,等.基于最小二乘法的改进的Logistic人口模型 [J].科技视界,2015(31):7-9.

[7] 李琳洁,朱家明,陈富媛.基于Leslie模型对全面二孩政策下的人口预测 [J].现代商贸工业,2018,39(13):134-135.

[8] 任强,侯大道.人口预测的随机方法:基于Leslie矩阵和ARMA模型 [J].人口研究,2011,35(2):28-42.

[9] 尹春华,陈雷.基于BP神经网络人口预测模型的研究与应用 [J].人口学刊,2005(2):44-48.

[10] 郝永红,王学萌.灰色动态模型及其在人口预测中的应用 [J].数学的实践与认识,2002(5):813-820.

[11] SUZANNE romaine. Planning for the survival of linguistic diversity [J]. Language Policy,2006,5(4):443-475.

[12] Klaus Desmet,IgnacioOrtuo-Ortín,Shlomo Weber. LINGUISTIC DIVERSITY AND REDISTRIBUTION [J]. Journal of the European Economic Association,2009,7(6):1291-1318.

[13] 罗迪江.基于CAS的语言迁移的生成过程探析 [J].外国语文,2013,29(5):75-79+118.

[14] 于应机,韩学化.模因论视角下的语言迁移 [J].宁波大学学报(人文科学版),2010,23(3):48-51.

[15] 唐子彦.基于时间序列的世界语言分布预测模型 [J].中国高新区,2018(13):37.

[16] 汪榆淋.基于元胞自动机各语言人口分布分析[J].信息记录材料,2018,19(10):56-57.

[17] 宋健,于景元,李广元.人口发展过程的预测 [J].中国科学,1980(9):920-932.

[18] 严春艳,廖鹏程.民族地区高校普通话推广的困难与对策研究 [J].南宁师范高等专科学校学报,2009,26(4):89-92.

[19] 储岚璐.普通话推广中的问题与对策 [J].理论建设,2012(3):110-112.

[20] 牛亚星,杨旺,王国爽,等.黑龙江省二孩政策实施后的人口预测分析 [J].高师理科学刊,2016,36(4):11-15.

作者简介:蔡银辉(1995-),男,汉族,福建莆田人,本科,研究方向:金融数学;李淑锦(1967-),女,汉族,山西原平人,教授,博士,研究方向:金融工程;池嘉莹(1997-),女,汉族,浙江台州人,本科,研究方向:大数据会计。