陈六君,刘 艳,刘炫宇,樊晓辉,袁义达,陈家伟
(1.北京师范大学系统科学学院,北京 100875;2.中国科学院遗传与发育生物学研究所,北京 100101)
中国各姓氏人口的空间分布可以作为刻画中国历史上人口迁移特征的优秀样本。首先,中国姓氏已有四千年的历史,中国人由于深受儒家文化的影响,除非有特殊的原因,一般不会改姓,姓氏的遗传十分稳定,因此,某个姓氏的历史渊源及其演化必然沉淀在该姓氏的人口空间分布中。其次,由于其悠久的历史,中国出现过许多次大范围的人口迁徙以及移民与当地人的长期融合,这一过程反映在各姓氏的人口空间分布上,使得相隔很远的地区之间其姓氏分布仍然呈现一定的相似性。更重要的是,在漫长的历史进程中,各地区的人口始终向相邻的周边地区之间持续不断地扩散和渗透(除非有不可逾越的自然隔离),直接导致相邻地区之间的姓氏分布具有高度相似性。实际上,已有研究基于中国的前300大姓进行分析,做出了这些姓氏的人口密度分布地图,这些图展示出大部分姓氏都集中分布在某一个或几个地区[12]。本文将这种现象称作各姓氏人口分布的空间聚集性,它普遍存在于各姓氏的人口空间分布模式中。
本文基于空间自相关方法对中国各姓氏的人口空间分布数据进行分析,旨在确认各姓氏人口分布的聚集特征。本文提出了姓氏“扩散距离”这一指标,用以量化各姓氏人口分布聚集性的空间范围,计算了中国前300个大姓的扩散距离,据此对这些姓氏人口分布的聚集范围进行了比较,并从各姓氏的历史人口迁移角度进行了定性解释。
本文研究所使用的数据集来源于全国公民身份证号码查询服务中心(NCIIC),包括2007年中国大陆地区12.8亿人的姓氏数据。研究中使用的地理数据信息来源于中国国家基础地理信息系统,包含362个城市(市级行政区)的地理边界信息,任意两个城市之间的地理距离按它们边界之间的最小距离计算。
空间自相关分析常常用于描述某个变量在相邻地区之间的相似程度,也用于描述任意距离范围内的地区间的相似程度[16]。本文所关注的特定姓氏人口聚集性特征,其本质就是近距离城市之间的姓氏相对频率相似的现象。为了确认中国各姓氏人口空间分布的聚集特征,并对聚集特征存在的空间范围进行量化,首先需要计算每个姓氏在不同地理距离范围内的空间自相关系数。
某个特定姓氏的空间自相关系数(I)表示为[7]
显然,空间自相关系数随所关注的距离范围不同而不同,为此,本文将所有城市对之间的地理距离分成多个距离类别。中国362个城市共构成65 341个城市对,其中965个城市对是相邻的,将这些相邻城市对的地理距离定义为第一个距离类,其距离为零。剩余不相邻城市对之间的边界距离最小为1 km,最大为4 140 km。将这些城市对按照距离远近均匀地分成50个距离类,每个距离类包含1 288(或1 287)个城市对,第二个距离类为1~100 km,第三个距离类为100~172 km,依次类推。将每个距离类中的最远距离作为该距离类的标识,由此获得51个距离类,记为Di,i=1,2,…,51。对于每个姓氏,计算每个距离类对应的空间自相关系数,从而可以得到一个由51个I组成的空间自相关系数序列{Ii}。在这个I序列中,第一个数值I1代表了相邻城市之间姓氏相对频率的相似性,第二个数值I2代表了相距1~100 km的城市之间的相似性,第三个数值I3代表了相距100~172 km的城市之间的相似性,依此类推。
如果某个特定姓氏的I序列的第一个数值显著大于0(准确地说是显著大于-1/(n-1),但在文中n=362导致这个值近似于0),则意味着该姓氏相对频率在相邻城市之间具有很高的相似性,表明该姓氏的人口分布具有空间聚集特征。如果该姓氏的I序列的前两个数值都显著大于0,则意味着相距100 km以内的城市之间都具有很高的相似性,即人口分布在100 km内都具有空间聚集特征。类似地,如果该姓氏的I序列的前三个数值都显著大于0,表明人口空间分布在172 km内都具有聚集特征。依次类推,直到从第i个数值开始,I不再显著大于0,表明相距超过第i类距离的城市之间不再具有空间自相关性。因此,各姓氏的I序列中首次不显著大于0时所对应的地理距离是刻画聚集特征的关键。
为了量化中国各姓氏人口分布聚集特征存在的空间范围,本文提出“扩散距离”指标:对于每个姓氏,将其空间自相关系数序列中I首次由正变负时对应的距离类定义为该姓氏的扩散距离,记为L,代表该姓氏人口分布在且仅在Lkm内具有空间聚集特征。基于该定义,本文将计算中国前300个大姓的扩散距离,并据此对各个姓氏人口聚集性的空间范围进行比较。需要说明的是,采用“扩散”一词是为了反映如下事实:各姓氏人口聚集性的空间范围不同实际上反映了各姓氏在历史演化中人口迁移特性的不同。
对中国前300大姓的空间自相关分析表明,除第258大姓以外,其他所有姓氏的空间自相关系数在近距离(100 km即第二距离类)内都显著大于零,即它的相对频率在近距离城市之间具有相似性。也就是说,几乎所有姓氏都具有空间聚集性,具体表现为给定姓氏相对频率高的城市在地图上聚集在一起。
考虑前300大姓的空间自相关系数Ii随距离类Di的变化情况。大部分姓氏的空间自相关系数都随着城市之间距离的增大逐渐减小,并下降到零,甚至为负。图1展示了4个典型姓氏的空间自相关系数如何随距离变化,图中竖虚线的位置代表了该姓氏的扩散距离L,即空间自相关系数首次降为零的空间距离:第5大姓的扩散距离为1 191 km(见图1a),第45大姓的扩散距离为606 km(见图1b),第145大姓的扩散距离为763 km(见图1c),第245大姓的扩散距离为481 km(见图1d)。
图1 4个典型姓氏的空间自相关系数(I)
上述结果表明中国前300大姓的相对频率在近距离下的空间自相关普遍存在,并且这种自相关会随着距离的增大逐渐减小至零。由于某个姓氏相对频率在特定距离范围内的空间自相关在一定程度上反映了该距离范围内人口迁移的程度,而与此相关的扩散距离则反映了人口迁移的具体空间范围。因此,这种广泛存在的空间自相关反映了中国历史上的人口迁移规律:距离近的地区之间发生人口扩散或迁徙的可能性大,而距离远的地区之间除了特定历史时期的大规模迁徙,较少有人口迁移。
尽管大部分姓氏的空间自相关系数随距离下降的趋势是相似的,但下降速度及其趋于零的空间距离是不同的,使得各个姓氏的扩散距离有很大区别。这表明中国各个姓氏人口分布聚集特征存在的空间范围是有差异的,这种差异与各个姓氏的源头、历史发展和大规模迁徙等因素有关。
为了得到中国各姓氏的扩散距离整体特征,本文给出了前300个大姓的扩散距离柱状分布图,如图2所示。其中,纵坐标为姓氏数量S。结果表明,有147个姓氏的扩散距离在400 km到800 km之间。前面已经提到,扩散距离的大小反映了人口迁移的具体空间范围,因此,上述结果表明大约一半的姓氏其人口迁移的空间范围大致限定在400~800 km。与此对照的是,中国所有城市对之间距离的平均值为1 300 km左右,这表明尽管中国姓氏发展历史悠久,但大部分姓氏的人口迁移仍然具有较强的局域性。
图2 中国前300个姓氏扩散距离分布柱状图
更细致的分析表明,前100个姓氏扩散距离的中位数为685 km,第101~200个姓氏扩散距离的中位数为606 km,第201~300个姓氏扩散距离的中位数为565 km。这定性地表明了姓氏扩散距离与姓氏人口规模之间存在一定的正向关系:人口规模大的姓氏其扩散距离偏大,人口规模小的姓氏其扩散距离偏小。这一特点也体现在下面事实中,姓氏扩散距离在200 km以下的姓氏共有7个,这些姓氏的排序序号都大于147,其人口规模相对较小,这大概是因为这些人口规模小的姓氏更倾向于聚集,即使有人口迁移也局限在一个相对小的空间范围内。
为了定量研究姓氏扩散距离与姓氏规模之间的关系,本文分别从姓氏规模的排序序号和姓氏规模的绝对人口数量两个层次上进行分析。
本文给出了前300大姓的扩散距离按姓氏规模排序序号的散点图(见图3)。从图3可以看出,扩散距离与姓氏序号R之间存在显著负相关,其Spearman相关系数为-0.15。由于姓氏序号是按照姓氏规模从大到小排序的,这意味着扩散距离与姓氏规模之间存在显著正相关,其Spearman相关系数为0.15。这表明姓氏规模较大的姓氏,其扩散距离较远,而姓氏规模较小的姓氏,扩散距离较近。
图3 中国前300大姓的扩散距离散点图
为了更直观地量化扩散距离与姓氏规模之间的正相关关系,本文对姓氏扩散距离与姓氏人口数量进行了对数函数关系的拟合
L=a+b×lgP
其中,L为姓氏扩散距离,P为姓氏人口数量,a,b为拟合参数。将各个姓氏的人口数量取对数,然后将人口数量的对数按照0.1等宽分箱后进行线性拟合,得到拟合参数a=63.3,b=103(见图4),拟合优度为0.26。这表明姓氏扩散距离与姓氏人口数量之间不仅是正相关的,而且存在较好的对数函数关系。
图4 姓氏扩散距离与姓氏人口数量的对数函数图
中国前300大姓的扩散距离与人口规模正相关表明:大致地说,一个姓氏的人口规模越大,其空间自相关存在的距离范围也越大。这一结果可能与不同姓氏演化发展的时间长度有关。一般而言,人口规模大的姓氏,其发展的历史较长,人口扩散或迁徙的频次和规模都可能更大,从而导致更大的累积效应,最终使得空间自相关在更大的距离范围内存在,即扩散距离更大。相反,人口规模较小的姓氏则更有可能是相对晚出现的姓氏,其发展的历史较短,人口扩散或迁徙未能拓展到更广的空间范围,从而扩散距离较小。当然其中也有一些特殊情况,例如有些姓氏的人口集中居住在中国西部,而中国西部城市之间的距离比较大,因而这些姓氏的扩散距离也较大(分别为1 493 km和1 599 km)。
本文利用空间自相关方法对中国各姓氏人口空间分布的聚集特征及其范围进行了量化,得到了如下具体结果:中国前300大姓的相对频率在近距离下的空间自相关普遍存在,并且这种自相关随着距离增大而逐渐减小至零。大约一半左右的姓氏其扩散距离都在400 km到800 km之间,且姓氏扩散距离与姓氏人口规模之间存在正相关,即大规模姓氏的扩散距离也更大。
这些结果可以从中国各姓氏在历史上的人口迁移角度进行定性解释:距离近的地区之间发生人口扩散或迁徙的可能性大,而距离远的地区之间较少有人口迁移。在农业社会中,人口迁移的强度总体来说很小,除了长期的扩散效应和大规模的人口迁徙,人们一般都是一辈子生活在同一个地方,这就导致了几乎所有姓氏都具有聚集效应。但是,由于中国姓氏经历了几千年的演化发展,长期的扩散效应和特定历史时期的大规模人口迁徙必然导致姓氏空间分布的变化。一般来说,人口规模大的姓氏经历了更长的历史,由于人口的扩散和迁徙具有累积效应,其空间自相关的距离范围会更大,表现为扩散距离更大。而人口规模小的姓氏,可能由于历史相对较短,从而扩散距离较小。