汉语、藏语、羌语、缅甸语等400多种东亚语言被认为拥有共同的祖先语言,合称为汉藏语系。语言学家对汉藏语系内部各语支亲缘关系、分化时间以及起源地点长期存在争议。
复旦大学金力院士团队历时两年多,通过语言学和遗传学等多学科交叉的分析方法,揭示汉藏语系约6000年前最早分化于中国北方。日前,该研究论文在线发表于《自然》杂志。论文共同第一作者、复旦大学人类表型组研究院严实博士特撰文介绍相关科学问题。
300年前发现语系的秘密
我们从哪里来?在数十万年的历史中,人类如何从共同的祖先逐渐演化成为不同的族群?这一直以来都是有意思的问题。语言学是研究人类族群演化的一个重要切入点。因为语言是在传承过程中不断变化的,当一个祖先人群分化成为不同人群并迁往不同的地方而相互隔绝以后,这些人群所说的语言就会逐渐形成方言,以至最终形成不同的语言。
通过语言学方法,比如对词汇或者语法特征的比较,语言学家能够判断出哪些语言是接近的,并由此认为,这些语言有一个共同祖先。如果人群没有发生过语言换用的话,讲这些相关语言的人群也应该有一个共同的祖先人群。拥有一个共同祖先的语言被划为一个语系。
人们最早发现的一个语系是印欧语系。大约300年前,欧洲人发现印度的一些语言,比如梵语,和欧洲的拉丁语、希腊语在很多词汇的发音以及整体的语法上都有非常明显的相似性,因此认为这些语言是从一个共同的原始语分化而来的,并把这些语言称作“印欧语系”或者“印度-日耳曼语系”。此后通过语言的整理和比较,语言学家把欧洲绝大多数的语言,以及亚洲的印度、伊朗、亚美尼亚等地的很多语言都划入了印欧语系。再结合历史学、考古学、文化特征等,学者们还推测出,讲原始印欧语的人数千年前生活在黑海和里海北岸的草原上或者安纳托利亚(今土耳其),有车、马、犁等,还能推测出他们各自在什么时候通过什么样的路径扩散到现在广阔的分布地域的。
通过同样的办法,语言学家们尝试把世界各处的语言都联系起来,归入一百多个语系。人们发现汉语和藏语、缅甸语、彝语、嘉绒语、白语、土家语、西夏语、景颇语、克伦语等都共享大量的词汇,尤其是最基本的一些词汇,例如人称代词、数词、亲属关系、身体部位词等。比如古汉语中“五”“吾”“鱼”的发音,和藏语、缅语这三个词的发音都非常相似,而三个词的语义并没有联系,而且都是语言里面非常基本的词汇,很难从其它语言借用,因此这几个词只能是有共同来源的。类似的例子还有很多。因此汉语、藏语、缅语必然是从一个共同的祖先语言那里继承下来的。
我们应该注意,语言的出现远远早于文字的出现,语系诞生和最早分化的时候都没有文字,使用什么文字主要是晚期受什么文化影响的结果,而与语言的来源和谱系没有必然关系。比如维吾尔语历史上曾经用突厥字母、回鹘字母、阿拉伯字母、拉丁字母等来书写。日语、朝鲜语、越南语历史上受到汉文化非常深刻的影响,文字使用了汉字,语言里也引入了大量的汉语借词,然而这些语言最基础的核心词汇却和汉语的来源不同,因此这些语言不属于汉藏语系。日语和朝鲜语属于隔离的语言(也有学者将其划入阿尔泰语系),而越南语属于南亚语系。
汉藏语系起源历史众说纷纭
汉藏语系主要分布在中国、缅甸、印度北部喜马拉雅山南麓和东北部、尼泊尔、不丹等地。以汉藏语系语言为母语的人口约有15亿,仅次于印欧语系。汉藏语系已知有400多种语言,汉语、藏语和缅甸语及其方言的使用在绝大多数人口分布区域,而众多使用人数较少的语言集中在四川西部、云南、西藏东南部、缅甸北部、印度东北部、尼泊尔这一带。
汉藏语系的语言内部差异非常大。在语法方面,多数汉藏语都是主语-宾语-谓语的语序,比如“我饭吃”,只有汉语、白语(云南大理白族的语言)和缅甸东部的克伦语是主语-谓语-宾语的语序,就是“我吃饭”。语音上多样性也很强,有的有8个以上声调,也有的没有声调。
在语言分类里,传统上把汉藏语系中汉语之外的其他语言统称作“藏缅语族”。然而,因为汉藏语系语言之间差异很大,又缺乏历史文献材料,汉藏语的早期历史,以及汉藏语系各语支之间的亲疏关系在学者之间有很多争议。
其中一种比较传统的观点认为,汉藏语系起源于6000年前左右黄河流域的仰韶文化(约7000-5000年前,陕西、甘肃东部、河南西部一带)和马家窑文化(约5500-4000年前,甘肃中东部、青海东北部一带)。所有汉藏语中,汉语是最早从共同祖先里分化出去的,其余的语言即藏缅语族有一个共同原始语,后来讲藏缅语的人群逐渐向西南方向迁徙并分化,形成了各个语支。
而近年来也有学者提出第二种观点,认为语言多样性高的地方就是起源地和最早分化的地方,这个地方位于印度东北部到四川西部一带,有9000年以上甚至上万年的历史,最早分化的语言是喜马拉雅山南麓的一些语言,而汉语和藏语等一些语言有更晚近的共同祖先。
还有第三类观点,即认为很难判断这些语支相互之间的远近关系,于是提出了“落叶模型”,每个语支就像地上散落的叶子一样,无法知道它们原先在树上哪个位置。
新研究支持汉藏语系约6000年前起源于中国北方
为了检验上面这些观点哪种更符合历史真相,复旦大学金力院士团队的张梦翰博士、严实博士及潘悟云教授,利用汉藏语的词汇数据重构了汉藏语系的谱系。研究者们采用了美国斯坦福大学马提索夫教授主持搜集整理的“汉藏语词源数据库”,从中筛选了共19个语支、109种语言的100个核心词义的949个词汇形式,比较每个词汇在各个语言中的分布情况。大体来说,如果两种语言共有的词汇数目越多,就说明这两种语言相互分开得越晚,在谱系上也就越接近。
计算的树形结果支持了汉语是最早从汉藏语系中分化出来的,而藏缅语构成一个单独的支系。汉藏语的首次分化时间约在6000年前,而藏缅语内部分化大约从4800年前开始。这些都和前面所说的传统观点一致,即汉藏语系最早分化应该是在中国北方,很可能与仰韶文化相联系。
而马家窑文化可能与藏缅语先民相关。现代藏缅语人群都是数千年内从马家窑文化逐渐向南及向西迁徙的。而现今四川西部到喜马拉雅山南麓藏缅语极高的多样性,一是因为高山深谷密林、人群之间相对隔绝造成的,同时也可能是汉藏语人群到达这里以后与当地以采集-狩猎为生的原住民混合交流的结果,并不说明这里是祖源地。
以上结果,即《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》一文,今年4月份发表在了英国《自然》杂志上。这是中国学者首次在世界顶级的综合性学术期刊上发表语言学方向的原创研究成果。
遺传学研究与语言学结论相互印证
除了语言谱系能体现出人群之间在文化方面的历史联系以外,DNA遗传信息也能体现人群在生物属性上的亲缘关系。讲汉藏语系语言的大多数人群均包含有扩张于大约8000年前的Y染色体Oα-F5支系,说明了汉藏语人群也共享一些祖先成分。这与语言学得出的汉藏语言同源的结果相互印证。而近年来通过对常染色体的大数据计算,还能更清楚地看出人群之间的混合关系。多个上万年前古DNA样本测序的进展也让我们确认,现代亚洲和欧洲人的基因组中保留有尼安德特人、丹尼索瓦人的少量(通常占全基因组的2%以下)但重要的混血成分,这加深了我们对人类演化历史的认识。
结合现代的计算方法和大数据处理手段,语言学和遗传学将会更加准确、深刻地揭开人类族群历史上不为人知的故事,告诉我们很多众说纷纭问题的答案。
(摘自6月5日《北京日报》)