基于时态GIS的中国历史方言地理信息系统构建

2023-01-14 13:03:38孙光旭

淮北师范大学学报(哲学社会科学版) 2022年6期

孙光旭，张义

（1.淮北师范大学外国语学院；2.淮北师范大学文学院，安徽淮北 235000）

汉语方言是一道独特且复杂的文化景观。从历史方言的地理发展情况看，不同方言在语音、词汇和语法结构上的异同以及其在地理上的不同分布，不仅对语言研究具有重要作用，更能反映历史文化的历史变迁。汉语方言是汉语发展不同阶段的活化石，折射出了汉语史的局部面貌，前人在研究汉语史时，已注意到了方言材料的独特价值，关注语言空间分布的差异，并开展方言的调查与记录工作。在地理信息技术迅速发展、时空GIS技术不断成熟的当下，将海量历史方言材料与地理信息技术充分结合利用，直观地展示汉语方言时空的变迁，将为汉语方言的进一步研究提供有益的帮助。

本文通过整合汉语历史方言资料，采用时空GIS技术，建立中国历史方言地理信息系统，以直观的方式展示方言在地理空间上的变化，以期补证或验证前人的研究，为进一步促进对汉语方言、汉语史的研究提供一些参考和新的视角。

一、历史方言研究现状

（一）历史方言数据材料的整理

方言数据是建成中国历史方言地理信息系统的基础。方言研究在我国有悠久的历史、优良的传统。汉语方言文献记录历经几千年不间断地累积，可研究的汉语方言文献数据材料已经相当可观。这些材料大致可以分为如下几类：其一，历史方言调查材料。包括自西汉扬雄以来历代学者有意识进行的方言记录。其二，方言性质的历史文献。相比有意识的方言调查而言，历代文献中方言性质的材料则更加丰富。历代的经书注疏、字书、韵书以及诗文、词典、戏文、笔记、小说、野史、地方戏等各类文献中包含着丰富的方言资料。其三，方音韵书或同音字表。经典韵书或多或少也存在一些方音色彩，而明确标明实际方音的近代韵书数量更多。其四，地方志之方言章。

上述材料从地域、时间及内容分布上来看，都比较零散，给研究者的利用带来了很大的不便。其一，材料数据量庞大，没有任何一个课题能够占有或者利用全部的材料。这使得学者的所据材料在很大程度上是局部的、片面的，于是在进行汉语方言、汉语史的相关研究时，难免出现“摸象之惑”。其二，在现实的研究中，时空观念的缺失，导致不能深入、全面、系统地考察语言历时共时的演进过程，而忽视了汉语方言的时间或者空间属性特征所致的错误比比皆是，如“叶韵说”以及切韵音系基础方言的争论等。其三，不同类型或者不同时间区域方言材料之间的内在关系不能得到有效的关联，没有一定的关系图谱，则难以多类材料互证，在研究时就难以形成有效证据链。

（二）汉语方言研究辅助技术的利用

直到19世纪末，在青年语法学派的倡导下，德国学者吉耶龙等人开始使用地图的形式描述语言特征的空间分布。这一研究范式极具解释力，为研究印欧语系的谱系分类提供了有力支持，并形成了一门新兴的分支学科——地理语言学。地理语言学主要通过绘制方言地图，直观地展示方言特征在空间上的分布，研究者能从全局出发，审视多因素交互背景下的语言变异机制。

GIS技术的兴起从根本上改变了收集、显示、存储、转换、分析和表达空间信息的方式，为解决上述问题提供了新的思路。然而，传统的GIS并没有真正做到时间、空间和方言属性的整合。它只描述了语言在某一时刻的情况，无法显示全程和预判其趋势。而时空GIS的提出，为我们综合利用海量历史方言材料提供了可能。时空GIS具有空间和时空特点，时空GIS技术使信息的时间、空间和属性三要素的集成得以实现，使我们能够重建、跟踪、预测和模拟空间数据的历史演变过程，这些特征与庞大且复杂的汉语方言数据融合性更好。

二、中国历史方言地理信息系统的构建过程

笔者尝试采用时空GIS模型，以谭其骧《中国历史地图集》为底图，制作中国历史时态GIS数据库，以扬雄《方言》为纲，建立历史方言数据库，同时创建一个非语言因素的数据库，整合并构建中国历史方言的地理信息系统。[1]系统构成如图1：

图1 中国历史方言地理信息系统框架

（一）制作中国历史时态GIS数据库

以谭其骧的《中国历史地图集》为底图，建立了中国历史时态GIS数据库。从原始社会到清末，该地图集有304幅地图和大约70000个准确的地名。内容包括各民族政权的领土或活动范围、行政区和一些部落的分布、秦朝以前可以考查的名称的位置和范围、秦朝以后县级以上名称情况，还有主要的河流、湖泊、山岭及海岸线、岛屿等。它被公认为是我国到目前为止最为完整、权威的一部大型历史地图集，是我们构建时空数据模型的最佳选择。

几千年来，受政治、经济等因素的影响，中国的版图和行政区划一直在不断变化。由于行政区划导致空间拓扑关系的废除、更名、边界变化和一系列复杂变化，很难实现对空间的时间表达。首先，语言是交际交流工具，长期稳定无变化。其次，目前能够掌握的历史方言材料在时间上的分布是很不均匀的，大多数没有精确到县级程度。再次，虽然不同年代行政区的边界和名称都发生了很大变化，但行政区在全国范围内仍有相对稳定的传统边界和相对较长的存在期。因此，我们认为太详细的空间数据只会导致冗余。通过调整提高系统效率，根据现有方言数据的时空分布对空间粒度的选择进行一些调整。

由于方言材料的空间离散性会造成数据的冗余问题，可以考虑将时间作为空间的一种属性被附加到空间数据上，而离散的时空数据在传统的静态数据库中通过某些算法关联起来。对于历史方言数据等时空粒度大、属性数据量相对稳定的系统，其实现简单便捷，对方言数据的处理具有较好的表现。

（二）构建语言信息数据库

以扬雄《方言》为纲构建语言信息数据库。以扬雄《方言》为参照，主要有以下原因：首先，时间早。《方言》是第一部“自觉”的方言调查专著。其次，收集的方言材料共计15卷，收录了9000余字。第三，测区相对较宽。第四，后世有不少对其注释或调查。至少有30多种注释方言的文献。比较这些资料，观察方言词汇随时间变化分布情况，较易知晓扬雄时期到该文献著录时期的历史变革。

需要说明的是，更为复杂的是与方言分布有关的地名体系。例如，扬雄《方言》中既包括行政区划名称也包括自然地理名称；古代地名和汉代地名。我们有必要将不同类型和时间的地名系统转换和统一为时空数据库中可接受的时空ID，我们称之为方言地域地名的识别过程，这样才能保证空间数据和方言属性数据的有机结合。

另外，与词汇数据不同，语音数据具有特殊性。事实上，语音差异是单词在不同时间和空间维度上的语音变化，即语音数据只能通过词汇层面与特定的时空数据联系起来。笔者认为，一方面，应该考虑到所有汉语的语音元素，另一方面，在所有方言中都必须找到作为相关项目的词。出于这一考虑，我们在中国社会科学院编制的《方言调查字表》中选择了一些与扬雄《方言》交叉的词汇。高本汉认为：“现代汉语方言，除了闽语之外都从《切韵》语言演化而来。”[2]通过调查《方言查字表》中各方言条目的表达情况，我们可以基本确定方言的语音特征。

（三）建立非语言因素数据库

人口迁移、民族融合、自然地理、行政区划的演变和其他因素可能会对语言变异产生影响，但这些因素是离散的，必须单独构建数据库。考虑到相关数据的多样性，我们首先建立了一个人口迁移数据库，后期在此库的基础上进行扩充。人口迁移流动对汉语方言形成发挥了重要作用。移民数据主要基于葛剑雄等人的《中国移民史》。这本书论述了从先秦到20世纪40年代的中国移民问题，列出了从公元前21世纪到新中国成立前的移民事件，阐释了其过程和产生的影响。

在中国历史上，移民存在迁入和迁出情况，各个地区特点存在差异，不同类型的移民对汉语方言的形成造成的影响存在差异。为了研究移民对方言的影响，移民事件作为数据库中的唯一ID，需要标明移入移出地的ID、移入移出时间、移民人数和当地语言类型等因素。

以上数据可以通过系统中时间作为空间的属性加入到空间数据。当与之对应的空间ID确定后，方便确定时间。另外，方言和移民数据也是通过空间分布与地理数据关联的。因此，有必要将转换和统一成可接受的时空ID，以确保空间数据和方言属性数据能有机结合。具体模式如图2：

图2 方言对应空间ID模式

三、中国历史方言地理信息系统的特点及优势

（一）系统的特点

第一，提供中国历史方言地理信息系统数据框架，而非现成历史方言数据。获取历史方言数据比现代方言数据更加困难，它只能通过研究大量历史文献获得，其结论的可靠性有待检验，这些工作人力短时间很难全部完成。因此，搭建此平台，研究者根据自己的研究，可以进行二次开发。经过校正、改进和数据积累，形成符合中国历史方言面貌的汉语历史方言地理信息系统。系统的搭建分阶段实施，对于数据量充分的时间段优先处理入库，其他数据待研究的推进而完善入库。

第二，系统重分布，而非分区。真正有用的方言地图是分布图，而非分区图。方言特征分布具有客观性，而研究者的划分是高度主观的。不同的研究者选择不同的标准，所以划分是不同的。例如，根据扬雄的《方言》，林语堂分为14个区[3]，罗常培、周祖谟分为7个区[4]，刘君惠等分为12个区[5]，司礼仪（Paul L-M Serruys）分为6个区[6]。分区是基于对多种语言特征分布的综合调查的主观判断，系统无法提供分区功能。历史方言地理信息系统构建的目的是收集历史方言特征的分布集，方言研究者依据数据判断，并为他们进一步建立特定历史时期的方言划分提供辅助工具。

（二）系统的优势

采用时空GIS技术构建的中国历史方言地理信息系统，兼顾了方言的时空性，以更为立体直观的方式呈现，较之于传统方言数据呈现方式具有很强的优势：

第一，动态显示方言特征随时间演变在空间上面的分布情况。传统方言地图无法很好地提供整体、动态的方言地理学研究需求。时空GIS技术的提出，为解决此难题提供了可能性。通过历史方言地理信息系统，我们可以多角度历时地观测汉语方言特征的演变以及共时分布，考察时空互动背景下汉语方言沿革与更替。例如，通过该系统，我们可以动态观察汉语入声消失的过程。作为中国古代特有的语音，入声在宋元时期逐渐消亡。当今在山西和部分南方地区，还能搜寻到一些痕迹。由于普通话的普及，古入声的痕迹更加弱化。这种演变不是突变的，它有一个渐变的过程，其在历代方言材料的时空分布上有所体现，在今天汉语方言的空间分布上也能观察得到。例如，潮汕方言保留了入声，并有一个以弱化状态结尾的喉塞音韵尾。然而，在雷州的闽语中，许多古代入声字已经失去了入声的韵尾，并被发音为阴声韵母。通过比较发现，这些词在雷州闽方言中失去了入声韵尾，而在潮汕方言中，它们是喉塞音韵尾的词。在一些方言中也存在类似的情况，入声仍然存在，但失去了区分意义的功能。所有这些都可以证明汉语入声结尾的脱落（入声消失）是有阶段性的。传统的方言学通常通过文字或纸质地图来描述这一过程。纸质地图只能显示静态结果，在方言地理信息系统帮助下，动态再现入声消失过程，并能动画模拟其过程。

第二，具有统计、分析、判断和预测功能。方言数据库强大的统计和分析功能使我们能够计算方言数据，在统计和分析的基础上评估、判断和预测方言演变，拟测某一中间时间的方言面貌。通过了解方言特征的起点和终点的分布，并结合历史行政区的演变，我们大致在中间阶段拟测其分布。[7]

第三，它以不同格式携带大量方言数据。方言地理信息系统软件具有方言地图无级缩放的功能，不受纸质地图不变比例的束缚。用户既可查看语言的宏观地理分布，又可查看方言的细微地理分布特征。不仅如此，还可以同时容纳一个区域的所有地图内容，不需要地图，也不需要分割，这解决了负载与地图大小的矛盾。纸质方言地图携带的方言信息相对较少。因为地图上的信息相对较多，符号太密集，很难读取。但方言地理信息系统可任意调整地图比例尺，根据需求放大地图，精确掌握方言特征分布状况。

第四，便捷添加、删除方言数据、更改数据关系和结构。随着新方言事实的发现或原始方言数据存在讹误，有必要及时更新或修正数据库。这样，方言研究的最新成果可以及时反映出来，基于现有方言地理信息系统数据进行深层次的研究。例如，郑锦全先生将18个汉语方言点中的905个词汇和737个方言点的声调系统导入到计算机系统中。郑锦全先生通过计算得到了每个方言点的相关系数，并绘制了体现方言之间关系的树形图。[8]王士元先生在美国加州大学伯克利分校建立了“汉语方言计算机词典”（简称DOC）。事实上，DOC是一个汉语语音数据的计算机数据库，主要基于《汉语方音字汇》，共收录2700多个单词。每一个单词都标记有中古音的开合、等级、韵律、音调类别，这些音调基于韵律书和韵律图（如《切韵》），以及17个现代地方的方言发音。这个数据库为王士元先生对“词汇扩散”理论的论证[9]，以及郑锦全[8]、陆致极[10]、王士元等[11]对汉语方言之间关系的定量描述提供了丰富的信息资料。数据库所提供的方言历史数据，相对于过去只是靠单一类型的静态方言数据，所获得的结论更加科学。

通过构建和利用汉语历史方言地理信息系统，研究人员可以将汉语置于广阔的时空背景中，了解特定时期汉语方言特征的共时分布，快捷查询方言特征的历时演变和分布；直观观察方言点、段、区的历史演变和替换，了解不同方言区之间的空间关系和历时关系；研究方言的分区和划界，调查方言的变化速度、方言的分化年代、相互影响的程度和不同语言之间的密切程度；它还可以验证现有方言研究的正确性，预测汉语方言的发展趋势；它还可以结合非语言因素来解释语言的分布，并在此基础上进一步探讨语言变异的机制。在中国历史的时空坐标下全面考察汉语方言的演变，对于汉语方言和汉语史的研究有重要的帮助。