李 娜 包 平
(1.南京林业大学人文社会科学学院,南京 210037; 2. 南京农业大学数字人文研究中心,南京 210095)
物产即天然出产和人工制造之物品,自古以来便是人们赖以生存的物质基础,会因时间或空间的不同而呈现差异性,正如唐代刘知几在《史通·杂述》中所谓“九州土宇,万国山川,物产殊宜,风化异俗”。物产历来为地方志必载之门类。地方志,即方志,又称地志,是按照一定体例记载特定时空内的自然、社会、政治、经济、文化等各个方面情况的综合性文献,被誉为“一方之全史”,是中国特有的文献资料,李约瑟曾说“要了解中国文化,必须先了解中国的地方志”[1]。与其他历史文献相比,作为中国独特文献的地方志具有明显的特色:一是历史久,起源于春秋战国,萌芽于秦汉,发展于隋唐,成型于宋,稳定于元,兴盛于明清,且在时间上具有连续性;二是类型全,有总志、通志、府志、州志、县志、乡土志、山水志、祠庙志等多种类型;三是内容广,详尽记载了一地的历史沿革、山川形胜、政治建置、人物传记、武备兵防、经济状况、民情风俗、宗教异闻等;四是数量多,据《中国地方志联合目录》统计,仅保存至今的宋至民国时期的地方志就有8264种,11万余卷,约占我国现存古籍的十分之一;五是价值大,具有资治、存史、教化、兴利等功效[2]。
我国著名农史学家万国鼎于20世纪50年代,组织数十名专家赴全国40多个大中型城市的100多个文史单位,从7,532种地方志中手工辑录了物产专题资料,即学界所谓“红本子”[3]。其中《物产方志》431册,23,225,659字。内容涉及农业生产和自然资源的多个方面,尤以动植物品种资源和相关的种植饲养技术为主,是目前世界上唯一一套方志物产专题资料[4]。
关于《方志物产》的已有研究可以梳理为三个阶段:第一阶段为手工整理阶段,主要集中在分门别类进行物产专题资料汇编,先后出版了稻、麦、棉、麻、柑橘等8个专辑以及专题作物史研究[5—7];第二阶段为文本数字化研究,先将手抄本纸质稿扫描成电子图片,再将电子图片进一步转化、录入成电子文本,实现了资料的长期保存和方便传播利用的目的[8];第三个阶段为智能化整理利用研究,采用现代信息技术,对文本内容进行格式化和多层级标注、自动抽取、知识关联和可视化展示,拓宽了《方志物产》整理研究的视角[9—12]。
近年来,由计算人文和人文计算演变而来的数字人文领域,聚焦计算工具和文化产品的交叉融合研究,在计算机科学、文学、历史学、图书情报学、语言学等学科开展了广泛的应用研究,拓展了人文学科研究的广度和深度[13],为《方志物产》的深度挖掘利用提供了技术支撑。本文以《方志物产》山西分卷为资料来源,主要运用地理信息系统(Geographic Information System或 Geo-Information system,简称“GIS”)技术,量化统计来源志书所载物产信息,展示不同时空条件下,山西物产的分布状况,挖掘物产的中心所在及转移趋势,以期为《方志物产》内容的深度挖掘利用和山西农业史、区域史、生态环境史的研究工作提供参考。
山西省位于黄河中游,历史悠久,是中华民族的发源地之一;山川环抱、地势险要,被称为“表里山河”;土地肥沃、物产丰富,被誉为“华夏文明摇篮”,有“中国古代文化博物馆”之称。另外,《方志物产》山西分卷记载相对完整,时间上从明成化二十一年(1485)至民国二十九年(1940)共455年;地域上全面涉及了山西境内保德、大同、代州、汾州、霍州、绛州、解州、辽州、潞安、宁武、平定、平阳、蒲州、沁州、朔平、太原、隰州、忻州、泽州等19个府州;类型上有省志、府志、州志、县志、乡土志、山川志、河流志、寺庙志、边关志等多种类别;数量上,13册、316本志书、约43万字;内容上记载了天然产的动物、植物、矿物和人工制造的货物等。山西在黄河中下游地区具有一定的代表性,通过个案的研究,可以为其他地区的相关研究提供借鉴。
《方志物产》在摘抄过程中,严格遵守原志书的写作结构和方式,不同地区、不同时间的志书在格式和用语方面呈现出明显的多样性现象,在进行批量处理之前,需要对数据格式进行规范化处理。在阅读全文的基础上,设置了一套格式化体系和物产分类系统,并完成全文本的格式化和物产分类信息的规范化处理[14]。
经过对文本内容进行格式化处理和数据统计,《方志物产》山西分卷共记载了51,545条物产信息。表1是《方志物产》所载物产的相关信息整理表的一部分数据,包括了“明·万历38年(1610)”等时间数据、“《山西通志》”等书名数据、“谷属”等分类数据、“黍”等物产数据、“有二種”等描述数据。
表1 《方志物产》所载的物产相关信息样例表
以《方志物产》山西分卷记载的51,545条物产信息为数据源,从物产名称、时间、地点等角度,根据研究需求的设定,筛选出最终的数据源,进行统计分析和地理信息分布图的制作。
首先,物产名称筛选。物产名称是物产认定和区分的重要标识,但是由于摘抄字迹模糊难辨、异体字等原因,有些物产名称包含了除汉字以外的其他符号,例如“?”“□”等。经过统计,至少包含“?、+、(、)、□”等几种符号,例如“□鵝、天□□、(班+鳥)、□□、??”等,共计有273条,占总物产量的0.53%左右。这些名称最终无法认定为某个具体的物产,在进行物产种类信息的统计分析时会产生干扰,后续会进行专门的研究以解决缺字、漏字、组成字、异体字等集外字问题。
其次,物产产地筛选。从表1中可以看出,志书名称的结构均为“地名+志”的组成方式,而某地志书中记载了某种物产,就代表该地区出产此种物产,因此,本文将志书名称中的地名作为物产的产地。在地图展示的层级上,选择以府州为单位进行统计和展示分布结果,《方志物产》山西分卷中涉及的志书种类有通志、府志、州志、县志、乡土志、偏关志、山川志等多种类型,除通志外,其他府、州、县、乡土、偏关、山川等所载物产的产地全部统一为志书地区所属的府州名称。而通志有“民国二十八年(1939)《山西分省地志》”“明·成化二十一年(1485)《山西通志》”“明·嘉靖四十二年(1563)《山西通志》”“明·万历三十八年(1610)《山西通志》”“清·康熙二十一年(1682)《山西通志》”和“清· 雍正十二年(1734)《山西通志》”等6本,记载的688条物产代表山西省境内所出产的物产,若能标明所产出府州名称的,则归纳到相应府州中;不能明确到某府州的数据,则不纳入本文统计分析的范围。
再次,物产时间筛选。如表1所示,物产时间包含的元素有朝代、年号、公元纪年等信息。经统计,格式化后的《方志物产》山西分卷的316本志书中,有三本志书的时间不明确,分别是“清·康熙《宁武守御所志书》”“清·光末《崞县乡土志》”和“《清凉山灵志》”。其中,虽然“清·康熙《宁武守御所志书》”和“清·光末《崞县乡土志》”这两本志书的具体时间不明确,但是所属朝代是清晰的,所以在按朝代进行数据统计时,并不影响结果。而《清凉山灵志》这本志书则完全没有时间信息。因此,在分朝代统计数据时,则要删去《清凉山灵志》中记载的物产信息,该本志书所载的物产信息有35条,约占总物产量的0.068%。
《方志物产》中的数据不完整、不确定,不仅表现在物产名称、地点和时间方面,还有物产分类信息和物产备注信息等方面。由于本研究不涉及物产的备注信息,所以在数据完善处理时忽略物产备注信息不完整的数据,保持原文状态。物产的分类信息影响到文本对于物产分类信息的分布研究,因此需要进行数据完善处理。首先,有些物产没有分类信息,例如“清·乾隆六十年(1795)《太谷县志》”中记载的“牛”和“清·乾隆元年(1736)《平阳府志》”中记载的“鳗鲡”的分类信息为空;其次,有些物产有分类信息,但是同一种分类名称的表达方式不一致,例如“明·万历三十九年(1611)《浑源州志》”记载的物产“沙果”属于“果”类,“明·万历四十年(1612)《太原府志》”记载的物产“樱桃”也属于“果”类,但是,前者在记述中物产分类名称使用了“果”,后者则使用了“果之属”,造成了物产分类名称的多样化。这些物产分类信息的不完善性为基于物产分类的GIS展示带来了困难。
为了解决这一问题,本研究首先对物产的分类特点和方法进行了详细的分析,继而重新构建了适合《方志物产》本身特点的物产分类体系,并实现了物产分类信息的智能化完善[14]。经过本研究的处理,绝大多数物产都被赋予了分类信息,剩余781条物产赋予分类信息不成功,对于这781条物产,笔者根据物产的备注文字和上下文关系等信息,进行了人工分类处理。最终,所有物产均被赋予了分类信息。
经过对原始数据源的筛选和完善处理,不仅删除了不符合研究要求的数据,且对数据源进行规范化处理,完善了数据源信息,实现了数据清洗的目的。本研究有效数据源占原始数据源的比例达98%以上。可见,这些数据是充实且有效的,能够较为真实地反映出《方志物产》山西分卷所载的物产真实情况。
本文采用的GIS制图平台是ArcGIS,地图的底图来源于“禹贡-复旦大学历史地理研究中心”网站的1820年全国地图(1)复旦大学历史地理研究中心网站:http://yugong.fudan.edu.cn/。。
在1820年的地图中,山西省包含了“归绥六厅、朔平府、大同府”等20个府州。但是,在《方志物产》摘抄过程中,由于行政区域发生了变化,即“归绥六厅”划入了内蒙古的区域,而其他府州均与《方志物产》的记录一致。因此,在进行GIS制图过程中使用的山西省地图,实际上是去掉了“归绥六厅”之后的地图,包含除“归绥六厅”以外的19个府州,如图1所示。
图1 山西省1820年地图
为了从宏观层面上展示明至民国时期山西地区所载物产的分布情况,本文首先基于从《方志物产》山西分卷中筛选出来的50,603条物产数据,构建物产与产地的关联数据集,分别对记载的19个府州的物产进行频次统计并基于GIS制分布图,结果如图2所示。从明至民国时期的整体时间范围来看,平阳府物产记载量最大,太原府次之,潞安府第三;明至民国时期《方志物产》山西分卷中记载的物产总量大多在太原府及其以南的范围,尤其以平阳府为繁盛。
图2 物产记载总量的整体分布图
为了进一步验证明至民国时期物产记载量的分布情况,本文还从中观的视角出发,分析了不同类别物产记载量的分布状况。根据前期研究设计的物产分类体系,将数据源中50,603条物产共分为三个大类13个小类。大类有植物、动物和货物;植物下有谷属、菜属、果属、瓜属、药属、花属、木属、草属等8个小类,动物下有羽属、毛属、虫属、水产属等4个小类,货物下有货属(含天然矿产和手工制品)等1个小类。经计量统计,明至民国时期,《方志物产》山西分卷记载的物产中,植物类物产量最多,有35,567条;动物类次之,有13,126条;货物类最少,有1,910条。其中,植物类物产中,药属最多(9,053条),花属次之(5,698条),菜属第三(5,423条),之后依次是谷属(4,048条)、木属(3,835条)、果属(3,289条)、草属(2,385条)、瓜属(1,836条);动物类物产中,羽属最多(5,019条),毛属次之(4,109条),虫属第三(3,145条),水产属最少(853条);货类物产中货属共记载了1,947条物产。在此基础之上,提取物产名称、地点、分类三种信息构建关联数据集并绘制GIS分布图,结果如图3所示。无论是从物产动、植、货物的大分类层面还是属类的精细分类层面,不同种类的物产和上文展示的物产总量在山西境内的分布状况基本一致。
图3 植物、动物、货物大类分布图
本研究在物产总量分布的基础上,继续对物产种类的分布进行统计分析。物种的统计分析需要进行两次数据处理:一是物产名称的规范化,在《方志物产》山西分卷的记载中,存在明显的同名异物和同物异名现象,如物产名称“杜鹃”有的记载是指花属的“杜鹃花”,而有的记载则是指鸟属的“杜鹃鸟”,此类属于同名异物的情况,应将名称补充完整用以区分不同物产;再如“菠菜”“波菱”“菠稜菜”等名称均是指“菠菜”,此类属于同物异名的情况,应将物产名称进行统一化处理用以标识同一物产。二是提取物产种类的数量而非记载频次,在《方志物产》中,一个物产可能被记载多次,但在统计时只算作一种物产,例如,“艾”在山西分卷中共被记载了149次,但是在进行物产种类统计时,仅将“艾”作为一种物产,忽略其被载次数。经过对物产唯一性的认定,山西50,603条物产信息中共抽取出3,090种物产,继而构建物种与地区之间的关联数据集并制作物种分布图,结果如图4所示。物种记载量较大的地区多分布在以泽州、平阳、太原三府为代表的山西省中南部;泽州府记载的物种量多达3,000种,占山西省所有记载物种量的97.1%,是山西省内物种最多的地区,拥有最丰富的物种多样性。
图4 物种记载总量的整体分布图
文本所谓物产中心是根据《方志物产》山西分卷记载的物产总量进行区分的,即记载物产总量越多的地区就越倾向于成为物产中心。《方志物产》山西分卷记载时间跨越了明、清、民国三个不同历史时期。统计分析不同时期的物产记载量,既可以了解不同时期的物产分布状况,又可以看出物产记载中心的变化。要统计分析不同时期的物产分布,需要提取物产名称、时间、地点、分类等四类信息并构建关联数据集。在第二部分筛选出来的50,603条物产数据中,有35条数据的所属时期不明确,因此,本节所用的数据源是去除时间不明数据之后的50,568条物产数据。
根据物产、时间与地点的三维关系数据集,将时间划分为明、清、民国三个时期,对不同时期不同府州的物产记载量进行数据统计并制图,结果如图5所示。就地理分布而言,无论明、清,还是至民国时期,山西境内物产记载量的分布趋势大体上是一致的,主要分布在太原府以南地区;就不同时期的物产记载量而言,清时期最多(共38,462条),明时期次之(共6,101条),民国时期最少(6,005条);就物产记载中心而言,明时期山西境内的物产记载中心在太原府,清时期平阳府的物产记载量已经明显超过了太原府成为了新的中心,民国时期平阳府进一步呈现出中心性,换言之,明至民国期间,山西境内的物产记载中心由太原府逐步转移到平阳府。
图5 明、清、民国时期山西物产记载总量分布图
为了进一步佐证物产记载中心的转移情况,本文同样探讨了不同历史时期不同类别物产记载数据的分布情况(图6)。基于物产名称、时间、地点、类别这四类关联数据,按照明、清、民国三个不同时期,对19个府州、13个不同类别物产的记载数据进行统计并制图,结果如图6所示,自上而下自左至右分别为明、清、民国三时期菜、谷、瓜、果,草、花、木、药,虫、毛、水产、羽属和货属的分布图。
图6 明、清、民国时期不同类别物产记载量的分布图
首先,无论是不同时期还是不同类别,《方志物产》山西分卷中所载物产的区域分布趋势基本相同,均是以太原府及其以南地区为主要分布范围。其次,随着明、清至民国的时间变迁,所载物产的分布中心出现了明显的转移现象,即明时期以太原府为中心,逐步转移到了清时期平阳府超越太原府,民国时期平阳府奠定了中心位置的地位。再次,不同时期不同类别物产的分布状况有所差异:明时期13个不同类别(尤其是动、植物)的物产分布呈现为四大核心区域,山西中部的太原府物产量最多,南部的平阳府、潞安府次之且二者物产记载数量相当,但潞安府的瓜、花、虫、货四个类别的物产量明显少于平阳府,北部的大同府第三;而清时期,物产记载分布区域表现为多点开花的状况,但是核心物产记载区域由太原府转变为平阳府,太原府和潞安府次之,泽州府、汾州府和大同府再次之;至民国时期,各类别物产记载分布出现了较大的变化,集中分布在平阳府,且记载量远远大于其他府州。
在物产大数据分布变迁的宏观和中观视角下,均难以具体观察单个物产的时空分布和变迁情况。但是从微观的层面,可以根据特定研究需求,从总体数据集中抽取指定物产的时空数据进行统计与展示。本文以棉为例,对于明至民国时期棉在山西境内的地区分布和变迁状况进行了统计和分析,展示棉在山西境内的种植、传播与利用进程。
我国种植的棉主要有亚洲棉和美洲棉两大类,但均非我国所原产[15]。学界对于棉传入我国的时间和路径均有考证,由印度入新疆再入河西走廊一带,或由缅甸入云南、贵州等地,再或由越南入海南、福建、广东、广西等地[16—18]。在传入之后,华南地区和新疆地区一直是我国主要的棉产区,长江流域和黄河流域的棉花种植较晚。关于山西植棉历史研究,比较有代表性的成果均是引证部分史料进行推测,缺乏扎实的数据支撑[19—21]。本文根据“棉”相关的物产名称,从《方志物产》山西分卷中检索并提取了与“棉”相关的时间和地点信息,借助GIS技术,根据各府州最早出现的棉的相关记载时间,制作了其在山西境内分布、传播的时序图,如图7所示,各府州区域内的方框表示该地区在明至民国时期出现了棉的相关记载,方框中数字代表记载时间的先后顺序,右下角为不同顺序对应的具体记载时间。
图7 山西分卷中各府州记载物产“棉”时间顺序
就记载时间而言,在《方志物产》山西分卷记载的时间区间内,山西于明成化二十一年(1485)的《山西通志》中最早出现了“棉花”的记载;就记载地区而言,山西境内棉花的记载最早出现在平阳府,并集中在太原府及其以南的绝大多数地区,该区域除辽州以外其余12个府州均出现了棉的信息,而山西北部则无相关记载;就记载数量而言,以平阳府为最,蒲、绛二州次之。
山西是中华民族的发源地之一,曾凭借得天独厚的自然条件在中国历史上发挥了重要的作用,创造了古老的三晋文明。本文主要以《方志物产》山西分卷收集的物产资料为依据,提取了物产名称、时间、空间、类别等数据之间的关联关系,利用GIS技术,量化统计并可视化展示了明、清、民国时期山西物产在时空序列下分布和变迁状况。
山西地处黄河中游,位于华北大平原西部,全境处于黄土高原之上,自然条件有限,多山少平原,山地、丘陵的面积比例高达80%以上,河谷面积不足20%,且水资源匮乏,气候干燥,干旱、寒冷等自然灾害较严重。山西南部之所以能够有丰富的物产记载,主要是由于以下因素:一方面,山西疆域东北延伸至西南,南北地势起伏较大,北部五台山最高处3,058米,南部黄河入口处仅有167.7米,南部地区较北部地区温度高且高温时间长;另一方面,山西南部濒临黄河,其他还有汾河、桑干河、滹沱河、漳河、沁河、三川河、昕水河、涑水河等9条主要河流,其中,除了桑干河和滹沱河流经北部地区,其他7条河流均流经山西南部,可见,南部地区水系较多,水资源较北部地区充足。因而,山西南部地区自然环境温暖湿润,更加适宜物产生长。
《方志物产》山西分卷记载了自明至民国时期的物产,不同历史时期物产记载总量的分布差异较大,清代最多,明代次之,民国最少。一方面,不同时期志书涉及时间的长短,决定了志书的编纂成书量,同样也决定了物产的记载量。就每个时期的志书记载时间而言,明时期自1495年至1629年共135年,清时期记载自1650至1909年共260年,民国时期自1913至1940年共28年。另一方面,跟当时社会的政治经济等状况有关,经济兴盛、社会安定的情况会促进志书的修撰,物产的记载也会越加详尽,清时期的志书记载从清初到清末,涵盖了社会、政治、经济、文化等状况的鼎盛时期;而其他两个时期主要涉及的是明后期和民国时期,由于当时政治、经济、社会等的不稳定性,生产、生活受到了严重的负面影响。据统计,《方志物产》山西分卷中收录的志书数量分布为清时期237本、明时期46本、民国时期33本。
平阳、泽州二府的代表性主要表现在平阳府的物产记载量最大和泽州府的物种多样性最强。首先,平阳府、泽州府均位于山西南部,拥有山西南部地区适宜物产产出的诸多有利条件,如气候温暖、平地较多、水系充足等特点,适宜物产生长,为志书修撰提供了天然的物产资源。其次,《方志物产》山西分卷中平阳府和泽州府的志书量较大,其中,平阳府的志书数量为52本,处于山西境内19个府州的首位,且遥遥领先其他府州,而泽州府有19本志书,位居第五,大量志书中记载的丰富物产信息为该地区提供了丰富的数据源;还有,在地理位置上,泽州府接壤河南省,河南省位于中原大地,历史悠久、物产丰富,且山西、河南两省的贸易交流较多,尤其是粮食交易,山西粮食不足的时候,就会经由泽州府从河南运送粮食入山西,交易和交流促进了物产传播,可能是泽州府物种量较其他地区丰富的动因之一。
数字人文相关技术为人文研究提供了新的方法和视角,面对大量的研究语料,通过构建数据间的关联关系,实现数据结构的分析和蕴含知识的挖掘,从整体上把握概况,从局部上审视细节,采用静态甚至动态的图表方式,更加直观而生动地阐释研究结果,提升阅读和理解的效率。然而研究结果的准确性受到研究语料的完整性的影响与限制。就本研究而言,物产记载量与来源志书量息息相关。由于地区间经济政治发展不均衡、传承过程中的损坏遗失等原因,导致志书数量分布出现了较大差异,这可能会引起一定的研究误差。本研究运用数字人文的方法,基于《方志物产》山西分卷资料本身开展了物产分布研究,所得结果与结论仅供相关研究参考,后续研究将逐步补充其他文献所载资料以完善数据源。