南京市历史地名名录数据集

2020-06-22 09:59张逸卿胡迪于璐冯庆普张佘淑
关键词:名录分类历史

张逸卿,胡迪,于璐,冯庆普,张佘淑

1.南京师范大学强化培养学院,南京 210023

2.南京师范大学地理科学学院,南京 210023

3.江苏省地理信息资源开发与利用协同创新中心,南京 210023

4.南京师范大学虚拟地理环境教育部重点实验室,南京 210023

引 言

地名是人们对具有特定方位、地域范围的地理实体赋予的专有名称,具有指位性与社会性,是人们工作、生活、交往不可缺少的工具[1]。历史地名的变迁记录了城市演变、民族变迁的过程[2],能够为历史发展的研究提供重要线索和依据[3-4]。历史地名作为一种文化形态,蕴含了丰富的文化内涵信息,是人们了解城市历史文化的重要工具[2,5]。研究历史地名信息对合理利用历史地名资源,改善历史地名信息共享具有重要意义。

现有的地名信息共享根据共享的信息多少可以分为两类:一类是地名基本信息共享;另一类是地名基本信息和其他信息共享。国外地名命名较规则,地名数据库标准和规范较为统一[6],各种开放的地名数据共享服务主要关注地名基本信息。美国地质勘察局联合地名委员会建立了美国地名信息系统(Geographic Names Information System,GNIS),其本质是包含了地理位置与名称的数据库[7]。美国国家测绘部门、国家统计署、国家邮政局和美国陆军等相关机构联合进行数据收集,建立了全球地名地理数据库(GeoNames),地名数据包括坐标、行政区划、邮政编码、人口、海拔和时区等属性[8]。目前中国已建成的全国1:100万、1:25万、1:5万、1:1万基础地理信息数据库中均包含地名数据库[9],存储和管理了对应比例尺地形图上的各类地名信息,包括政区、居民地、河流、湖泊、岛礁、山脉、沙漠、盆地、自然保护区的名称及属性等[10]。依托第二次全国地名普查的成果,中国启动开通了中国·国家地名信息库,提供地名名称、读音、位置、类别等基本属性信息,来历、含义、历史沿革等文化属性信息,以及行政区划、界线界桩、地名专用字和专读音等信息[11]。上述地名信息共享囊括了较为全面的地名基本属性信息,数据量大且分布广泛,也共享了一定的地名相关的社会、经济和文化信息,但对于地名相关人事物等地名文化相关信息关注仍然不够。时间、地点、人物、事件和场景关系密切[12],对研究历史沿革和区域文化具有重要作用,因此,本数据集不仅共享了历史地名基本信息,也关注了历史地名文化相关信息。

南京是国务院首批公布的历史文化名城之一,具有近 2500年的建城史和近500年的建都史[13-14],其城市发展规律及历史文化具有一定的代表性。因此,本文以南京市历史地名名录(第一、二批)中的232个历史地名为研究对象,查阅并收集整理了南京出版社2012年版《南京地名大全》、中国社会科学出版社2005年版《中国历史地名大辞典》和上海辞书出版社2005年版《中国古今地名大词典》中的历史地名资料,关注历史地名相关信息和文化内涵,建立了南京市历史地名名录数据集,为研究南京城市发展演变和历史文化提供了数据基础。

1 数据采集和处理方法

本数据集的地名数据来源为南京市第一、二批历史地名名录,地名信息主要采集于《中国历史地名大辞典》和《南京地名大全》,部分缺失的地名信息补充于《中国古今地名大词典》[15-17]。本数据集采用了两种地名分类方法:根据《地名分类与类别代码编制规则》国家标准(GB/T18521-2001)进行地名分类;保留历史地名名录中的地名分类方法。主要技术流程如图1所示。

图1 数据集生成技术流程图

1.1 数据来源

本数据集基于南京市地名委员会公布的南京市第一、二批历史地名名录[18],以其全部232个历史地名作为本文的研究对象。表1所示为该历史地名名录。

表1 南京市历史地名名录

地名分类 批次 历史地名巷、贡院街、三元巷、柳叶街、评事街、钞库街、长干里、堂子街、龙蟠里、虎踞关、商埠街、中山大道2碑亭巷、丹凤街、网井市、东大影壁和西大影壁、花露岗、凤游寺街、同乡共井、箍桶巷、螺丝转弯、杨公井、尚书巷、沈举人巷、傅厚岗、湖南路、颐和路、北京西路、左所大街、能仁里、专诸巷、通济街、中山大街(高淳老街)1 台城、桃叶渡、朝天宫、瞻园、凤凰台、杏花村、冶城、大胜关、静海寺、石头城古胜迹名甘熙宅第、乌龙潭、阳山碑材、六合文庙、花神庙、定林寺、永济寺、无想寺、2保胜寺塔永寿寺、古建筑名1 2栖霞寺、鸡鸣寺、北门桥、半山园、明故宫、鼓楼、聚宝门、水西门、通济门、神策门、明孝陵、中山门、文德桥、朱雀桥、赛虹桥、总统府、中山陵逸仙桥、竺桥、长干桥、毛公渡、金陵大学旧址(南京大学)、点将台、仙鹤门、观音门、新亭、劳劳亭、东善桥、蒲塘桥、襟湖桥古纪念地其他千年古镇1 郑和墓名2 初宁陵、万安陵、南唐二陵、拉贝旧居1 夫子庙、三山街、新街口、大行宫、江东门、龙江关(下关)、越城2 安德门、花旗营、金陵驿、固城遗址桥林镇、江宁镇、秣陵镇、板桥镇、湖熟镇、陶吴镇、淳化镇、丹阳镇、汤山镇、禄口 1镇、麒麟镇、土桥镇、雄州镇、瓜埠镇、竹镇、长芦镇、在城镇、洪蓝镇、淳溪镇、固城镇红色地名 2雨花台烈士陵园、中国共产党代表团梅园新村纪念馆、侵华日军南京大屠杀遇难同胞纪念馆、南京抗日航空烈士纪念馆、南京渡江胜利纪念馆、高淳新四军一支队纪念馆、两浦铁路工人“二七”大罢工指挥所旧址、八路军驻京办事处旧址、六合竹镇抗日民主政府旧址、溧水李巷新四军纪念馆、江宁横山烈士陵园

以上述历史地名为研究对象,本数据集参考了《南京地名大全》《中国历史地名大辞典》和《中国古今地名大词典》中记载的相关历史地名资料,进行了历史地名信息的采集、归纳、整理和校对。

以历史地名名录第一批中的古胜迹名“凤凰台”为例,其在三本书中的地名信息如图2所示。

图2 历史地名数据来源

1.2 地名分类

《地名分类与类别代码编制规则》国家标准(GB/T18521-2001)采用四级分类方法,计2个门类,11个大类,64个中类和171个小类。为遵守地名信息处理与交换的规范,依据该标准的地名分类方法,本数据集将历史地名分类至第二级,共11个大类。这种分类方法符合建设国家地名信息系统的标准,有利于进行地名数据标准化存储和共享,支持互操作。

本数据集的研究对象是历史地名,由于古今地名用语、地名构成不同,现有的地名分类体系难以完全满足历史地名的分类需求[19]。南京市地名委员会在发布南京历史地名名录时,提供了一种历史地名分类,即将名录中的历史地名分为古政区名、古聚落名、古山川名、古街巷名、古胜迹名、古建筑名、古纪年地名、千年古镇、红色地名和其他(含古区片、古地片、古驿站、古渡口、古遗址等),共10类。这种分类类别数量适中,符合以地名功能为基础进行分类的原则,有利于历史地名相关信息的采集与整理,历史地名文化内涵的表达,以及政府地名管理与保护。

1.3 数据处理

根据国家标准《地名信息服务 第1部分:通则(GB/T23295.1-2009)》,并参考中国·国家地名信息库、全国大比例尺地名数据库等现有地名数据库以及地名研究相关文献[5-6,9,20]中的地名字段,将采集的历史地名原始数据进行拆分和整合。本数据集中的历史地名字段包括标准地名、繁体地名、汉语拼音、地名类别(国标)、地名类别(名录)、位置描述、开始时间、今名、得名原因等历史地名基本属性信息[21],以及相关人物、事件、作品等历史地名文化相关信息,无法归入以上类别的剩余信息归为其他信息。此外,本数据集采用了两种地名分类方法,有针对性地进行地名信息的筛选和整合。

历史地名信息的拆分和提取工作可以分为历史地名基本信息提取、历史地名相关信息提取两部分,主要是依据地名信息中的关键字、词或固定句式进行语义判断。历史地名基本信息包括位置描述、得名原因、开始时间和今名。根据“在”、“位于”等表示位置的字样,可提取该地名的位置描述信息;根据“以……得名”、“故称”等提示得名原因的句式或短语,可提取地名的得名原因信息;地名的开始时间与得名原因通常先后出现,因此可根据“……年,因……得名”等句式,辅之以语义判断,提取地名的开始时间信息;根据“后易今名”、“仍名……”、“……已拆毁,地名沿用”等提示名称的短语或句式可提取地名的今名信息。历史地名相关信息包括相关人物、事件和作品。相关信息通常在同一句中或前后句中出现,语义完整、连贯。与基本信息不同,相关信息几乎没有固定的关键字、词和句式,因此需要根据语义进行判断和信息筛选。

资料来源对于用户了解数据的可靠性和准确性,以及数据使用非常重要。由于资料来源不同,地理名称和地名信息存在差异[22],因此本文设计了资料来源字段。该字段记录了每条历史地名的信息来源,根据在其中提取信息量的大小对不同来源进行排序,并以分号分隔。本数据集的资料来源主要包括《南京地名大全》、《中国历史地名大辞典》、《中国古今地名大词典》、中国·国家地名信息库、官方传媒网站以及相关文献等。对于位置描述、开始时间、今名3个重要字段,对照《中国历史地名大辞典》进行地名信息核实。若信息含义相同或相近,则不做改动,若原字段信息含义与之不同或差别较大,则采用《中国历史地名大辞典》中的信息,对数据集进行更改。

2 数据样本描述

2.1 地名分类统计分析

经统计,收集并整理得到有效的历史地名数量如下:第一批南京历史地名名录共计120条;第二批南京历史地名名录共计112条。

根据《地名分类与类别代码编制规则》国家标准进行地名分类,本数据集中各类地名的数量分布如图3所示。可明显看出,具有地名意义的纪念地、旅游胜地和具有地名意义的交通运输设施,这两类地名的数量较多,其占比较大;在这两批地名名录中,不存在属于海域的地名。

图3 国家标准地名分类统计图

经统计,根据历史地名名录中的地名分类,本数据集中各类地名的数量分布如图4所示。可明显看出,古山川名和古街巷名在这两批名录中数量较多、所占比重较大;古纪念地名数量最少,占比最小。

图4 历史地名名录地名分类统计图

2.2 历史地名相关信息

历史地名作为一种文化形态,蕴含了丰富的历史文化内涵,见证了城市的发展变迁,对探索不同时期的城市空间格局具有重大意义。本研究特别关注了地名相关的历史文化信息,在录入历史地名基本属性信息的基础上,增加了开始时间,得名原因,相关历史人物、事件和作品等体现地名历史文化信息的字段。

根据地名分类,有针对性地进行地名信息的筛选和整合。不同类型的历史地名,其相关信息具有一定差异。就相关事件而言,自然地理实体的地名,例如古山川名,其相关事件信息大多与战争等政治活动有关,由于其地理位置和范围变化相对较小,地名历史沿革也较少。而人文地理实体的地名,其相关事件大多与社会、经济和文化等有关,例如古街巷名;此外,其地名历史沿革也更加丰富,如古政区名,其政区范围、治所都可能发生改变,地名名称也随之变化。

3 数据质量控制和评估

关于南京历史地名的记载自吴越以来已有2000多年的历史,经历了十个朝代的更迭,多达万余条[16],数据基础好。以南京市地名委员会公布的南京市历史地名名录为数据来源,依据可靠。《南京地名大全》、《中国历史地名大辞典》和《中国古今地名大词典》三本公开发行的地名大全和辞典中地名位置描述、得名原因、相关历史人物、事件等内容皆有记载,数据详尽、质量控制严格。本研究根据《地名信息服务(GB/T23295-2009)》,考虑历史地名特点,确定了标准地名、罗马字母拼写、地名分类、位置描述、得名原因等地名字段,数据存储与管理符合标准规范,数据准确,内容丰富。本数据集依据《地名分类与类别代码编制规则(GB/T18521-2001)》和南京地名委员会发布的历史地名名录中的分类方法,分类合理,保证了数据的规范性,有利于数据存储与信息共享,同时也突显了历史地名的文化内涵。对于位置描述、开始时间、今名3个重要字段,对照《中国历史地名大辞典》中进行地名信息核实。其中,211条地名记录的字段信息与之含义相同或相近,不做改动;21条地名记录的地名字段与之含义不同或差别较大,采用《中国历史地名大辞典》中的信息对数据集进行更改。数据的整理和校对工作分类开展,对于标点、用字、语法等进行检查校对,同一字段信息采用相同或相似的表达方式,保证了数据的一致性和正确性。

4 数据使用方法和建议

主流的编程语言均可调用相关函数库读写本数据集,实现数据批处理。本数据集为研究城市历史发展演变、历史地名文化内涵等提供了数据基础,也可用于各类数字媒体地名服务(如网络地名服务)。地名数据准确全面,可供用户根据不同的兴趣内容进行参考、分析和研究。

猜你喜欢
名录分类历史
2022.3上榜派出所名录
分类算一算
太极拳列入联合国非遗名录
陶行知教育名录
分类讨论求坐标
同贺名录
教你一招:数的分类
说说分类那些事
新历史
历史上的6月