陈建红 苗威
摘要:新文科的发展,尤其是数字人文实践的深入展开,为边疆学数字体系建构创造了契机。利用数字技术实现全球边疆文献的多维聚合,可以更好地凝聚资源,构建边疆学的文献基础;通过人文数据生产平台进行边疆研究数据的持续生产和标准制定,可以构建边疆学的数据基础;通过地理信息系统建设边疆多维空间呈现框架和与之相匹配的基础空间数据体系,可以构建边疆学数字空间基础。三者通过网络平台实现边疆学文献资源聚合、人文数据融合和史地空间缀合,进而形成边疆学智能增量,层叠递进数字体系。
关键词:边疆学;数字体系;数字人文;新文科
DOI: 10.20066/j.cnki.37-1535/G4.2024.01.08
基金项目:本文系国家社会科学基金项目“东北边疆史数字人文平台构建与研究”(23VRC036)、教育部重大攻关项目“新时代推进新文科建设的理论与实践研究”(21JZD058)的阶段性成果。
自20世纪80年代第三次边疆研究热潮以来①,边疆学的建构已取得相当的成效。从学科顶层设计到边疆理论建构②,再到一系列具体边疆问题研究的展开,一众学者着力通过回答什么是边疆学③,怎样建构边疆学④,建设怎样的边疆学才能满足当前国内外环境下的时代需求⑤,形成具有中国特色的边疆学科体系⑥、学术体系和话语体系⑦,进行了深入的探讨⑧,取得了一系列重要成果①。但时至今日,边疆学“三大体系”建设尚未完成②,“其学科地位有待被承认,在有关中国边疆学理论与方法等诸多问题上学界还存在较大分歧,取得共识尚任重道远。”③边疆研究的跨学科特性、研究区域的分散性、研究资源的零散性、研究人员的分散特性,在相当程度上影响了“边疆”作为一个学科的凝聚性。新文科的发展,尤其是数字技术在人文领域的应用,为边疆研究领域的学科融合、资源整合和科研团队凝聚等提供了良好契机,为边疆学学术资源体系的架构提供了新的尝试路径。本文主要从边疆学文献资源聚合、数据生产平台建设和空间数据体系构建三个方面,探讨新文科视野下中国边疆学数字体系建设的基本内涵和核心内容。
一、边疆学数字体系的基本内涵
我国的新文科建设发端于2018年,教育部高教司在“四新”建设中明确表述为“新文科”。2019年5月“六卓越一拔尖”计划2.0正式启动后,新文科建设引起社会广泛关注④。新文科在形式上体现了需求导向下多学科的交叉与融合,在学理上追求科学性与价值性的统一,在研究范式上注重新技术、新思维引导下的方法创新。这种守正与鼎新相辅相成的时代特征,与边疆学的建构机理高度契合。边疆学建构的本质是在“治国必先治边”的时代使命指引下,凝聚资源、人才,形成学科阵地,科学地厘清中国边疆、边界和周边国际环境的历史与现实问题,创造性地解决边疆未来发展问题⑤。
研究资源的统合、共享是边疆学建设的重要基礎。从新文科的视角来看,数字基建薄弱是边疆研究资源高速增长背景下面临的问题,具体包含三层逻辑:一是,全球文献数字化进程越快,共享程度越高,中国边疆文献的潜在增量就越大,类型就越多元,在没有建构相应数据收集、整理与管理体系的情况下,中国边疆数据的相对分布状态就越零散;二是,数字技术越发展,全球文献数据化程度越高,从数据权属到数据话语的转换程度越快,在缺乏相应技术体系和数据标准的情况下,中国边疆研究相对的数据基础就越薄弱,国际数据话语权被稀释的可能性就越大;三是,边疆文献越多、数据体量越大、参与研究的学者越多、学术成果越多,边疆学构建的逻辑就愈发复杂、多元⑥,在缺乏凝聚性边疆数字空间平台的情况下,整合难度就越大,分歧大于合力的风险就越高。这种状态是由边疆研究内部复杂性和外部的局限性所造成的。
在边疆文献内部存在着基于空间、时间和内容三个层面的零散性。在空间层面,边疆研究的领域被约定成俗地分为“东北边疆”“西北边疆”“北部边疆”“西南边疆”“海疆”等多个模块,这些模块又以黑、吉、辽、蒙、甘、新、藏、云、桂等省级行政区划进行细部分类,至于以边疆民族为基础的分类则更加细碎。这样的分类在专题研究方面固然有利于专注、深耕,形成术业有专攻的专学效果。但实体空间上的连续边疆,因“人力有时穷”而被迫切割成模块。从边疆文献整理的角度来看,当前各类边疆文献的整理成果也多是依据上述空间模块进行分类,这就造成了已出版的边疆文献重复、隔断,“繁而不全”,有盲点而不知的马赛克形态。边疆学的目的是构建完整的边疆研究体系和人才培养体系,缺乏完整的、有机统一的数据资源体系,边疆学科体系的建构在基础上就相对薄弱。
在时间层面,现有的边疆研究基本是分段的,粗略可分为古代边疆问题、近现代边疆问题、当代边疆问题三个大段。三大段又可细分若干小段,或各类带有时间节点的专题,如古代边疆研究,通常依据中原王朝更迭分为先秦、秦汉、魏晋南北朝、隋唐、五代、宋辽金、元、明、清等阶段;近现代时段划分,专注不同疆域空间的研究者各有理解。时间是线性连续的,时段划分是人为的产物,边疆历史的时间与传统的中原王朝更迭尽管存在着一定程度的关联变动,但不同历史阶段和不同方位的边疆,其聚居民族、历史文化、宗教信仰、社会风貌以及自然环境、生产力水平、生产方式和生活方式都不尽相同①,不同区域的边疆时段划分自然也存在差异。很多边疆问题恰恰就出现在一些不相一致的时间拐点,因此,研究资源的时间隔断,不利于研究者从整体视角解决问题。
在内容层面,边疆史料呈碎片化分布状态,类型上经、史、子、集皆有,不同时代各有特色。唐末五代以前的中国边疆民族地方政权,大多缺乏系统的史事记录,相关历史文献散见于中原王朝正史、私家野史、笔记小说、诗词唱和等文本之中,属于缺席者的转述,或者“观察者”的描述②。即便像渤海国这样建制成熟的边疆地方政权,也没有史书传世,需要系统辑佚,连缀拼接才能形成史料专题。初步统计,渤海国1662条史料散布于133种文献之中,分布情况为中国24种,朝鲜半岛46种,日本24种,另有金石文献39种,其散碎状态可见一斑。宋辽金以降,又有诸如西夏文、契丹文③、蒙文、满文等资料④。近代边疆文献类型更加庞杂,除史志外,还有诸如外交档案、报刊、地图等,不仅包含境内材料,还涉及相当一部分境外资源,除纸质档案外,还有音、视频等媒体数据⑤。当代边疆文献资源及研究成果,随着大数据的发展呈级数增长,以学术论文和专著为主。在这种情况下,传统的以“时间—区域”专题为基础的文献整理和出版,难以适应数量骤增、类型多元的文献数据“井喷”状态;同时,整理出版的文献成果,本身仍然处于“信息孤岛”状态,不能形成连续的时空体系,不利于构建完整的边疆文献体系。
在研究数据方面,以文科学者群体为主的边疆学研究者,对外部的技术环境认知存在一定的局限性。随着多种类型的数字化研究资源的积累,以及诸如数据处理、数据管理、数据挖掘、数据可视化、机器学习等技术的应用⑥,为边疆研究的数据体系建构提供了必要技术条件。社交网络分析、空间分析、情感分析等研究方法,在研究过程科学化、结果客观化、呈现方式现代化方面的优势,为边疆数据体系建构提供了需求动力。数据的生产过程本身包含的一定程度的知识生产过程。掌握边疆数据的生产主动权,便在掌握边疆研究资源的同时,也在一定程度上掌握了边疆话语的主动权。建构具有中国特色的边疆数据体系,对于改变当前“文献在国内,数据在外国”的被动状态,建构中国边疆学的数据优势,形成话语优势,具有重要意义。
当前边疆研究领域,已经出现了以数据分析①、文本分析为主要研究方法的研究成果②,且对数据分析的研究方法进行了总结③。但在传统研究仍占主流的背景下,数据的重要性在边疆研究领域尚未形成共识,生产数据的技术路径和使用数据进行研究的方法尚处于探索阶段,当前的边疆研究的数据基础设施相对薄弱。总体来看,数据生产仍呈现出基于研究需求的个案化数据处理状态,随着研究的结束,数据生产的过程也随之停止,产生的数据以及生产数据的方法,一般也都保存在研究者个人手中。边疆研究领域的数据尚未形成可持续的规模化生产,现有边疆研究体系中的数据标准待定,数据管理与共享体系尚未建立。边疆学的构建在理论上强调学科体系、学术体系、话语体系的建构,这种建构在基础设施建构方面,应该充分考虑当前大数据发展趋势,重视数据体系建设;具体而言,就是要落实基础数据积累、数据标准制定和数据共享体系建设。
在数字空间方面,边疆学亟需一个承载文献、数据和现代研究成果体系的数字化空间平台。边疆本质是一个包含历史疆域、现实疆域、数据疆域的多维空间④。空间在边疆问题研究中属于客观载体,在跨越现今国界的古代政权、民族历史脉络的叙述中,空间视角具有搁置争议,推动研究深入的可行性。同时,数字空间又是权属界线清晰化、精确化的重要数据依据,一些引发争议的空间细节,可以通过空间测量、空间定位明晰模糊的界线和争议的区域。对于文献研究而言,文献之分布、数量、内容涵盖范围的空间可视化,是边疆研究数据区域分布评估的重要显性载体。边疆学文献体系较为理想的承载方式是以网络历史地理空间为底层框架,搭载文献、数据存储,呈现研究成果、研究人员的空间分布状态的多要素空间可视化体系。如此,对于边疆学的学科建设而言,可以实现三个方面的核心支撑:其一,有利于中国边疆文献、数据在边疆虚拟空间中的聚合。通过可视化呈现可以清晰地展现边疆区域文献、数据的分布情况,分析优势地区和薄弱之处。对于现代研究成果、研究人员的空间化展示,则可以实时分析边疆研究整体状态,查找优势领域和薄弱环节,以此为基础,优化原有的分区域研究,推动基于边疆空间的整体性研究、跨区域研究、常规分区的结合部研究;其二,有利于推动多学科交叉融合。数字化空间平臺本身就是多学科交叉的产物,其在资源上的包容性、空间上的整合性,可以实现多学科资源的凝聚,也为多学科视角下的边疆研究提供空间参照,尤其在资源凝聚方面,为多学科交叉融合的边疆学建构提供底层数据基建支撑;其三,推动人才的凝聚与边疆研究团队的优化。在新文科背景下,多类型人才凝聚,已然具备理论上的可行性,在包括边疆领域在内的很多研究领域已经付诸实践。对于边疆研究而言,基于空间的边疆研究成果和与之相对应的人才关系网络的建构,边疆研究新的兴趣点(POI)在空间中的呈现,有利于推动基于兴趣点的新的研究团队组合。
新文科建设中的新和旧,在内容、形态、路径、目标等方面既有不可忽视的差异,又有一脉相承的延续①。边疆研究在数字人文技术的加持下,凝集传统边疆研究优势,形成新的发展动力,以空间为载体,把文献、数据和人才日益融合为一个整体,把边疆学顶层设计的“规划图纸”落实到“底层地基”之上,具有实践上的可行性。
二、边疆数字文献的多维聚合
近年来, 信息聚合已成为网络信息组织和社会化信息分享的主要方式之一,主要是利用技术手段对多源异构信息进行转换、组织、集成和合并,生成符合特定需求的聚合结果②。 这与文献学在理念上具有相通之处。文献学研究的目的在于:全面认识文献,学会在浩如烟海的文献中,用较少的时间,找到尽可能全的自己所需要的文献资料,而且有能力对原始文献作整理加工,除自己使用以外,还可以供更多的人使用③。当前,文献数字化进展迅速,全球资源共享已成趋势,基于数字文献的聚合实践已经展开。国内已经在馆藏资源④、数字文献⑤、网络信息资源等方面有了一定程度的应用⑥;在历史档案⑦、地方志⑧、学术期刊⑨、书目等专题资源整理中有了初步实践⑩。国外已出现了诸如韩国历史信息集成系统等运行成熟的专业文献聚合平台。借鉴海内外经验,通过数据平台实现边疆研究资源的多维聚合,构建具有中国特色的边疆文献体系,可以为边疆学科体系、学术体系和话语体系建设提供必要的基建支撑。
从数字人文的视角来看,边疆文献多维聚合的整体模型包括资源搜集、资源整合、数据库建设、服务管理与内外应用四个层面,这四个层面又通过边疆研究资源数据统合与规范,实现内外数据标准的统一与数据资源建设的持续增量(模型参见图1)。
在资源收集层面,边疆文献资源的存储单位主要包括公共图书馆、科研机构、出版机构以及学术团体等。公共图书馆包括中国国家图书馆以及边疆地区各级各类图书馆、高校图书馆等收藏有边疆相关文献,多数文献可以实现书目查询,部分已完成数字化;边疆科研机构的文献资源各有特色,具有地域性特点,其中有很多尚未公开出版的档案、手稿等珍贵灰色文献。近年来部分学术出版机构将自身出版的学术文献进行数字化加工,并通过数据平台共享,其中也包含有边疆文献。边疆研究团队主要通过长期积累、文献整理类课题及相关数据库建设进行边疆资源的搜集与整理,具有明显的专题性特点。总体来看,各机构资源仍处于散布状态,尚未构建统一的数据标准和共享机制。海外汉籍与中国边疆相关的档案文献资源数字化发展迅速,如韩国国史编纂委员会等相关机构所公布的资源中包含有中国边疆研究相关的数字化资源,日本近代对中国边疆的调查情报和档案资源,美国哈佛燕京等图书馆所藏中国汉籍、方志及地图资源,美国国会图书馆边疆会议项目(Meeting of Frontiers)①和藏族口述史项目(TOHAP)等都是中国边疆研究不可忽视的重要资源②。其余还有诸如俄罗斯科学院东方文献中心等汉学机构所藏中国边疆相关资源,欧洲诸国图书档案机构所藏中国边疆研究资源等。边疆数字化文献资源体系的构建,主要是通过国内公共文献资源题录采集、海外公共资源监测、国内研究机构自建数据资源统合、海外研究机构开源数据采集、灰色文献收录与数字化整理、音视频资源收集与整理,逐步形成全球边疆文献资源动态监测体系,为文献资源聚合框架的搭建提供基本的数据基础。
资源整合层,主要是通过资源采集和数字化加工,实现海内外边疆资源的多维融合。由于边疆文献类型多元,研究应用范围广,在文献信息采集过程中需采取最全、最优原则,即对于可以采集原本图像、文本全文和文献详细目录的数据,相关信息要一并采集,尽量提高信息的完整度。對于同一文献出现在多个资源平台的情况,优先选择权威性较高的平台,同时兼顾其他平台,并在数据关系中对多个文献位置进行标注,以便做好资源备份,确保数据质量。采集后的数据通过工具、程序沙箱进行数据整理,根据边疆研究文献引用、分析习惯和后期数据库元数据设计需求,形成标准数据。
数据库层,通过构建交互性文献存储体系,实现文献的按需分类和个性化管理;通过边疆基础文献库、研究成果库、海外资源库、为基于历史研究者个性化需求的边疆专题库的建立提供基础数据和技术支撑。数据库的核心功能主要包含:在数据格式上兼顾数据标准化和数字资源的特殊性,实现更多层次、最大范畴间的文本融通①。数字化文献统一采用支持PDF附件下载、文档及其目录在线显示的技术框架,并通过接口实现全文检索;文本文献统一支持TXT格式,统一存放在底层,通过文献分类结构,以四库为标准构建出经、史、子、集的古典文献分类和现代文献的细部分类,并实现跨文件检索。在整体功用上兼顾人文学科实用性和数字人文的前沿性。对于人文学科而言,要实现资料检索结果的快速响应和标准化数据输出,要通过编目和内部目录实现文献的体系化浏览,并在二者的基础上通过拓展解释体系实现从文献阅读到知识学习的无缝衔接和多元拓展。在数字人文技术方面,要把数据关联、知识图谱和数据可视化理念融入到文献数据库的设计之中,在设计上预留足够的拓展接口,为实现以文献为基础的古史知识体系的构建奠定基础。
以深度学习的基本理念架构数据库的成长逻辑,通过文献增量机制和知识关系进化机制,实现文献数据总量、专题文献子库数量、知识关系网络与数据库操作记录共同成长。如此打破传统数据库的“上传—供给”机制,体现了“操作即建设”的智能成长逻辑。在文献数据库的基础上,通过交互操作实现研究者按照个人需求构建专题文献数据库的愿望。
服务应用层,主要是根据文献资源的内容和权限性质,通过用户分级实现合理化的资源分享。文献的权限主要是指文献本身授权情况,按照《著作权法》第二十一条规定,“公民的作品,其著作权截止于作者死亡后第五十年的12月31日。如果是合作作品,截止于最后死亡的作者死亡后第五十年的12月31日”。因此,一般而言,古籍的版权归于公共领域,但电子书的版权根据各自处理的情况不同,所有权需要区别考量。尤其是经过系统的数字化加工和校订的数据,其开发单位通常会主张版权②。明确的开源数据一般可以直接使用,比如韩国公共数据中心就明确提出,“作为向国民开放的公共数据集中的空间,任何人都可以使用公共数据门户网站”③;研究机构的公开数据,一般默认可以用于非商业用途,在学术研究中是可以规范引用的,如中国历代人物传记资料库(CBDB)④、中国历史地理信息系统(CHGIS)数据都配有引用说明⑤。大多数学术论文的电子版数据都发布在商业性收费网站之中,这些数据有的有专门的数据格式,如中国知网(CNKI)的CAJ格式,超星的PDG格式。有的则为通用的PDF格式,有时PDF格式也会通过加密或水印方式标注版权,这些数据一般只有付费后才能使用。非公开数据是指一些科研机构或者个人手中所掌握的灰色文献数据,这些数据原则上所有权归其所有者,但超过版权保护期的文献数据,一般很难主张版权。在边疆数据管理过程中,需要严格区分数据权限,在做好数据安全防范的同时,也不宜侵犯他人产权。根据文献的权属情况和内容性质,通过分类导航、用户认证、权限分级,实现用户与资源的合理配置。外部应用面向大部分边疆学习与研究者,以实现开源资源的共享和学术信息的发布。同时通过文献传递平台,满足中间用户的部分特殊文献需求。内部应用主要面向特定边疆研究群体,通过内网灰色文献平台和非公开资源平台,实现特种文献的定向供给。
三、边疆学数据生产平台建设
边疆研究,特别是边疆重大综合性问题的研究,需要从大量复杂的文献堆叠中高效提取研究所需信息,这就需要进行文本计算。文本计算的前提是在边疆数字文献的基础上进行深度处理,建构边疆研究的数据基础(Data Infrastructure)。一般认为数据基础主要包括:数据资源及其容器,用于管理和提供数据共享的标准和技术,为数据资源和数据基础设施的使用和管理提供参考的指南和政策,管理数据基础设施的组织,参与贡献、维护数据基础的团体,以及对数据基础拥有重要影响力的用户群体①。这里重点探讨边疆文献资源的聚合、生产与应用平台的架构。
边疆数字人文平台建构的基本理念是专业化、通用化、平台化和简便化。专业化是指平台以边疆研究为服务对象的定制设计,其技术、文献、文本、数据和研究模型都是以边疆为中心的,并且在边疆研究中不断完善进化;通用化主要是在边疆数据处理、研究尝试等专题实践的基础上,不断完善各种常用的操作范例和算法模型,明确边疆研究的数字人文需求,实现常用功能的复用和专业内通用;平台化是指这些专业的通用功能,通过数字人文平台统一呈现,实现基于互联网或局域网内的共享使用;简便化主要是针对人文学者群体而设计,即沙箱化文本计算的编程环节相对简捷,人文学者只需点击、拖拽即可完成大部分基础操作。
基于上述理念,边疆数据生产平台的基本架构逻辑是以边疆研究者为核心,以跨境跨语言数据爬取、基于文本库的数据抽取、文本智能标点、分词及词性标注、图谱分析、历史地理坐标生成、机器翻译等模块为核心功能层,以满足边疆数据采集→专题文献辑录→文本标准化加工→中外语言障碍破除→文本数据化→数据分析→数据可视化→空间可视化等一整套边疆数据生产技术需求②(基本架构参见图2)。
基于边疆数据基础薄弱的现状,数据生产平台的基本架构逻辑包含五重内涵:一是基础数据的积累与供给。数据生产平台后端数据库中存储边疆数字化研究所需的大量公共数据和专题数据,在数字人文实验室的支撑下,这些数据会持续更新和增添,使数据体量逐渐增大,逐步涵盖边疆研究的各个方面。同时,通过文本计算、深度学习和专家校验,使数据内部结构和数据信度不断优化,数据供给质量逐步提升;二是数据模型与操作样例的供给。平台的主要功能包括尽量详细地提供操作步骤说明、数据请求样例和输出结果应用示例,未来逐步添加研究成果展示。使研究者只需要通过修改数据样例,导入自己的数据,即可获得自己想要的分析结果,并可以下载平台内的成品数据;而对于数据在研究中的应用,可以找到国内外较为成功的参考样本。三是程序和算法的沙箱化。考虑到边疆研究群体的文科特性,平台在设计过程中极力避免代码编辑,程序和算法都通过服务器存储于后端,并且可以通过前端的操作请求多线程并发启动。为了克服前端通用程序在处理特殊数据和特殊需求上的局限性,在前端设置了数据请求上传功能,研究者可以根据自身的需求,将数据或任务请求上传至平台,平台将以实验室为依托启动定制服务。四是前端互动操作沙箱化。前端功能基本上只保留数据样例展示、数据上传、结果下载、功能选择等几个核心按键,将各种功能集约打包形成功能沙箱,力争做到一键解决绝大部分问题。后期随着全网应用的展开,功能将根据需求逐步优化升级,确保数据一次性输出的成品率。五是多种数据样例可选择性。考虑到不同研究者使用的数据阅读工具、分析工具的不同,每种数据都尽量允许输出多种数据格式,如txt、json、csv、xml、kml、shpfile等,為了照顾常用办公软件的使用者,部分数据还支持doc、xls等文档格式输入输出。如此,在尽量让数据平台保持高效、简洁的同时,更接近人文学者的日常操作习惯。
边疆数据平台的核心功能主要包括图像文献文本化、基于文本库的专题文献辑录、文献的跨境跨平台抽取、智能标点、本体模型构建、机器翻译等。随着后期应用成熟数据模型的增加,平台功能将逐步增加或实现功能融合①。
图像文献文本化在平台中主要体现的是其高效性和高信度的特点。第一,平台先期完成边疆基础文献的文本数据提取工作,并持续推进,对于利用率较高的古史文献,当客户端发送的请求与已入库文本匹配时,可以直接反馈,提供成熟文本输出;第二,平台先期积累一部分命名实体数据,尤其是生僻、易错字词的匹配逻辑,对于所识别的文本可以进行批量的错误校正①;第三,对于需要手动校正的文本,使用平台多线程在线文本对照审核系统,可以快速完成文本数据结果的输出,同时,输出文本又可以进一步丰富文本数据库。如此可以实现文献文本化的高效率和良性循环。
多平台抽取功能可以拓展边疆研究群体的资料获取路径和方法。路径方面,研究者可以通过平台,克服语言和网络障碍,了解更多的海边疆文献及数据资源。方法方面,相比于传统的逐一翻查、逐个下载,批量按需抽取的效率会出现质的飞跃。如此,可以很大程度上提升研究者使用数字人文方法的兴趣,同时,也可以提高平台的吸引力。文本计算方面,专题文献的抽取,基本原理是通过全文文本库集约边疆文献文本,通过通用程序实现平台化操作。如此,可以实现文本数据的集约与增量。随着边疆文献数据化工作的推进,文库中的数据会越来越完善,研究者从文本库中抽取到更加全面的资料。同时,省去了复杂的程序调试和运行环节,通过服务器,一次性完成从请求到结果的工作,使操作更加简便。
在线翻译,主要是针对边疆研究领域域外资料翻译方面的需求。东北古史资料主要涉及韩、日方面,兼有英语需求,中国常用的百度翻译不够准确,而中国知网在线翻译只在专业词汇翻译方面比较有优势。在实际的使用中,日语翻译最为理想的在线翻译平台是Excite②,韩国语更为常用的是Papago③,英语则以谷歌在线翻译更加流畅。一方面这三个网站在中国使用不够稳定,另外,研究者常用的惯例,通常也是多种翻译进行比较对照,对历史专业的命名实体,也需要遵循各国的翻译惯例④。同时,基于页面的翻译,通常也只支持粘贴复制,限制字数且不能保持翻译文档的原有格式,给整篇、整本或多文本批量翻译造成了较大的麻烦。针对上述需求,实现多个在线翻译平台的集中,并通过后台算法实现前端或上传数据,后台连续操作,完成文档翻译的基本功能。当使用者上传文档时,后台根据所需翻译平台约束字数,采用段落优先原则,切割文本,分段、连续翻译,且在写入文档时,保留原有文档格式。当格式为表格时,机器则采用逐一读取表格—翻译—转写入表格的方式,保持翻译的准确性和格式复原。
数据可视化,主要是采用交互操作相对简便的neo4j模型完成实体关系可视化⑤,采用数据样例相对丰富的Echart模型实现文本分析数据可视化⑥。为了便于操作,在平台中设计了数据示例样表并共享代码。初级研究者只需要下载数据示例量表,然后根据需要修改数据名称和数据值,即可相对简便地实现自己所需要的数据可视化效果;略熟悉后,研究者可以通过修改代码样例,进行更为便利的操作。
通常情况下,边疆数据生产、文本计算、统计分析和数据可视化都要在实验室中完成。考虑到边疆数据基础薄弱、文科研究者参与度低、可资借鉴的研究样例少等现实问题,可以先期设计边疆数字化研究示例体系。通过已经验证的成熟的数据,展示由文本分词→序列标注→文本分析→数据可视化的基本过程和各类研究分析实例。后期,通过实验室数据支持,逐步完成基础数据和计算模型的积累与推广。
四、边疆空间数据体系的建构
地理空间是人物与事件的基本载体,一定时期的历史是特定历史人物在特定地理空间中活动的集合,研究者追寻历史真相的主要任务就是探寻时间、空间、人物与历史事件的契合。无论是追寻特定历史人物的活动空间,还是厘清特定空间中历史人物的关系,对历史空间的探究都是不可或缺的。郡县州府、地方民族政权在边疆空间中的交错、叠加,各民族的变革与兴衰更迭,构成了边疆历史的一大特色。边疆历史的形成与变迁、中国与周边、边疆与边界、跨界民族与政权等边疆史的核心议题都与历史空间有着紧密的联系①。历史地理信息系统可以把传统地图的表现手法与计算机制图、数据库管理与信息查询等现代化手段紧密地结合起来②,通过矢量历史地图和基于历史地理文献的历史地理信息编码,把边疆历史空间以时间轴为基础分段、逐层叠加。通过矢量地图与文献的关联,形成研究所需的专题历史地理信息数据体系,精确地呈现特定历史空间状态,辅助研究者拓展研究深度,优化研究结果表达。对于中国边疆历史研究而言,在研究的前期准备、研究过程校验和研究结果表达等方面对历史地理信息的需求主要包含以下两个方面:
一是边疆史地文献的空间可视化。边疆历史地理资料在文献中分布相对分散,脱离地图的地理信息描述失于直观与精确。因此,需要打通历史地理文献到历史地理信息数据,再到历史地图的技术通道,实现历史地理文献的数字化阅读,提高研究者查找、阅读历史地理文献的效率。从数字人文的视角来看,这种问题的解决较为直观的方法是以历史地名为基本索引,将历史地名呈现在基于WEB的历史地图上,然后通过地名关联组建基于地名的基础地理信息图谱,再通过通讯机制将地名与关联的历史地理文献连接起来,即通过数字地图页面实现历史地理信息的空间化建构,以此为基础实现文献的数字化阅读。
二是边疆空间基础数据体系的构建。边疆空间基础数据体系主要包括历史地理信息、文献内容空间注释、数据空间可视化三个核心模块。历史地理信息方面,主要是建构明确的点、线、面空间信息体系。点,是指由一组坐标数据和历史属性数据构成的空间位置信息,如历史地名、山峰位置、遗迹的数据等③;线,是由一组规律的坐标信息表示的线状矢量数据,如河流、交通、边界、行进路线图等;面,是边疆研究中用于表示一定区域的空间矢量数据,如边疆古代地方政权的疆域范围,边疆郡县、羁縻州府的基本统辖区域,以及不同时期的边疆空间范围等。边疆文献内容的空间注释,主要是对边疆文献中出现的地名、人物、事件等带有空间属性的实体信息进行基于WebGIS的空间位置标注,如边疆历史地名空间位置及其变迁、遗迹—地名关联关系、人物及其关联群体空间活动轨迹等,使研究者更加精确、直觀地理解相关信息;数据空间可视化,是指空间数据分析结果的输出形态,如高句丽移民的空间流向与分布形态①,辽金元城址的空间分布②,东北与东亚交通网络等③。历史地理信息支持三维编辑和显示,以便于更加细致地复原诸如特定的历史地域的自然环境、特定历史三维场景,或者将已经通过其他形式复原的历史建筑效果融入特定的历史地理环境的三维场景之中,以支持边境、疆界的微观形态研究或研究成果的呈现。
构建研究者可以便捷实用的地理信息数据体系是边疆研究的现实需求。边疆空间数据保存形式多元,多是模糊、不规则的非量化数据,在信息调用的过程中,需要通过既定的空间数据基础,降低数据获取的难度和数据分析模型的易用性,由此,贴近边疆研究群体的操作习惯和技术现状,搭建无障碍阅读环境④。上述需求,从数字人文的角度分析,主要包含SQL数据库、GIS内核、属性功能、系统间通讯协议、信息实时增量储存算法等一系列技术模块。这些技术模块通过网络平台的组织架构,形成可供人文学者使用的WebGIS编辑环境、图层属性管理、注释属性管理等功能模块。
WebGIS编辑环境主要是指基于Web界面的历史地理信息编辑功能的集合,包括地图操作、图层管理、要素标绘等功能。地图操作是对已有数据的浏览、观察与筛选呈现,包括对地图界面的缩放、过滤、平移、定位、动画播放、2D-3D视图切换等功能以及3D模式下图层旋转等。例如,通过WEGGIS界面查看渤海历史地图时,通过逐层放大,能够依次看到渤海国在东亚地区的空间位置、渤海京府州县区划、城址位置、具体城市遗址的轮廓线图等各种信息。边疆空间的整体变迁,可以通过地图操作实现从宏观到微观的呈现。切换功能是指在遗址、遗物、人物、事件、民族分布不同专题矢量图层间切换,也支持现代地图、卫星图、历史地图的切换,方便研究者进行对比。
图层管理主要包括图层加载、移除,图层顺序调整、透明度设置等。不同专题的历史地理信息数据在WebGIS前端中是以图层形式呈现的。边疆空间数据体系是由一个个的专题数据共同组合而成的,因此,其在前端显示为数个地图图层的叠加。例如,唐代渤海国数据由五层矢量数据构成。第一层为渤海国的五京、十五府、六十二州、一百余县的坐标点;第二层为《中国历史地图集》渤海国历史地图;第三层为渤海国遗迹数据;第四层为高句丽遗迹中与渤海国重合部分;第五层为辽代东京道州县与渤海国原有疆域重合部分、沿用州县、改迁州县等数据。在研究应用中,不同研究选题的数据需求不同,需要重点观察某一项或者几项数据,加载所需图层,或者移除无用图层,以便作出更清晰的判断。图层比较的参照视角不同时,需要调整图层的顺序,一般来说,作为研究使用的关键图层置于上方,参考图层置于下方。多图层综合判断时,为了看清楚时空差异,需要调整图层透明度进行直观比照。
要素标绘主要是根据历史地图的绘制需要,对不同时期,不同类型的点、线、面要素进行区别绘制,以达到在同一显示界面中内容不同的效果。边疆地图标绘体系建设是边疆空间数据建设的重要工作之一。其主要内容包括:基本图元,即点、线、面及对应的属性字符标注;区域标绘,即在一般性多边形面的基础上通过风格渲染形成区别性显示;箭头标绘,即通过线性、颜色、粗细等标绘不同的历史发展动态;行政区级别、文物类别以及其他象形符号标绘,即在点要素的标绘基础上,实现多元化的要素呈现①。标绘库设计的基本原则是综合通用性与地方历史信息的特殊性。通用性方面,参照《中国历史地图集》和《中国文物地图集》相关绘制标准制设计统一样式,以便实现数据融合;特殊性,主要是指对通用标绘中未曾涉及的边疆特有信息,需要根据实际的操作需求,增添设计。
图层属性管理主要是对图层要素中的点、线、面所包含的历史信息进行属性标注,涉及字段属性设置和样式定制。字段属性设置具有一定的灵活性,图层要素的注释内容不同,其属性的数量和内容可以不同。字段文本框除了支持字符输入外,还支持超链接标签,以实现属性注释的解释拓展。样式主要涉及字符样式和图标样式。字符要素主要是实现不同级别的历史地理要素在字体、字号、颜色上的区别;图标样式,主要是显示历史遗迹和历史地名所具有的历史属性,如行政建制中郡、县、府、州之间的区别,遗迹中的山城、平原城、关隘、墓葬之间的区别等,以此来实现数据的多元化呈现。
在属性管理中,具有时空属性的内容通过时间轴约束直观呈现。即遗迹根据地点和建成、消亡时间时空化,遗物根据出土位置和年代时空化,人物根据其出生点和人生轨迹时空化,地名根据地理分布进行时空化,古籍和文献根据创作时间和论述范围时空化。各种时空化的知识内容通过通讯机制和文献数据库、专题数据库、站内百科结合形成专题知识谱系。例如,一个渤海城址拥有确切的空间位置和城址轮廓线图,全部遗址组成渤海国遗址数据专题,而从石器时代到明清所有遗址专题共同构成东北古代遗址数据。
五、结 语
在新文科背景下实现技术与人文的融合,在技术和人文的融合实践中,降低技术门槛,增加交互性,部分实现通用化、功能模块化,是一种较为有效的途径。在边疆数字基础设施建设过程中,基于知识谱系的文献全文检索与知识呈现平台是边疆数字基建的文献基础;基于WebGIS基本功能的历史地理空间数据平台和基于历史地图兴趣点(POI)的文献知识图谱,共同构成边疆数字基建的空间基础;基于数字人文技术的数据获取、生产和分析模型建设是边疆数字基建的人文数据基础,也是边疆研究数字方向的延展体系,为边疆研究提供持续性的国际前沿学术动态数据的同时,也为部分边疆疑难问题的解决提供新的路径。三者深度融合,逐步形成一套数字人文服务于边疆研究的数字人文环境。这一环境能够在相当程度上承担边疆研究群体在文献搜集过程中所需要付出的大量重复劳动,提高科研效率。在数字人文环境中,数字与人文是交互关系,数字技术必须理解边疆研究群体的现实需求,创新开发边疆研究所必需的技术体系,这本身是一个技术创新的过程。同时,这一过程所蕴含的与传统文献学不同的思路与方法,也在一定程度上有利于边疆研究者视野的拓展、方法的创新,以及在此基础上学术书写方式的改进。
[责任编辑 黄海啸]
① 马大正:《中国边疆学》(第3辑),北京:中国社会科学出版社,2015年,第315―349页。
② 参见邢玉林:《中国边疆学及其研究的若干问题》,《中国边疆史地研究》1992年第1期,第1―13页;邢广程:《关于中国边疆学研究的几个问题》,《中国边疆史地研究》2013年第12期,第3―16页。
③ 范恩实:《问题意识、研究方法与中国边疆学学科体系构建》,《云南社会科学》2022年第5期,第103―111页。
④ 李国强:《建构中国边疆学自主知识体系的思考》,《云南师范大学学报(哲学社会科学版)》2023年第1期,第20―28页。
⑤ 吴楚克、赵环宇:《中国边疆学的新时代特征和知识原理》,《云南师范大学学报(哲学社会科学版)》2020年第1期,第5―9页。
⑥ 李国强:《中国边疆学学科构筑的透视》,《云南师范大学学报(哲学社会科学版)》2008年第5期,第6―11页。
⑦ 参见李鸿宾:《对 “中国边疆研究” 概念的认识与界定——兼谈“中国边疆学”学术体系之建构》,《中国边疆史地研究》2018年第3期,第30―37页;苗威:《建构中国特色的中国边疆学话语体系》,《中国边疆史地研究》2018年第3期,第47―55页。
⑧ 吕文利:《新世纪中国边疆学的构建路径与展望(1998—2018)——兼论中国边疆理论的三个来源》,《中国边疆史地研究》2019年第2期,第1―12页。
① 在中国知网设置“边疆学”主题进行检索,再进行有效性筛选,共得到相关学术成果数据443条,其中著作4部,学术论文305篇,报纸数据13条,会议论文数据16条,学位论文14篇(其中博士7篇,硕士7篇),中国知网,https://kns.cnki.net/, 2023年11月18日。在“超星发现”中以“边疆学”为主题进行检索,共得到相关图书数据452条,其中相关度较高的数据275条,数据中以资料集、辑刊类居多。超星发现,http://ss.zhizhen.com/, 2023年11月18日。
② 参见马大正:《中国边疆学构筑再思考—“三大体系”建设之我见》,《中国边疆史地研究》2021年第3期,第1―8页;李大龙:《试论中国边疆学“三大体系”建设》,《中国边疆史地研究》2020年第2期,第1―11页。
③ 李大龙:《新文科建设视野下的中国边疆学》,《云南师范大学学报(哲学社会科学版)》2021年第4期,第5―7页。
④ 樊丽明:《“新文科”:时代需求与建设重点》,《中国大学教学》2020年第5期,第4―8页。
⑤ 邢广程:《开拓中国边疆学研究的新局面》,《中国边疆史地研究》2020年第2期,第1―4页。
⑥ 据有关学者总结,当前边疆学研究的原理诸如:主体原理、建构原理、靠界原理、疆界原理、比值原理、互动原理、伸缩原理、圈层原理、分合原理、层叠原理、牵制原理、均衡原理、类聚原理、折射原理、人本原理,以及具有中国边疆特色的统一和谐原理、多元一体原理、居中驭边原理、内聚建边原理、因俗而治原理、以文化人原理等二十余种。参见罗中枢:《边疆的个性与共性及边疆研究的理论创新》,《理论与改革》2019年第2期,第107―118页。
① 罗中枢:《边疆的个性与共性及边疆研究的理论创新》,《理论与改革》2019年第2期,第107―118页。
② 苗威:《建构中国特色的中国边疆学话语体系》,第47―55页。
③ 参见清格尔泰:《契丹小字研究》,北京:中国社会科学出版社,2018年;清格尔泰等:《契丹小字再研究》,呼和浩特:内蒙古大学出版社,2018年。
④ 参见乌云毕力格:《满蒙档案与蒙古史研究》,上海:上海古籍出版社,2014年;吴元丰:《满文档案与历史探究》,沈阳:辽宁民族出版社,2015年;王敵非:《欧洲满文文献总目提要》,北京:中华书局,2021年。
⑤ 陈建红、史话:《数字人文在边疆历史研究中的应用》,《云南师范大学学报(哲学社会科学版)》2021年第4期,第31―38页。
⑥ 刘炜、叶鹰:《数字人文的技术体系与理论结构探讨》,《中国图书馆学报》2017年第5期,第32―41页。
① 朱尖、苗威:《中国边疆研究的文献计量分析》,《中国边疆史地研究》2015年第1期,第15―24页。
② 邱伟云、严程:《数字人文视野下中国近代边疆概念群研究》,《云南师范大学学报(哲学社会科学版)》2021年第4期,第21―30页。
③ 朱尖:《学科交叉与融合视角下中国边疆研究文献计量分析的注意事项与遵循原则》,《四川师范大学学报(社会科学版)》2021年第6期,第134―141页。
④ 白利友:《大数据时代的数字边疆及其治理思考》,《云南师范大学学报(哲学社会科学版)》2018年第5期,第9―16页。
① 武宝瑞:《新文科建设需要解决好的三个前置性问题》,《上海交通大学学报(哲学社会科学版)》 2020年第2期,第9―12页。
② 曹树金等:《国内外图书情报领域信息聚合的发展趋势分析》,《图书情报知识》2018年第4期,第79―90页。
③ 杜泽逊:《文献学概要》,北京:中华书局,2001年,第5页。
④ 参见赵蓉英等:《国内馆藏资源聚合模式研究综述》,《图书情报工作》2014年第18期,第138―143页;贺德方、曾建勋:《基于语义的馆藏资源深度聚合研究》,《中国图书馆学报》2012年第4期,第79―87页。
⑤ 吕元智:《数字档案资源跨媒体语义关联聚合实现策略研究》,《档案学研究》2015年第5期,第60―65页。
⑥ 曹树金等:《面向网络信息资源聚合搜索的细粒度聚合单元元数据研究》,《中国图书馆学报》2017年4期,第74―92页。
⑦ 参见邓君:《专题:数字人文视角下历史档案资源知识聚合与知识发现研究》,《图书情报工作》2022年第7期,第3页;陈海玉等:《面向知识服务的抗战档案资源聚合与可视化展现探究》,《档案学研究》2021年第2期,第111―118页;邓君、王阮:《数字人文视域下口述历史档案资源知识发现模型构建》,《档案学研究》2022年第1期,第110―116页。
⑧ 李春明等:《基于地方志资源的知识聚合服务系统构建》,《图书情报工作》2013年第18期,第44―47页。
⑨ 许鑫等:《面向语义出版的学术期刊数字资源聚合研究》,《图书情报工作》2016年第17期,第122―129页。
⑩ 卫宇辉:《基于细粒度聚合单元元数据的书目资源聚合研究》,《国家图书馆学刊》2020年第6期,第90―101页。
① 边疆会议项目建立于1999年,最初数据为国会图书馆的珍贵书籍、手稿、照片、地图和影音资料,后又与俄方合作,补录了大量珍贵资料,其中有不少中俄边界资料,如黑龙江乌苏里江地区资料、萨哈林岛资料、黑龙江铁路专辑以及部分地图和手稿等,是研究中国东北边疆可资参考的文献。边疆会议项目,http://frontiers.loc.gov/intldl/mtfhtml/mfdigcol/, 2020年12月1日。
② 藏族口述史项目共上线403条录音,其中政治历史类361条,民俗类35条,寺庙僧侣7条,录音时长约500小时。该口述数据的架构模式,可以为中国东北边疆口述史资料库建设提供较好的借鉴。藏族口述史项目,https://www.loc.gov/collections/ tibetan-oral-history-project/, 2020年12月1日。
① 刘石、李飞跃:《大数据技术与传统文献学的现代转型》,《中国社会科学》2021年第2期,第63―81页。
② 万红:《以〈著作权法〉第三次修订为视角的图书馆电子书版权保护》,《 图书馆工作与研究》2015年第5期,第51―54页。
③ 韩国公共数据中心, https://www.data.go.kr/ugs/selectPublicDataUse-GuideView.do, 2023年05月17日。
④ 中国历代人物传记资料库, https://projects.iq.harvard.edu/chinesecbdb, 2021年4月10日。
⑤ 中国历史地理信息系统, https://chgis.fas.harvard.edu/, 2024年2月22日。
① Leigh Dodds and Peter Wells, “Issues in Open Data - Data Infrastructure,” in The State of Open Data: Histories and Hori? zons , ed. Tim Davies et al. (Cape Town and Ottawa: African Minds and International Development Research Centre, 2019),260-273.
② 温晓雅:《基于知识图谱的数字人文研究平台构建》,《信息技术与标准化》2021年第5期,第17―22页。
① 苏祺等:《古籍数字化关键技术评述》,《数字人文研究》2021年第3期,第83―88页。
① 李娜:《面向方志类古籍的多类型命名实体联合自动识别模型构建》,《图书馆论坛》2021年第12期,第113―123页。
② Excite,https://www.excite.co.jp/, 2023年2月1日。
③ Papago,https://papago.naver.com/, 2023年2月1日。
④ 阳琼:《在线翻译质量文类差异:基于人工测评的比较分析》,《东方翻译》2021年第4期,第54―59页。
⑤ Neo4j平台,https://neo4j.com/, 2023年2月1日。
⑥ Echart可视化示例,https://echarts.apache.org/examples/zh/index.html, 2023年2月1日。
① 李国强:《“东北工程”与中国东北史的研究》,《中国边疆史地研究》2004年第12期,第3―8页。
② 陈刚:《“数字人文”与历史地理信息化研究》,《南京社会科学》2014年第3期,第136―142页。
③ 在宏观的东北古史研究中,通常使用的是精度较低的空间位置示意数据,因此一座山峰、一处遗迹、一个地名可以使用一组坐标数据作为示例,呈现基本的位置关系。考古研究通常則需要更加精细的数据,往往在一个空间位置都需要多个甚至多组空间数据进行标注。数据的详细程度,需要根据不同的研究需求进行处理。
① 苗威:《高句丽移民研究》,长春:吉林大学出版社,2011年。
② 赵里萌:《中国东北地区辽金元城址的考古学研究》,吉林大学博士学位论文,2019年。
③ 王绵厚、朴文英:《中国东北与东北亚古代交通史》,沈阳:辽宁人民出版社,2016年。
④ 卜庆华等:《 WebGIS下的中国城市历史地理信息平台的设计与实现》,《测绘通报》2015年第12期,第70―73页。
① 商文俊:《基于 Supermap Objects 的地图标绘系统的设计实现》,《电脑知识与技术》2008年第28期,第137―139页。