基于《方志物产》的古籍知识组织路径探析

2016-12-06 02:28白振田
古今农业 2016年1期
关键词:物产方志内容

李 娜 白振田 包 平

(南京农业大学人文社会科学学院,江苏 南京 210095)

基于《方志物产》的古籍知识组织路径探析

李 娜 白振田 包 平

(南京农业大学人文社会科学学院,江苏 南京 210095)

方志类古籍作为古籍范畴中的大类,历来被研究者重视。《方志物产》汇集了方志类古籍中与物产相关的著述,为农史研究提供了宝贵的资料。通过《方志物产》内容的阅读和分析,总结其行文特点,包括大篇幅、无句读、采用繁体字以及文本内容结构有一定规律但是书写格式呈现多样化等。在此基础上,结合最新信息技术的发展与应用,对适用于《方志物产》知识组织的相关技术进行了探讨,包括用于文本内容格式化的、用于命名实体识别的、用于知识发现的、用于组织结果展示的技术等,为本领域的研究者提供较为深入的路径分析。

方志物产;古籍整理;数据挖掘;可视化

一、引言

中国方志类古籍起源早、持续久、类型全、数量多,是文化遗产中的一个重要组成部分,既具有丰富坚实的史料基础,更具备取之不尽、足资参证的史料价值。据《中国地方志联合目录》的统计,仅保存至今的宋至民国时期的方志就有8264种,11万余卷,占中国古籍的1/10左右。[1]

《方志物产》是我国著名农学家、中国农史学科的主要创始人万国鼎先生,在20世纪50年代组织数十人历时六年,先后前往40多个大、中城市的100多个文史单位,从8000多部地方志中人工摘抄整理的专题性资料,内容涉及农业生产的各个方面,而以动植物品种资源和相关的种植饲养技术为主,具有极高的农业科技、经济史料价值,受到国内外相关学者的高度重视。[2]

随着计算机和信息技术的发展和应用,古籍数字化整理逐渐兴起,给古籍整理注入了新的活力。

本文在《方志物产》数字化的基础上,综合分析其行文结构等方面的特点,针对《方志物产》自身特点及数字化整理需要,厘清整理过程中可能用到的数字挖掘技术,并结合内容进行一定的可行性分析,以期为《方志物产》的内容数字化整理提供路径选择。

二、工作基础与研究进展

(一)工作与研究基础

20世纪80年代开始,随着计算机和网络技术的发展,人们尝试将计算机应用于方志史料的整理和利用。方志书目数据库、方志索引、方志全文数据库和专题数据库、地情网等一系列数字化成果不断涌现。中华农业文明研究院在这方面的研究与开发成果丰硕,以王思明教授为首的研究团队对《方志物产》这一珍贵古籍资源进行了数字化建设,将3000余万字的《方志物产》文献扫描成图像文件,并逐字输入电脑,转换成电子文档,同时进行文献标引和元数据编目,发布了《方志物产》的在线管理系统,实现了在线浏览与检索等相关功能。这一成果不仅解决了《方志物产》的长久保存问题,同时也通过资源共享的方式促进了学术研究。

随着《方志物产》数字化程度的日益成熟和深入,基于内容挖掘的数字化整理逐渐被提上日程,这就要求除了实现文本数字化,使其具有方便的浏览阅读环境和强大的检索功能外,还需要基于其内容的深入研究,使其具有研究支持功能,即能够提供有关方志内容本身科学、准确的统计与计量信息,提供与方志内容相关的参考数据、辅助工具,进一步推动学术研究的进展。

近年来,有学者尝试将信息技术与传统内容相结合,进行方志类古籍相关内容的挖掘和研究,积累了一些成果。例如衡中青的《地方志知识组织及内容挖掘研究》[3]、朱锁玲的《方志类古籍地名识别及分析研究——以〈方志物产·广东分卷〉为例》[2]等。

(二)存在的局限

现有的成果为进一步研究提供了一定的基础和思路,但仍然存在一些不足之处和提升的空间。

从研究对象来看,已有成果或侧重对方志外在形式的加工和整理,或侧重对方志整理的智能化技术研究,都没有基于《方志物产》内容本身作相关整理研究,缺乏对方志内容的深度开发与利用,未能充分发掘《方志物产》这一珍贵古籍的史料价值。

从研究范围来看,有研究通过识别《方志物产》中的引书和地名,探索《方志物产》的内容挖掘,但他们仅从3000多万字的《方志物产》中抽取了其中的广东分卷作为研究对象进行尝试性研究,缺乏全国范围内的完整性和系统性。而在命名实体识别技术应用的过程中,通过模式识别出来的物产和地名的对应关系只是《方志物产》中的一部分,还有很多物产因为不符合模式的格式而没有识别出来,因此还需要更全面的方法更完整地实现物产的识别。另外,除了物产于地名的对应关系以外,还有其他一些关系,例如物产-别名、物产-功效、物产-分类等,也可以通过命名实体识别技术加以整理,为研究提供新的思路和范畴。

从研究技术来看,将命名实体识别技术应用到《方志物产》内容挖掘的过程中,无疑是一种开拓创新的方式,但是已有的研究主要是从文本中找到规律,根据文中的规律构建模式库,导入文本,根据模式库中统计出来的确定的规律对文本进行分析,找出地名与物产名的对应关系,但是《方志物产》的书写并不是统一的,有的物产有产地描述性的注释,有的没有,而且没有注释的占了很大的比例,因此根据模式库识别出来的地名与物产知识仅占整个《方志物产》中一部分,并不是全部。只有从理念上认清和技术上突破,才能用更强大的挖掘技术,更全面地挖掘其内容。

三、《方志物产》特点分析

中文在文字结构和书写方式上都与其他文字有着很大的区别,古籍中的文字结构和书写方式与现代文献也大相径庭,《方志物产》属于古籍的范畴,又具有自身鲜明的特点。

(一)篇幅大,无句读,采用繁体字

简体中文是20世纪50年代开始在中国大陆推广使用的中文文字,而《方志物产》记载的多是明、清及民国时期的各地物产,因此书写时采用繁体字,由于古籍的书写多不加标点,没有断句,而《方志物产》在摘抄整理的过程中,严格忠于原著,所以,文中没有句读,例如“物產略者計其地上所出因以覘一邑之息耗焉襄垣古稱巨縣較之大江以南為財賦所自出或有不逮而地當太行之麓則物產亦有可誌者縣地生產向以五榖煤礦為大宗自改革以來舉國注意實業而農桑樹畜交換種類非復昔日之舊日新月異舉凡日用之所需供給罔缺故臚列亦如舊志不復另為一類云”①山西分卷第十本民国时期襄垣县志,诸如此类的记载《方志物产》文中比较常见,不曾出现标点符号,繁体字的运用由此可见一斑。

《方志物产》内容涉及地域范围广,包括辽宁、河南、河北、安徽、山东、山西、陕西、四川、广东等多个省份,从多省、市、自治区的地方志中摘抄了物产相关的内容,共431卷,总计3000多万字,因此,字数多、篇幅大、范围广也是其突出的特点。(二)文献结构有规律可循

方志的编纂从宋代开始逐渐成熟起来,后代的方志编纂也越来越完备,《大元一统志》就是一部非常具有代表性的志书,清朝是方志编纂的鼎盛时期,重修周期都有明确的要求,行文也有一定的规范性,因此,虽然文中没有句读,但是通读全文,还是能从文章结构上找到一些行文规律。

(1)每本志书的开始都是目录部分,包括序号、县志名称、记录年代的年号(含公元纪年)以及页码,如图1所示,就是山西分卷第十一本的目录部分。

图1 《方志物产》山西分卷第十一本目录(部分)

(2)内容是按照先总后分的框架编写的,即先写出何时何地何主题,再对该主题进行二级分类,最后在每一级分类下面罗列这个类别的物产名。例如“康熙潞城縣志物產榖屬黍(軟硬二種)稷(大小二種)梁 粟 麦(大小二種)秫(軟硬二種)蕎麦 小豆 豌豆 菉豆 匾豆 黑豆(大小二種又有麦查豆)黃豆 豇豆 蔴子 胡麻

蔬属 芹 茄 瓠蒜 芥 葱 韮 白菜 菠菜 蘿蔔(有紅白水三種)蔓菁 葫蘆 莙薘 萵苣 芫荽 藤蒿 馬齒 瓜属王瓜 南瓜 冬瓜北瓜菜瓜甜瓜……”②山西分卷第十一本康熙年间潞城县志,先交代志书记载的是康熙年间潞城县这个地方的物产,再对物产进行分类,分为谷属、菜属、瓜属、果属、木属、花属、草属、药属、畜属、毛属、羽属、虫属、物货属等十三个类别,最后列出每个类别下的物产名,例如菜属下面有芹、茄、瓠、蒜、芥、葱、韭、白菜、菠菜、罗葡、蔓菁、葫芦、莙篷、莴苣、芫荽、藤蒿、马齿等十七个品种,瓜属下面有王瓜、南瓜、冬瓜、北瓜、菜瓜、甜瓜等六个品种。

(3)物产名后面有注释文字,用以说明该物产的产地、分类、别名、用途、引书等信息,例如“薥秫(齊民要術云莖高丈許穗大如帚其子可作米可食稭桿可織箔元扈先生曰北方地不宜稻麥者種此可濟荒俗名千歲榖)”①山西分卷第十一本光绪年间陵川县志,括号中内容就是对物产薥秫的注释,说明《齐民要术》记载了物产“薥秫”的生物学特征,元扈先生评价了其适宜种植地区以及救荒价值,另外还说明了其别名叫“千歲榖”。

(4)结构上一般是某地志书开始处有序言,结尾处有结语,用以标志这个地方志书的开始和结束。序言部分主要是对当地的物产及地理气候概况,结语部分主要用来总结物产现况及变化。例如康熙黎城县志的序言部分为“李吉曰洪範三八政一曰食二曰貨食謂菽類貨謂布帛之類二者民所恃以為生王政之也周禮職方氏曰冀州其利松柏畜宜牛羊榖宜黍稷并州其利布帛畜宜五櫌榖宜五種黎右冀并地也無他奇產其土宜與夫所產者槩與昔同而食貨之外備物以利用凡可以厚民之生者不得以精粗巨細而有所遺也”②山西分卷第十一卷康熙年间黎城县志,结语部分为“程大夏曰黎山高土瘠菽麥瓜果而外更無他產故其民習於農桑終歲勤苦而不敢少休若山澤之利商賈之業黎未之有也舊志所載半屬子虛然物產無常有昔有而今無有今無而後有者故備列之而未敢意為去取云”③山西分卷第十一卷康熙年间黎城县志。

(三)行文格式多样性

由于《方志物产》涉及的地域比较广,几乎全国各省都有记载,而我国地大物博,人口众多,且不同地域都形成了独特的文化和习俗,因此,志书的书写风格也随着各地的风俗文化的差异而有所不同,呈现了行文格式多样化的特征。

(1)不是所有的志书都有序言和结语部分。从结构上看,一本志书的完整结构应该是由序言、物产、结语三个部分组成,但并非所有志书皆如此,除物产部分是不可或缺的,序言和结语都不是必须的,如表1所示是几种常见的文本结构形式。

表1 《方志物产》中常见文本结构

(2)《方志物产》的主要内容是物产部分,记载了物产名称及其属性,书写格式多样化。第一种,不同的物产名之间有空格隔开,例如“蜂蝶蟬蛙蟋蟀蜻蜓蛇蜘蛛蚯蚓蝎”④山西分卷第十本乾隆年间襄垣县志,这种以空格隔开的书写方式比较多见;第二种,一个或者数个物产名称单独成一行,例如“光緒陵川縣志 絲/光緒陵川縣志 麻(出陵川者佳用作船攬以其從外朽也)/光緒陵川縣志 蜜”⑤安徽分卷第三本光緒年间陵川县志⑥“/”标示换行;第三种,物产名之间用特殊字符如“曰”“有”隔开,例如“草之属曰芭蕉曰雁来红曰映山红曰蓝曰莎曰苔曰鳯尾曰翠云曰吉祥曰万年青曰虎耳曰蓼曰苹曰荇”①安徽分卷第一本道光年间安徽通志凤阳府物产、“獸之屬有兎有獐有獾有狐有貍有狼有黃鼠”②安徽分卷第五本康熙年间灵璧县志;第四种,物产名之间没有任何标识,例如“木之屬有有桑柘槐榆柳栢檜椿棠橡楝黃楝梧桐白楊楮桃蠟樹”③安徽分卷第二本康熙年间五河县志。上述比较常见的格式除可以独立使用以外,还可以混合使用,当然还存在其他不同的格式。

(3)物产名之后常有文字注释,但格式不一。首先在书写格式上的区别如表2所示,是几种比较常见的注释形式,用括号将注释内容括起来紧跟在物产名的后面,或者用空格将物产名与注释内容分隔开,或者注释内容紧跟在物产名之后,中间没有任何标识,甚至还有双重注释的形式,即一部分注释用括号的形式紧跟在物产名之后,还有一部分注释内容跟在括号的后面并另起一行。

其次,注释除了格式不同以外,内容上也有区别,加括号的注释类型最为常见,以此为例分析,有的括号的注释内容只描述一种特征,有的括号里的注释内容描述了两种甚至数种特征,如表3所示。

表2 《方志物产》中常见注释类型及其案例④表中内容引自《方志物产》

表3 《方志物产》中常见注释内容及其案例⑤表中内容引自《方志物产》

四、《方志物产》知识组织技术梳理

针对目前《方志物产》研究的不足,结合数据挖掘技术等信息技术的发展,对技术方法和路径进行系统和深入的梳理,为进一步开展《方志物产》内容挖掘与研究建立基础。

(一)适用于文本内容格式化的技术

标点符号在现代汉语中扮演着重要的角色,而古文在书写行文上,没有句读之说,如何将其合理断句,是一项基础工作。同时分词也是古今中文信息处理的另一难题,对古籍整理来说,难度更高。目前在古文断句方面,清华大学研究人员采用条件随机场模型(conditional random field),引入互信息和t-测试差两个统计量作为模型的特征,通过在《论语》与《史记》两个语料库上进行实验,获得了较好的效果[4]。黄建年等应用模式识别技术对自动断句进行了研究,通过句法特征词、反义复合词、引书标志、时序、数量词、重叠字词、动名结构及比较句法等进行断句尝试[5]。

在古文分词方面,主要有词典法、统计法等方法。李新福等人基于统计语言模型,对《续资治通鉴长编》进行了统计分析,根据互信息特征抽取候选字串,并建立了宋史语料库词表[6]。苏劲松、周昌乐、李翼鸿等通过统计抽词来抽取结合程度较强的二字词,建立了全宋词切分语料库[7]。这些都为《方志物产》文本内容的格式化提供了参考和借鉴。

(二)适用于命名实体识别的技术

目前,命名实体识别方法主要有三种:基于规则和词典的方法、基于统计的方法、基于二者混合方法。基于规则和词典的方法是命名实体识别中最早使用的方法,多是采用手写规则,由语言学专家手工构造规则模板,包括关键字、指示词、方向词、位置词、中心词等,只有当提取的规则能精确地反映语言现象时,基于规则和词典的方法才具有优越性,而基于统计的方法对篇幅也有要求,不适用于篇幅过短对象。[8]

《方志物产》虽然没有句读,书写格式也不统一,但是通读全文,还是能发现一定的规律,用于命名实体识别,表4举例列出了部分已知模式。

表4 《方志物产》部分模式整理①表中模式出自《方志物产》

(三)适用于知识发现的技术

(1)主题聚类和关联技术

主题聚类技术是一种无监督的机器学习技术,可以根据文本自身特点,将文档分成用户可以理解的若干个簇,簇内文档相似性尽可能大,簇间文档相似性尽可能小,使用户可以迅速地把握文档中的大量信息,加快分析速度和辅助决策。目前,常见的聚类方法包括基于层次的、基于划分的、基于网格的、基于密度的、基于模型的、以及基于神经网络和遗传的算法。[9]

在《方志物产》内容挖掘中,可以用来将物产根据类别归类,进而建立物产类别目录体系,为进一步的分析整理提供参考。例如“瓜品有東瓜有南瓜多王瓜多金瓜多西瓜多脆瓜多絲瓜多菜瓜”,“果品有枰果有柿有核桃有郁李有無花果有蓮子多杏多桃多李多梅多棗多葡萄多梨多沙果多石榴”,“菜有芹芥葱韮茄瓠菁蒜萵苣藤蒿蕓薹芫荽白菜黃花葫白蘿蔔菠菜莙蓬至於香椿紫蕨菉葵猴頭羊肚藤花木耳則又異於他處”①山西分卷第十三本万历年间安邑县志,以上是比较规范的书写方式,因为《方志物产》涉及的范围比较广,书写方式也有所不同,有的志书上的分类就没有那么清晰,例如“菜 東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜 葫蘆

萊菔 葱 蒜 韭 薤 芥 白菜 菠菜

茼蒿 莙蓬 萵苣 胡荽 茄 芹 薇

蕨 莧 苜蓿 茶豆 刀豆 藤花 山藥

百合 香椿 剌楸 茴香 漆皮頭 蔓菁(子可作油) 荏(子可作油)”②山西分卷第十三本康熙年间芮城县志,此处分类将瓜类合并到了菜类里面。上述情况,可以使用主题聚类技术,将“東瓜 西瓜 南瓜 甜瓜 稍瓜 絲瓜”从菜类中提取出来,设置瓜类等。甚至在有的志书中,没有给物产分类,直接把物产列举出来,例如山西分卷第八本民国时期浮山县志中的物产记载仅仅是罗列出来,而没有进行分类,为了更好地进行内容整理,使用主题聚类技术将物产归类总结是十分必要且可行的。

关联技术主要用于物产、地域、时间三种元素的对应上。这主要通过扩大搜索面,将各类物产、地域、时间拉长,放在一个较长历史空间、地域空间中去考察,为今后的物产随时间、地域的迁移规律发现作准备。

(2)同义、异名等发现技术

在方志物产中,同义、异名词大量存在。如何发现这些词汇,对后期的知识发现、全文检索、物产迁移分析等具有重要意义。衡中青以广东方志物产为对象,通过异名别称模式、引书模式识别等方法,自动抽取出特产名词和引书名称,其中引书识全率为48.95%,识准率为72.88%,具有一定的实用参考价值[3]。

(四)适用于挖掘结果展示的可视化技术

不管是使用命名实体识别技术,还是使用主题聚类、关联技术,以及知识发现,得到的都是以文字或者表格形式呈现的结果,无法展现内部结构,仍需要进一步对其进行总结和分析。人们迫切需要新的展示方法,可视化技术可以通过静态或者动态的图片更加直观明了地展现结果。

可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或者图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,是一项涉及到计算机图形学、图像处理、计算机技术等多个领域的综合技术。目前,常用的可视化方法包括社会网络分析法和GIS技术。

社会网络分析法是基于社会学的角度,认为社会是由网络构成的,通过探讨网络中关系的分析,探讨网络的结构和属性,有助于制定策略,UCNET、Pajek、Citespace等都是目前比较有代表性的社会网络可视化软件。UCNET是一个数据处理软件,本身不具有可视化的功能,但是它输出的数据可以导入到Pajek或者Citespace等具有可视化功能的软件中,实现可视化。[10][11]

GIS(Geographic Information System)是指地理信息系统,又称“地学信息系统”或者“资源与环境信息系统”,是一个综合了计算机科学、地理学、测量学、地图学等多门学科的技术,采集、存储、管理、描述、分析地球表面及空间和地理分布相关数据的信息系统。国外将GIS应用于历史学领域比较早,大约有二十余年的时间,开启了“历史GIS”分支领域,而国内起步甚晚。近年来,有学者以广东分卷为语料,尝试将GIS应用于《方志物产》内容挖掘中,实现了物产分布、传播等相关数据的管理和可视化制图,并根据结果进行了史料数据的空间分析。[12]可见,GIS技术是可以并且适用于《方志物产》研究的,在后续的研究中,要扩大应用范围,增强挖掘力度,首先在地理范围上,从一省向多省份、大地区延伸,进行多个省份的分析,形成一个或者数个片区,例如东南沿海地区、长江流域、东北地区等,最后在全国范围内建立起完整的展示系统。

五、结语

陈寅恪先生在为陈垣先生所编的《敦煌劫余录》序中提出:“一时代之学术,必有其新材料与新问题。取用此材料以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流。其未得预者,谓之未入流。此古今学术史之通义,非彼闭门造车之徒,所能同喻者也。”现代社会是信息社会,信息技术就是这个时代的新潮流。传统的人工整理能够保证较高的精确性,但是《方志物产》内容庞大,格式多样,在这样大数据的范围内,人工整理就有一定的局限性。而基于计算机技术的机器学习、规则、统计等知识发现方式正是应处理大数据的需要而生,数据挖掘以及可视化技术能够进行数据分析并直观展现结果。随着应用范围的不断延伸,各项技术也日趋成熟和规范,功能更加完善。基于《方志物产》的内容整理是现在及将来一段时间研究的重点,我们将根据其自身特点,结合人工干预,继续探索如何应用数据挖掘技术和可视化技术,提高整理的深度、广度和精确度,探索一套较为完善的自动化内容整理方法和手段。[基金项目:1、校人文社科基金重大招标项目“方志内容挖掘及知识组织研究”(编号:SKZD201401);2、江苏省2015年度普通高校研究生科研创新计划项目“《方志物产》数字化整理研究——以山西分卷为例”(编号:KYZZ15_0172)]

[1]朱锁玲,包平.方志类古籍地名识别及系统构建[J].中国图书馆学报,2011,03:118-124.

[2]朱锁玲.命名实体识别在方志内容挖掘中的应用研究[D].南京:南京农业大学,2011.

[3]衡中青.地方志知识组织及内容挖掘研究[D].南京:南京农业大学,2007.

[4]张开旭,夏云庆.基于条件随机场的古文自动断句与标点方法[J].清华大学学报(自然科学版),2009(10):163-166.

[5]黄建年.农业古籍断句标点模式研究[J].中文信息学报,2008(7):32-36.

[6]李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报(自然科学版),2006,05:557-560.

[7]苏劲松,周昌乐,李翼鸿.基于统计抽词和格律的全宋词切分语料库建立[J].中文信息学报.2007(2).

[8]张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005(04):第44-48页.

[9]李素建,文本内容自动处理的相关研究[J].术语标准化与信息技术,2011(1):43-48.

[10]梁辰,徐健.社会网络可视化的技术方法与工具研究[J].现代图书情报技术,2012, 05:7-15.

[11]颜端武,王曰芬,李飞.国外人际网络分析的典型软件工具[J].现代图书情报技术, 2009:6-11.

[12]朱锁玲,王明峰.GIS在方志类古籍开发利用中的应用初探[J].大学图书馆学报, 2013,05:118-121.

Analysis of Knowledge Organization on Ancient Books based on the Chronicles Property

Li Na Bai Zhentian Bao Ping
(College of Humanities and Social Science,Nanjing Agricultural University, Nanjing,Jiangsu 210095)

Ancient books such as local chronicles are always valued by researchers as a big category.Chronicles property collects property-related contents in the ancient books such as local chronicles and provides valuable information for the study of agricultural history. Through reading and analyzing chronicles property,we can find some characters of the writing style including great length,no sentence reading,using complex characters,certain rules in the content structure but diversified in the writing format.On this basis,combining with the development and application of the latest information technology,the relevant technologies applied to chronicles property are discussed such as content formation,named entity recognition,visualization and so on.The research aims at providing a systematic global concept for the researchers.

Chronicles property,Ancient books arrangement,Data mining,Visualization

李娜(1985—),女,南京农业大学人文社会科学学院2014级博士研究生;白振田(1971—),男,南京农业大学副教授;包平(1964—),男,南京农业大学教授、博士生导师。

猜你喜欢
物产方志内容
内容回顾温故知新
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
黑龙江民国方志所刊名家墨迹选
实践活动—教学设计案列
实践活动—教学设计案列
——“家乡的物产”品种多 品质高
嘉绒藏族地区的旧方志编纂
主要内容
物产美食
Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
风险警示:香溢融通、物产中拓、申达股份