张瑞红,刘永革
(安阳师范学院 甲骨文信息处理教育部重点实验室,河南 安阳 455000)
甲骨档案是目前我国可见的最古老的档案实物,是镌刻于龟甲与兽骨上,记录殷商和西周早期上至国家政事、农事、征伐,下至王室祭祀、狩猎、巡游、疾病、生育等重要事宜的档案(1)王永:《论甲骨档案的学术价值——纪念甲骨档案发现一百周年》,《浙江档案》1999第3期。;所记录文字——甲骨文,也是目前我国发现的最早的成系统的文字。研究甲骨文是挖掘甲骨档案,近距离观察殷商和西周早期社会,了解中国上古史和早期国家社会形态的重要前提。2014年5月30日,习近平总书记在北京视察工作中指出:“中国字是中国文化传承的标志,殷墟甲骨文距离现在3000多年,3000多年来汉字结构没有变,这种传承是真正的中华基因。”(2)《习近平看望少年儿童:精忠报国是一生的目标》,http://www. xinhuanet.com// politics/ 2014-05/30/ c_11109 43512.htm,2014-5-30。2016年5月17日习近平总书记在哲学社会科学工作座谈会上的重要讲话明确指出:“要重视发展具有重要文化价值和传承意义的‘绝学’、冷门学科,如甲骨文等古文字研究等,要重视这些学科,确保有人做、有传承。”(3)《习近平在哲学社会科学工作座谈会上的讲话》,http://politics. people.com.cn/n1/2016/0518/ c1024-28361421-4.html,2016-5-19。2017年甲骨文入选《世界记忆名录》。2019年11月1日孙春兰副总理在人民大会堂主持召开“纪念甲骨文发现120周年座谈会”,习近平总书记发来纪念甲骨文发现和研究120周年的贺信,谈到:“殷墟甲骨文的重大发现在中华文明乃至人类文明发展史上具有划时代的意义。甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,值得倍加珍视,更好传承发展。”(4)《习近平致甲骨文发现和研究120周年的贺信》,http://www.xinhuanet.com/politics/leaders/2019-11/02/ c_1125184398.htm,2019-11-2。给甲骨文研究者极大的鼓励与鞭策,甲骨文等古文字研究必将进入一个崭新的发展阶段,让‘绝学’、冷门学科蕴含的中华优秀传统文化得以更好地传承和发展。
为了发挥甲骨文对中华优秀传统文化的传承作用,响应中央要求,2016年全国哲学社会科学规划办公室启动“大数据、云平台支持下的甲骨文字考释研究”国家社科基金重大委托项目,共有9个子课题获批立项,我校获批3项,笔者所在团队承担了“甲骨文大数据云平台技术研究”子课题,该课题预期目标是“三库一平台”,即建成一个集甲骨文字形库、甲骨著录库(含甲骨缀合库)、甲骨文献库为一体的数字化服务平台,为甲骨学专家研究殷商史、考释甲骨文字、开展甲骨缀合等提供快捷、全面的数字化资源服务,为全面深化甲骨文研究提供信息技术支持,对构建中国上古史、文化遗产保护、文化传承等具有尤为重要的学术价值和社会意义。
1.甲骨文研究高度依赖资源占有量,共享卷帙浩繁的甲骨文资料尤为必要
从1899年王懿荣辨识出商代晚期龟甲兽骨上的文字开始,对甲骨文的研究成为一些学者一生孜孜不倦的追求,在甲骨文材料收集、整理、刊布方面付出巨大心血,为研究甲骨学奠定了坚实的基础。如今,经过几代甲骨学人的不懈努力,甲骨文研究已经成为一门具有严密规律、有丰富研究资料和多方面研究课题的举世瞩目的国际性显学——甲骨学。(5)宋镇豪:《岁末年初对甲骨学的思考和期待》,http://cass.cssn.cn/xuebuweiyuan/201812/t20181228_4802379. html,2018-12-28。但是甲骨学的研究特别是甲骨文字的释读不是孤立地以甲骨片上的文字为对象,而是与古文字学、考古学、历史学、古代科学史、历史文献学、人类学等其他相关学科紧密联系的,(6)江铭虎:《自然语言处理》,高等教育出版社,2006年。甲骨文的研究高度依赖专家知识,成为一名甲骨文专家可能要付出毕生精力,培养一名甲骨文专家难度可想而知。不说甲骨学专家隐性知识传承的难度有多大,仅获取甲骨学专家多年研究积累、使用的资料难度就很大。而且甲骨学研究还是冷门学科,除了各大数据库收录的文献,早期的研究成果大多分散地收藏在不同的甲骨学者手中,或者分散地珍藏在不同的图书馆,特别是一些早期的研究专书、论文获取难度和成本很大,所以传统的资料获取方式严重地阻碍了甲骨文初学者的进展,对甲骨学人才的培养也极为不利,共享甲骨文专家卷帙浩繁的资料尤为必要。
2.甲骨学深入研究面临重重困难,借助信息技术改善传统研究方式势在必行
经过几代历史学家、考古学家、甲骨学者的不懈努力,甲骨文研究已经取得的丰硕的成果,大大地加深了我们对殷商和西周早期社会的认识。但是全面深化研究面临着许多难题,如甲骨文考释,据统计目前大约发现5000多个甲骨文字,已释读的只有约1500字,释读新的甲骨文字需要大量的线索,但是出土的约16万片甲骨片分散地收藏在国内外不同的地方;(7)葛亮:《一百二十年来甲骨文材料的初步统计》,《汉语汉字研究》2019年第4期。一些早期研究甲骨文的珍贵文献资料分散在不同的甲骨文专家手中,几代学者通过墨拓、摹绘、照相、文字叙述等编撰的甲骨文著录等一批工具书,购买成本昂贵、翻阅不太方便,考释新字的难度极大。另外已经发表的甲骨片中95%的是碎片,只有将来源于同一片的甲骨碎片缀合在一起,才能为考释提供更为完整的信息。甲骨文研究必须依赖大量的文献资料,殷墟发掘90多年也出土了浩如烟海的相关资料,仅依赖少数专家的知识积累和大脑记忆,在海量的资料中寻找缀合、考释线索,收效甚微,传统的研究方法迫切需要借助信息技术进行改善;利用现代信息技术、人工智能技术改变传统研究方式势在必行。
因此,为了贯彻习近平总书记的讲话精神,顺应文化传承的新时代要求,确保甲骨文等古文字研究有人做、有传承;为了共享卷帙浩繁的甲骨文资料,为后来研究者提供丰富的资源;为了深挖甲骨文文献资源的价值,为甲骨文考释、缀合提供支持,永久保存甲骨文宝藏,建设甲骨文文献数字化平台十分必要。
1.甲骨文文献资源数字化平台建设的宗旨
甲骨文文献资源数字化平台由中国社会科学院学部委员,中国社会科学院甲骨学殷商史研究中心主任宋镇豪先生指导建设,长期与国内、台湾地区、海外的甲骨文研究领域的知名专家保持联络与交流,与国内外从事文字计算研究的科研院所合作,确保甲骨文文献资源平台建设的权威性。建设的宗旨是不遗漏每一部著录,不错过每一片甲骨,竭尽全力收集每一部专书、每一篇文献,以期建成资料最齐全的数字化平台;收集甲骨文发现120年来所有出版著录,目前已收集整理甲骨文著录246部,含大批海外出版著录、孤本绝本,同时收集研究文献29708篇(含专书282部)。以期建成形式最多样、内容最丰富的资源服务平台,甲骨统领、著录为纲,著录不仅有拓片、摹本、照片,后期还要加入3D图像;对每部著录中的甲骨片进行裁剪、分类、存储和管理,对甲骨片上的每一个字进行截取,做到清楚每一片甲骨的身世,精细到每一片甲骨上的字,建立甲骨片、著录关联信息,建立甲骨文字、文献关联信息,为后期实现人工智能技术辅助甲骨文研究提供智能化知识服务奠定基础。
2.甲骨文文献资源数字化平台——三库一平台
(1)甲骨文字形库
甲骨文数字化的首要任务是建立甲骨文字形库,这是实现甲骨文字在计算机中编辑、输入的基础,但是甲骨文字不像现在的汉字具有统一的标准规范,尤为复杂,如异体字、合体字较多,还有约三分之二未识字,所以甲骨学者对甲骨文字形的认同也存在差异。(8)栗青生、吴琴霞、杨玉星:《甲骨文字形动态描述库及其字形生成技术研究》,《北京大学学报(自然科学版)》2013年第1期。影响较大的是香港中文大学沈建华等确定的包括异体字在内的六千多个甲骨文字形。(9)沈建华、曹锦炎:《新编甲骨文字形总表》,香港中文大学出版社,2001年。以沈建华的甲骨文字形为参考,结合前人研究成果,在甲骨文专家指导下,收集整理已发现的全部甲骨文字(包括异形体)。团队中既懂甲骨文又会甲骨文书法的专业人士,参考原片逐字核对校验,修改误摹、误收、重收及衍生字头与字形,合理调整部首与归部,正确处理异形字的分列与归并,形成一份综合各家之长又有所修订与补正的独立的甲骨文字形表,用毛笔书写了甲骨文字形,包括172个部首和4049个甲骨文单字,具体见图1:甲骨字形库,提供了输入单字、拼音和句子三种检索方式。在甲骨字形库的基础上,研制了在线手写甲骨文输入法、笔画输入法、拼音输入法、部首输入法等,以满足各类用户的甲骨文献编辑、输入和信息检索的要求。
图1 甲骨文字形库
(2)甲骨著录库(含甲骨缀合库)
①甲骨著录库
甲骨著录是甲骨学者在搜集、整理甲骨片的过程中,采用墨拓(拓片)、摹绘(摹本)、照相、文字叙述等方式,将甲骨文客观地复原后刊布出来,并记录有甲骨形状、卜甲与卜骨上的卜兆和钻凿、甲骨上雕刻的花纹等信息的资料。(10)顾绍通:《甲骨文数字化处理研究述评》,《西华大学学报(自然科学版)》2010年第5期。1903年刘鹗从搜集到的甲骨片中精选墨拓了1058片,以石印出版的《铁云藏龟》是我国甲骨学史上的第一部著录书,使甲骨文由只供少数学者在书斋里观赏的古董,变为可以研究的珍贵史料,是甲骨文领域专家学者开展研究的第一手资料。1978至1982年中华书局出版的《甲骨文合集》就是一部甲骨著录的集大成,共13册,选录了甲骨发现后80年的已著录和未著录的殷墟出土的甲骨拓本﹑照片和摹本﹐共41956片。(11)西沐、柳学智:《关于甲骨文价值认知的分析——纪念甲骨文发现111周年(1899-2010)》,《中国美术》2011年第3期。一部《甲骨文合集》就如此之巨,更何况120年来,先后出土了约16万片,甲骨学者还在不断地整理刊布甲骨著录,传统的方式让甲骨学研究不仅是一项智力活动还是一项体力活动,而且费用开支巨大。甲骨著录数字化将为甲骨文研究提供极大的便利,并可节约大量的费用和资源。
甲骨著录库计划收录甲骨著录246部,一期整理46部,利用高清扫描仪对纸质出版的著录进行扫描。除了对甲骨文著录书进行信息标注外,由于著录中的每片甲骨都有自身独有的信息,如卜辞、钻凿、兆纹、载体等,所以将著录中的每片甲骨裁剪下来,提取著录文献中每片甲骨的信息,如出土地、馆藏地、著拓号、选定号、原骨拓藏,馆藏编号,记录载体(龟甲、兽骨)、记录形式(拓片、摹本、照相)、分期情况、分组情况、著录情况、原文、释文等。(12)熊晶、焦清局、史小松:《甲骨文著录综合信息化系统设计与实现》,《信息技术与信息化》2018年第10期。每部甲骨著录中的每片甲骨都根据其提供的编号或者制定编号规则命名后,上传至数字化平台的著录库中保存,一期的46部,共收录112517片甲骨信息,具体见图2:甲骨著录库。甲骨著录库可以通过甲骨片号、释文、馆藏编号、记录形式、出处等条件单独或者组合检索,放大每张著录图片可以清晰看到甲骨上的文字。
图2 甲骨著录库
②甲骨缀合库
在甲骨文科学发掘前,大多甲骨是农民耕田或盗掘所得,加之甲骨承载着文字、占卜、工艺技术等大量信息,并在地下埋藏三千多年,十分脆弱易碎,所以大多是碎片,已经发表的甲骨片约95%是碎片,将残存的甲骨进行缀合是除了发掘甲骨之外,获得甲骨新材料的重要途径,故甲骨缀合堪称“再发掘”。王国维是最早进行甲骨缀合的学者,通过缀合修正了《史记·殷本纪》中商王世系,就是典型例证。(13)王大德:《王国维与殷墟甲骨档案》,《档案学通讯》1993年第5期。以黄天树、林宏明为代表的学者在甲骨缀合方面成绩斐然,甲骨缀合成为甲骨学研究中成果最为丰硕的一个领域。除了甲骨收藏者外,学者缀合甲骨大多情况下利用拓片,有些学者利用摹本也可做缀合,但是依靠学者记忆在约16万甲骨中寻找缀合的线索,犹如大海捞针,有时发现线索完成了缀合,很有可能其他学者已经缀合过了,重复劳动浪费学者时间精力而且工作量巨大。
甲骨缀合库存储了学者们已经缀合过的甲骨信息,包括甲骨主片号与可以进行缀合的甲骨号码等信息,具体见图3 :甲骨缀合库。甲骨学者可以检索、查询到已经缀合的甲骨信息,防止重复劳动。同时,也为甲骨学者开展考释等研究提供了重要的尽可能完整的参考材料。每一片新缀合的甲骨,无论是否有新字或者重要内容出现,都是有意义的。
图3 甲骨缀合库
(3)甲骨文文献库
甲骨文本身是一种文献,但是这里的甲骨文献不是指考古意义上的出土文献,而是甲骨文发现120年来,甲骨学者研究甲骨文的论文、专书,著录除外。虽然我国知网、万方、维普、超星等各大数据库都收录了与甲骨文研究相关的论文、专书,但是由于各大文献数据库建设的时间远晚于甲骨文发现后学者研究的时间,所以很多早期的研究成果大多未收录,如早期甲骨四堂的论文获取难度大,建设甲骨文献数据库,实现甲骨文研究资料的数字化,一直是甲骨学者的愿望。但是早期甲骨文献资源的特点,如手写体、繁体字、竖排且有时又会出现双排并列的不规则排版、未识字图片嵌入、未识字不同部首拼合而成等,还有一些早期的专书很难获得,购买的时间、经济成本都很高,很多问题使得甲骨文献库的建设困难重重。
中国社会科学院学部委员、甲骨学殷商史研究中心主任宋镇豪先生是甲骨文研究领域的领军人物,主编了《甲骨文献集成》(40册)和《百年甲骨学论著目》,收集整理了大量的甲骨文研究文献,将大量资料提供给我们。利用高清扫描仪将早期没有被各大数据库收录的论文、专书进行扫描,对图像进行合并。根据甲骨文文献资源特点,设计数据库类型,依据应用方式定制论文和专书数据库的元数据,并确定数据加工的标准和规范,制定出XML Schema;根据制定的数字资源库元数据和Schema标准,对收集整理的甲骨文文献资源进行数字化加工,并根据元数据规范标引各个数据项和结构化拆分,一期完成了29426篇文献和282部专书的数字化加工和元数据标引,上传至数字化平台的文献库中保存,具体见图4:甲骨文文献库。甲骨文文献库提供题名、作者、关键词、摘要等多种检索途径,可在线浏览和下载。而且,如果甲骨文研究领域的学者有我们库中未收录的文献,可以自行上传,经过管理员审核后可以入库,为不断丰富该库资源提供了途径。
图4 甲骨文文献库
(4)面向服务的甲骨文文献资源数字化平台
甲骨文文献资源数字化平台是一个集甲骨文字形库、著录库(含缀合库)、文献库为一体的全面、权威的甲骨学研究资料获取平台,已经具备甲骨文手写输入、部首输入、拼音输入、著录检索、已缀合甲骨查询、文献查询等功能,对各类甲骨文研究资源进行统一建设、发布、管理和维护,具体见图5:甲骨文文献资源数字化平台——殷契文渊,一期工程完成后,该平台已在2019年10月18日“纪念甲骨文发现120周年国际学术研讨会”上,面向全世界发布,用户注册后可免费使用平台上所有资源,网址为http://jgw.aynu. edu. cn/ajaxpage/ home2.0/index.html。在一定程度上破解了以往甲骨文研究资料获取难的问题,为甲骨学领域的专家学者以及普通用户提供了前所未有的便利。面向未来,在知识层面,从著录上裁剪的每片甲骨,碎片化的标注;从每片甲骨上截取的每个甲骨字,形成研究的数据集,精细到了字;收集到的每篇文献依据元数据规范标引,形成碎片化的XML文档,为建立甲骨片、著录关联信息,建立甲骨文字、文献关联信息打下了坚实的基础,让借助现代信息技术为甲骨文专家提供更全面、更智能的图像检索、语义检索、个性化推送等知识服务成为可能。
图5 甲骨文文献资源数字化平台——殷契文渊
目前,二期工程正在进行,甲骨文字形库将继续整理、补充新近出版的甲骨著录中的“新见字”,设计甲骨文Unicode编码,争取成为行业标准,积极参与甲骨文GB或Unicode标准的制定;甲骨著录库将完成解放前38部著录入库工作,还要采集补充3D图像数据;甲骨缀合将利用甲骨著录库中的图片,应用数字图像边缘检测方法等对甲骨碎片进行拼接,缀合甲骨或者提供更多缀合线索;甲骨文文献库将继续收集台湾、日本等甲骨文学者的研究成果;结合甲骨文字库,应用文档分析技术、光学字符识别技术对著录、甲骨文献中的甲骨字进行识别,建立三库关联信息,提供智能化知识服务。为利用人工智能、深度学习等先进的信息技术,开展甲骨文字形分析、甲骨文字检测、甲骨文识别、甲骨文语言计算和知识推理等研究,辅助甲骨文考释和缀合提供数据支撑。面向未来,虽然实现完全意义上智能化知识服务还有一定距离,但是在国内外甲骨文专家学者和国内外从事文字计算研究的科研院所的帮助下,在国家促进中华优秀传统文化传承和发展,提升中华民族文化自信和文化软实力战略支持下,该平台的建设一定可以取得丰硕成果,更好地服务甲骨学研究。