孙慧云
(山东省图书馆,山东济南 250100)
古籍是记录中华民族文明的重要载体。2013年12月30日下午,习近平总书记在主持中共中央政治局就提高国家文化软实力研究进行的第十二次集体学习时强调“要系统梳理传统文化资源,让书写在古籍里的文字都活起来”[1]。古籍原版书由于年代久远,纸张老化,不能随意翻动,增加了读者阅读古籍原版的难度。要解决藏与用的问题,古籍数字化是必经之路。2007年1月国务院办公厅出台的《国务院办公厅关于进一步加强古籍保护工作的意见》文件中第三条第五项指出“制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”[2]。图书馆是重要的古籍收藏单位,有必要去研究古籍数字化技术,了解古籍数字化发展进程,剖析古籍数字化技术难点。当前的期刊论文主要从古籍数字化的标准、现状、问题和对策等宏观层面展开讨论,专门针对技术细节论述得较少且不够系统。实际上古籍数字化是对技术依赖非常强的一个工程,而专利文献能够快速反应该技术领域的最新进展,便于挖掘技术细节。通过专利分析能梳理该领域的技术要点、专利申请人和专利申请公司,以便于图书馆对该技术的引用、探讨和突破。
本文使用工具为IPTECH专利分析平台,该平台由台湾连颖科技股份有限公司开发,该公司长年来致力于产品研发,追求技术领先性、质量稳定性,堪称同行业中最具产品创新的公司[3]。IPTECH是该公司一款能实现全功能专利检索与专利分析,具有完整性、程序性专利检索分析功能设计的优质专利分析平台[4]。在浏览器上输入IPTECH的网址http://iptech.cc,输入用户名和密码进入检索界面。检索范围:CN(中国),TW(台湾),HK(香港),MO(澳门);专利类型:发明专利;专利状态:公开;一般检索:关键词组合(关键词、名称、摘要、说明)古籍,分类号:主IPC G06,日期截至到2017年7月16日。生成的检索式为:TACD:(古籍) AND MIPC:(G06)。经检索得到168份专利文献,经查看都符合检索要求,都纳入分析范围。
通过IPTECH专利分析平台,利用专利分析方法对我国古籍数字化技术专利文献进行定量分析和内容分析。定量分析主要从专利公开数量与阶段划分、主要申请人、主要专利分类号(IPC)等角度分析。从古籍数字化主要技术要点的角度进行了内容分析,总结我国古籍数字化技术演进的三个阶段。
古籍数字化技术在1990年即有专利申请活动,至2017年7月共有168件专利,详见图1。依据专利申请数量随时间消长划分了目前古籍数字化技术专利公开的两个阶段。
萌芽期大约从1990年到2011年,这一时期专利件数均在10件以下,1991年、1993年至1995年、1998年专利件数均为0件,2007年专利数量为9件,中间几年申请数量有所起伏。2007年专利数量激增与2007年1月国务院办公厅出台的《国务院办公厅关于进一步加强古籍保护工作的意见》[2]文件有一定的关系。
图1 年度公开专利数量趋势图
成长期大约从2012年至今,专利数量从2012年的10件上升为2016年的25件,相对于2012年以前的年申请量增加了至少2倍,2017年截止到检索时间2017年7月16日共14件。申请数量一直在增加,还没有到达稳定高峰期的趋势,随着诸多古籍数据库的问世,预计专利数量会越来越多。
根据专利申请数量选出主要申请人,主要申请人能反映出掌握该领域技术的人或公司。根据专利检索结果,计算出共99名专利申请人,168件专利。按照布拉德福定律,将所有专利按照主申请人分为3个区(核心区、相关区、离散去),使每个区的专利数量大致相等,得到表1。从表1中可以看出,当每区专利数量大致相等时,相应的主申请人人数之和呈等比关系,其布拉德福系数为2.78和2.60,平均值为2.69。按照布拉德福定律应选择9位申请人公开的56件专利为专利文献核心分布区域。由于第8名到11名均有4件专利,笔者选取专利件数前11名主要申请人、64件专利为主要分析对象。这11名主要申请人各自的专利件数、发明人数、相对研发能力等情况,详见表2。这11名主要申请人有北大方正集团有限公司、成都数联铭品科技有限公司、北京信息科技大学、北京北大方正电子有限公司、中国藏学研究中心北京藏医院、王宏源、浙江大学、天津赛因哲信息技术有限公司、朱信、杨春华、龚学胜。北大方正集团有限公司和成都数联铭品科技有限公司占据鳌头,应该重点关注。北大方正集团参与发明人数最多,活动年限也最长,可以推测该公司在该领域有较强的竞争力,相对研发能力也最强。相比之下,成都数联铭品科技有限公司也有9件专利,但是投入人数少,平均专利年限也短,说明该公司人均研发能力较强。
表1 布拉德福定律分布表(n=3)
表2 主要申请人研发能力分析数据表
从这168件专利总体样本来看,古籍数字化技术主要集中在3个方面。第一是文字输入,对应IPC类目G06F/003中,具体到三级分类,G06F/003/023类目下专利数量最多,有45家公司申请了该类专利,占比26.8%。实现文字输入是古籍数字化的基础工作,只有实现了古籍的文字输入才能开展文本编辑、检索、文本挖掘等功能。目前还没有完整的古文字库,因此文本输入方法的相关专利数量最多。第二方面是信息检索,对应IPC类目G06F/017中,具体到三级分类,G06F/017/30类目下专利数量最多,有31家公司申请了该类专利,占比18.5%。能通过古籍数据库进行文本检索是实现古籍数字化的主要目的,这样就可以节约读者时间,将最全面最准确的资料呈现在读者面前。这依赖于信息组织策略的好坏、检索算法的优劣,因此信息检索方面的专利也较多。第三方面是图像识别,对应IPC类目G06K/009中,该类目共有29件专利,占比17.3%。图像识别是能够将古籍图像中的文字识别成可编辑的文字,受图像质量、图像与字库匹配算法等因素影响,对该技术的探讨也不断出现。
对古籍数字化主要技术要点内容进行分析,能够细化技术要点,找准切入点。本部分根据主IPC分类号的划分,相关研究成果以及笔者系统开发实践经验总结得出古籍数字化主要技术要点及其内容如下:
(1)古籍文字输入
古籍中的字不同于现在的印刷体,有手写的,刻的,有铅印的,大小不一,形态各异。就字的种类来说有繁体字、异体字、通假字等。除了常见汉字外,还有甲骨文和地方特色文字,如藏文、纳西东巴文、楚雄彝文、江永女书等。古籍中的文字讲究行气,好的作品同样也是一部书法作品,即使是同一个字,也有不同的表现形式。要把古籍里的文字数字化,一个重要的原则就是版面还原,也就是将古籍里的文字输入成可编辑的文字,这就要克服诸多困难。在古籍文字处理方面,杨春华2012年10月公开了一种以国家规范部件为部件基础的部件码输入法(专利号为CN102707809),龚学胜2004年4月公开了一种华文文字龚码统一方案及内码完整规范转换方法(专利号为CN1490711),朱信2017年3月公开了一种多重复字字库兼容通用字库方案(专利号为CN106547728),王宏源2007年8月公开了一种使用适合于古籍文字的Unicode(统一码)四字节编码汉字超大字符集及其输入法进行家谱数字化数据加工的方法(专利号为CN101025760),北京北大方正电子有限公司2015年4月公开了一种字库更新方法和装置(专利号为CN104516899),北京信息科技大学2015年8月公开了一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法(专利号为CN104866117)。
(2)图象处理和文字识别
借助国家重大文化工程之一的中华古籍保护计划政策,部分古籍经过扫描以图像的形式保存。但是没有文本化,不利于检索,增加了使用的困难。古籍图像处理和文本识别是古籍数字化的一大难点。目前,主要采取OCR的方式进行文字识别,这依赖于古籍文字字库的构建,才能提高识别率。成都数联铭品科技有限公司2016年6月公开了一种基于卷积及递归神经网络的复杂光学文字序列识别系统(专利号为CN105678292),2015年10月公开了一种基于深度学习的复杂文字识别方法(专利号为CN104966097)。北大方正集团有限公司2014年11月公开了一种电子文档识别方法及装置(专利号为CN104166849),根据各文档特征值进行单层电子文档、双层电子文档或多层电子文档的分类处理。北京信息科技大学2007年5月公开了一种东巴文的图像文本识别方法(专利号为CN104794455)。王宏源2007年12月公开了一种古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法(专利号为CN101093545)。
(3)古籍排版
古籍有天头、地脚、边栏、界行、鱼尾、书口等特殊版式,文字编排上有双行小字,还有印章等。基于版面还原的原则,古籍排版增加了不少困难。朱信主要擅长文字处理和排版,主要专利有2017年3月公开了一种台式机书法字库排版屏显技术(专利号为CN106528503),2015年4月公开了一种中文竖排古籍和书法文字制作系统(专利号为CN104484314)。北大方正集团有限公司2013年6月公开了一种排版处理的方法及设备(专利号为CN103136183),能实现古籍中版面内的多行或多段内容作为一个整体进行整体居中排版处理,该公司2013年10月还公开了一种流式排版页码的方法和装置(专利号为CN103377182),能满足古籍排版的现代排版新要求。
(4)知识关联和文本挖掘
不论是古籍还是普通图书,都承载了相当丰富和复杂的知识,各知识单元都是相互关联的,要在浩瀚的知识海洋中梳理出读者所需知识,离不开知识关联与文本挖掘技术的支撑。古籍中的人物、时间、地名和事件等各个要素从不同维度构成一个知识网络。读者可以按照人物的线索找出该人物的生平事迹、交友关系、相关作品,也可以按照地名梳理出该地点的历史事件、行政区划、同乡历史名人等。天津赛因哲信息技术有限公司2017年2月公开了一种基于进化算法的古籍专有名词聚类方法(专利号为CN106446040),2017年3月公开了一种基于知识发现技术的古籍文献管理系统及方法(专利号为CN106503247)。王宏源2008年2月公开了一种支持四字节的典籍数据库与历史地理信息系统关联的方法(专利号为CN101122905)。浙江大学2015年12月公开了一种数字资源关联管理的方法及系统(专利号为CN105159904)。
(5)信息检索
实现古籍数字化的主要目的是方便检索,降低人工翻阅资料的资源成本和时间成本。衡量数字资源检索效率的指标有查全率、查准率、漏检率、误检率和检索速度等。检索分为精准检索和模糊检索,字符匹配分为前方一致、完全匹配等。要保证信息检索效率和质量,离不开良好的信息组织,离不开知识单元的划分和关联。王宏源在2006年7月公开了一种含有四字节编码字符的桌面文本管理检索系统(专利号为CN1804837),浙江大学2007年2月公开了一种用于门户网站上对多种资源仓库统一并行检索的方法(专利号为CN1920817)。复旦大学和上海金鑫计算机系统工程有限公司2002年2月共同公开了一种中文古籍数字化及内容检索自动化方法和系统(专利号为CN1336604)。
(6)系统构建
古籍数字化成果将以系统的形式展示,系统构建从需求分析、概要设计、详细设计再到编码实现和调试,贯穿古籍数字化的整个过程。整个系统将古籍数字化中的信息组织和管理起来,达到便于使用的目的。系统构建具体来说包括前端的入口管理模块、古籍书目数据模块、古籍全文数据模块、数据关联模块、检索模块、统计模块和后台的管理模块、校对模块、发布模块等。中国藏学研究中心北京藏医院2012年9月公开了一种藏医药古籍整理信息化平台构建方案(专利号为CN102682338)。北京信息科技大学2016年10月公开了一种东巴经典古籍数字化释读库的建立方法(专利号为CN106021354),2016年9月公开了一种东巴经典古籍传承体系数字化国际共享平台的构建方案(专利号为CN105975597)。王宏源2007年8月还公开了一种家谱数字化方法(专利号为CN101025760)。
古籍数字化工作以古籍图像处理和文字识别为基础,依赖于强大的古文字库,实现图像上的文字能够被精准识别和录入。再按照版面还原的原则,进行古籍排版,实现数据化到数字化,使图像上的文字能被编辑。为了实现高效检索,还需要将文本信息进行合理组织,建立知识关联和索引,为实现古籍智能化奠定基础。知识关联是为了更好的检索,检索要建立在系统基础之上。利用系统平台管理古籍数字化信息,管理用户信息,管理日志,不断优化系统性能。以上几个古籍数字化关键技术都有实现前提和环境,但又相互依赖,各技术要点之间关系如图2所示。只有突破技术藩篱,打通各个关节,密切衔接才能构建一个理想、高效、智能的古籍数字化系统,能成为古籍研究者的科研利器,也方便广大读者阅读古籍。
图2 主要技术点关联关系图
古籍数字化是为了解决古籍藏于用的矛盾。利用古籍数字化技术将稀有的珍贵古籍加工成数字化产品,通过互联网快速呈现给广大读者。为了使读者不仅能看到古籍,而且能在海量古籍资源中检索到自己需要的内容,需要提高古籍数字化加工深度。按照古籍数字化加工层次将古籍数字化技术分为以下三个阶段:
第一阶段:古籍数据化。这一阶段特点是古籍以图像的形式呈现,实现了从纸本到数据的转换,为以后古籍数字化的进一步挖掘打下了坚实的基础,也为古籍保护工作做出了重大贡献。读者可以通过阅读古籍图像来阅读古籍,但是不能对古籍图像中的内容进行编辑,不能实现文字检索,可以通过对图像的人工标引,实现图像检索,例如王宏源2007年12月公开了一种古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法(专利号为CN101093545)。
第二阶段:古籍数字化。这一阶段特点是古籍以文本的形式呈现,古籍内容可编辑,依赖的技术是图像的文本识别。这一阶段的主要难点在于古文字库的构建和古文字的识别。普通图书的图像识别一般是基于OCR技术,其匹配字库是现代汉语字库。而古文字编码和字库则与普通图书有很大的差异,目前普遍采用的是统一码(Unicode)四字节编码方式,但是不能完全囊括浩瀚的古文字。上文对四字节编码和文字识别技术专利都有介绍。
第三阶段:古籍智能化。这一阶段特点是古籍在能够实现图文对照的基础上,将相关文本信息进行关联,便于文本挖掘,可以呈现人物、时间、地点等组合信息。比如,以人物为主要检索点,将与该人物有关的作品、人际关系网、人物事迹以时空为维度可视化地展示出来。传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现[5]。古籍经过智能化这种深层次加工,才是能够成为古籍整理研究者的工具,大大提高古籍研究的进展速度和深度。范佳在《“数字人文”内涵与古籍数字化的深度开发》一文中在四方面介绍了数字人文实践与古籍数字化的作为:基于文本挖掘技术的古籍深度分析、基于GIS技术的古籍数字化地图资源共享平台、基于文本可视化的古籍数字化知识建构、基于语料库的电子化古籍研究和古籍整理[6],这些都是古籍智能化加工的范畴。虽然文中主要阐述的是一种理念,未见付诸于实践,但对于专利技术研发提供了重要指导。
中国古籍浩如烟海,借助国家古籍保护政策的出台,古籍数字化技术取得了持续性进展。古籍数字化在发展过程中经历了从以古籍图像为代表的古籍数据化、以文本识别为代表的古籍数字化、以文本挖掘为代表的古籍智能化三个阶段,这个发展历程是一个艰难的探索过程。古籍数字化技术专利从1990年至今年度申请量越来越多,该技术正处于技术成长期,值得持续关注。古籍数字化主要技术点在于古籍文字输入、图象处理和文字识别、古籍排版、知识关联和文本挖掘、信息检索、系统构建六个方面。
在以上古籍数字化技术专利中,图书馆虽没有申请该领域专利,但是可以引用相关专利技术,提高古籍数字化效率,加快古籍数字化进程,让保存在书库里的古籍通过互联网呈现到广大读者面前。
〔1〕 王安宁.习近平主持政治局集体学习:增强做中国人骨气底气[EB/OL].[2017-08-14].http://www.chinanews.com/gn/2013/12-31/5685623.shtml
〔2〕 中国古籍保护网.国务院办公厅关于进一步加强古籍保护工作的意见(2007)[EB/OL].[2017-08-14].http://www.nlc.cn/pcab/ztzl/gjbhzcfg/gfxwj/201511/t20151104_107985.html
〔3〕 连颖科技.公司简介[EB/OL].[2017-08-09].http://www.ltc.tw/Pages/about-company.html
〔4〕 连颖科技.IPTECH全方位智权应用平台[EB/OL].[2017-08-09].http://www.ltc.tw/Pages/products-iptech.html
〔5〕 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016(2):66-80
〔6〕 范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013(3):29-32