李 邦,刘永革
(安阳师范学院 甲骨文信息处理教育部重点实验室,河南 安阳 455000)
甲骨文是迄今为止中国发现的年代最早的成熟文字系统,也是研究我国文字源流的珍贵资料。识别和解读甲骨文对于研究早期文字的产生、演变,了解殷商时期的历史文化以及中华民族的文化传承都具有重要意义。自1899年甲骨文首次被发现以来,殷墟甲骨文逐渐为人们所熟知,国内外学界也对其表现出浓厚的兴趣,在几代考古学家和历史学家孜孜不倦的努力之下,甲骨文的解读和考释迄今已取得丰硕成果[1-4]。记载和收录这些研究成果的甲骨文研究文献极大地推进了甲骨文的研究进程,奠定了甲骨文的研究基础。随着甲骨文研究的逐渐深入,为了便于查阅资料,学者们对甲骨文资料进行了整理,出版了《甲骨文合集》[1]《甲骨学文献集成》[2]《甲骨文诂林》[3]《甲骨文研究资料汇编》[4]等系列丛书。但遗憾的是,整理成册的书籍资料虽然为甲骨学研究提供了极大的便利,但也存在一定的局限性。大部头、多册出版的书籍受限于成本通常售价高昂,其丰富且繁杂的内容也大量增加了资料查阅的时间、人力成本。随着信息化、数字化技术的发展,通过对甲骨文研究文献进行数字化处理,打造开放、便捷、共享的甲骨文数字化平台成为大势所趋。而甲骨学文献实现数据化,也意味着可以进一步利用大数据技术对文献进行分析,并为甲骨学研究提供更深入的智能化服务[5](p74-77)。本文将对甲骨文大数据平台--《殷契文渊》开发所需的关键技术文献数字化进行详细介绍,并进一步展望数字化技术在实现甲骨学研究智能化过程中的前景运用,为甲骨学研究者了解当下甲骨学研究领域中的信息化进程提供帮助。
信息化浪潮下,文献的数字化发展也成为大势所趋。借助数字网络技术,对甲骨文研究手稿、文献等资料进行数字化处理,可使研究人员不受时间、空间限制,实现对甲骨文研究原著的便捷查阅、比对和校勘。此外,文献数字化还可以降低在人工翻阅甲骨文研究手稿等原始资料时可能产生的丢失或损坏风险,进一步拓宽和提高原始文献的利用范围和利用率[6](p130-137)。因此,文献数字化在推动甲骨文研究广度和深度的拓展方面必将发挥重要作用。
从广义上讲,任何将文献内容从物理空间输入至计算机存储单元的行为,都可以称为文献数字化。然而,在人工智能、大数据时代背景下,如果所谓的数字化过程仅能起到保护文献的作用,而不能为其研究对象提供便捷的查阅、对比、校勘等服务,这样的文献数字化就显得有些“名不副实”。甲骨文大数据平台--《殷契文渊》的开发目标是实现甲骨学研究的便捷性、共享性、交互性、实用性,尽可能地为研究者提供权威便捷的检索、查询、对比、校勘等服务,平台开发过程中对甲骨学文献的大规模数字化工作也始终贯彻该思想,并创造性地将整个开发过程划分为三个阶段,即“数据化” “数字化”“智能化”。
首先,《殷契文渊》的“数据化”阶段旨在将物理空间的书籍、文献、原始手稿等纸媒文档通过拍照扫描等方式转化为计算机可以存储的数据。一般而言,文献资料的数据化结果将按照页码顺序对图片进行排列并以pdf文件格式存储。目前,《殷契文渊》中所收录的文献均以pdf格式分门别类地存储,已实现资源共享,研究者可通过访问网站直接免费下载(需要声明的是,《殷契文渊》大数据平台上的文献资料不完全是由实验室搜集整理的,其中有很大一部分来自于广大甲骨学研究者的无私奉献)。“数据化”的过程作为甲骨学文献整理的第一阶段,其目的在于为后续的智能化开发提供尽可能多的数据支撑。但是,仅对文献资料进行数据化处理存在着明显的弊端:在交互性方面,图片格式的文档资料过于“死板”,利用计算机翻阅pdf文献与翻阅纸质文档并没有太大区别,也不能实现文档内容的复制、粘贴以及检索,单纯的文献数据化对阅读者来说依然不够“便捷”。只有能够通过检索快速提取到所需信息,才能真正体现出数字化工作的意义。因此,平台建设的第二阶段就是在实现文献数据化的基础上,进一步开发文献的内容检索、对比等功能,这个阶段称为平台的“数字化”阶段。
相较于文献“数据化”,“数字化”可以将不便于计算机处理的“数据”转化为便于计算机处理的形式,具体表现为:将图片格式的文档转化为可以检索的文字文档,并在此基础上对文献内容进行“碎片化”处理。例如,将著录文献内容按照拓片、摹本、出处、著拓号等内容分类并在平台上进行系统地存储;将拓片图像以及甲骨文释集上的甲骨字与对应的释文进行识别、定位并在平台上进行展示等。简单来说,“数字化”工作是将甲骨学文献的“数据”进行系统地整理,使研究者能够更加快速、精准地查找到自己所需的内容。平台“数字化”的发展,无疑将极大地减轻研究者检索文献资料的负担,推动甲骨文研究广度与深度的拓展。需要特别指出的是,随着近年来数据挖掘与机器学习技术的发展,在平台“数据化”建设的过程中,针对甲骨学文献的“数字化”研究也正向着“智能化”发展。在完善相关技术之后,殷契文渊平台也将推出相应的“智能化”服务,如甲骨字识别服务(笔迹分类)、以图查甲骨片服务、手写甲骨字识别服务等等。
文献数字化技术正是依托于平台的“数字化”建设阶段,在利用计算机技术大幅提高“数据化”工作效率的同时,开发一系列智能应用工具,为广大甲骨学研究者与爱好者提供智能化、便捷化、精准化服务的一项技术。
甲骨学文献数字化工作主要利用了光学字符识别技术(OCR)[7]。该技术涵盖了所有图像文字检测和识别的相关技术。本文选取了其中与文献文本图片识别相关的两个重要技术进行介绍,即文档分析技术与字符识别技术[8]。文档分析又称为文档布局分析,是指识别和分类文本文档的扫描图像中的特征区域。字符识别,则是在文档分析的基础上,将其中的文本区域的内容转化为计算机通用的字符编码。由于实现准确、高效、智能的文档分析与字符识别是文献数字化技术发展的基础和关键,因此,对文档分析和字符识别技术的研究与应用也成为《殷契文渊》甲骨文大数据平台当前建设的重点。
文档分析技术作为文献数字化的第一步,是对文献整体结构的初步分析。根据分析需求的不同,文档布局分析可划分为两个层次,即几何文本分析与逻辑文本分析[9](p139)。
几何文本分析是指对文档图片中文本正文、插图、数学符号和嵌入文档中的表格等不同区域进行检测和标记,找出文本中字符所在的位置,并在分割出的文本区域中,进一步进行字符切分的一种技术,这也为后续的字符识别奠定了基础。
从图像处理的角度看,几何文本分析主要是利用图片的几何结构特征进行图片分割。对大部分甲骨学文献而言,由于文献本身一般是出版物,其内容是经过统一整理编辑后再进行印刷的,因此排版布局具有一定的规范性,比较适合运用经典的版面分析方法进行版面分析。常见的经典版面分析算法包括:投影法[10](p139-141)、递归X-Y剪切法[11](p10-22)、行程拖尾算法(RLSA)[12]( p1658-1669)等。这些算法的共同点在于可以通过分析文档图片中黑色像素的位置,将间隔比较近的黑色像素划分为同一个文本块。在文本块正确分割的基础上,进行后续的几何版面分析,将文本分割为文本行或文本列,最终实现对单个字符的分割。就中文文献而言,汉字单个字符的分割通常需要与识别结果相结合,判断单个字符的分割是否正确,主要是看分割出的字符能否被识别。但是,在单个汉字字符的分割中,经常出现汉字粘连、重叠以及汉字部首的错误分割等问题,导致分割出的汉字字符不能被正确识别,例如,在字符分割中,经常会出现偏旁部首“搭错车”的错误识别案例,不得不再次进行人工校勘,增加了研究者的时间、人力成本。
从数据整理的角度看,几何文档分割是后续字符识别的前提和必要条件。但受限于当下的技术发展程度,对于结构化文档,仅通过几何分析结果完成的字符识别仍需进行大量的后续数据整理工作。以甲骨学研究中必不可少的著录类文献为例,此类文献的整理通常需要在图片分割与字符识别的基础上,将甲骨片的编号、出处、著拓号、甲骨字原文、汉字释文等相关信息也录入到系统中。而这些信息在文献中往往具有较强的逻辑关系,如编号通常出现在拓片附近、著拓号在文档中一般有固定结构等。因此,要实现对甲骨学文献中著录类文献的文档分析,需要在几何文本分析的基础上,进一步运用逻辑文本分析技术进行分析。
逻辑文本分析可理解为是对几何文档分析结果的深度挖掘,它将进一步对文本区域在文档中扮演的不同逻辑角色(如标题、脚注等)进行分析[13]( p1658-1669)。简单而言,逻辑文本分析技术是指在几何分析的基础上对文本块内容之间的逻辑结构进行划分。这种逻辑划分可以更高效且准确地识别结构化文本,其在日常生活中已有广泛运用,如对身份证、银行票据、病例、各种登记表格以及高度结构化的书籍等的识别就属于逻辑文本分析技术[14]。
逻辑文本分析技术的优势在高度架构化文本的识别整理中更为明显。相较于几何文本分析,即便是使用最简单的逻辑文档分析技术提取高度架构化文本中的图片,也将大幅提升文献的整理效率。以《簠室殷契征文》一书为例,全书共计收录拓片图1125张,书中内容页只包含拓片图像与对应汉字编号的共有228页。如果通过手工截图的方式对这本著录进行整理,约需花费20个小时的工作时间。然而,通过分析文献页面的图片特征对图片进行提取,整个截图过程仅需花费不到一分钟的时间。而且在全部截图中,累计错误截图仅17张,所需的人工勘误与整理时间合计不超过半个小时。在这个案例中,使用逻辑文档分析技术可以将甲骨文著录整理的工作效率提高将近40倍。
目前,逻辑文本分析的实现方式主要有两种。常见的一种是首先在几何文本分析的基础上进行字符识别,然后利用自然语言处理技术(NLP)对字符识别结果进行处理,以理解文本内容并推理文档内容之间的逻辑关系[15](p5-9)。另一种则是直接从图片中获取视觉信息并进行语义分析的逻辑文档分析方式[16]。在流程上,该方式在实现步奏上与上一种方式有着本质区别。以著录整理为例,第一种方式需要计算机首先将所有图片上的内容识别出来,在利用NLP技术进行语义理解后将识别出来的内容归类并放入目标excel表格。然而,不管是图片内容识别还是语义理解的过程都存在一定的错误率,因此最终生成的excel表格一般还需进行人工纠错。而第二种方式的实现步奏是,先不对文本图片的具体内容进行识别,而是通过位置判定进行分析,即通过判断图片上哪些字距离文中图片比较近,哪些字在图表中的第一行等诸如此类的位置信息,提前明确需要识别的内容在目标excel表中的位置,并在识别完成后录入目标excel表。相较于第一种方式,这种利用计算机视觉技术进行语义分析的方法可以最大程度地规避逻辑分析错误。
对比逻辑文本分析的两种实现方式,对《殷契文渊》平台的著录类文献的整理工作而言,第二种实现方式具有更高的准确率,可以更好地减少人力的机械重复工作。但是,第二种实现方式需要提供大量的结构化文档数据以供计算机进行训练。为了早日实现对甲骨学文献的逻辑文本分析,进一步提高文献的整理效率,《殷契文渊》甲骨文大数据平台正着手创建用于甲骨学文献文档分析的训练数据集,以支撑甲骨学文献研究中逻辑分析技术的创新和发展。相信假以时日,文献的整理工作将由人工整理进化为人工智能整理,届时专家学者可以将自己搜集到的文献资料直接上传至大数据平台,平台在完成自动化的资料分析整理后录入数据库,并自动实现与其他数据的关联对比,以此为专家学者研究甲骨学提供更多更好的智能化、便捷化服务。
在顺利实现甲骨学文献数字化的文档分析之后,能否高效、准确地实现甲骨学文献内容的字符识别,直接关系到文献数字化的成功与否。因此,字符识别技术也是当下《殷契文渊》甲骨文大数据平台的研究重点。前文提到,字符识别技术的主要目的在于将字符的图片转化为字符编码以便计算机直接查询,这项技术在日常生活中也早有应用,使用计算机进行字符输入就是通过输入法查找字符编码完成的。对于《殷契文渊》而言,字符识别是平台“数据化”工作的必由之路,只有将文献中的每一个字都转化为计算机可识别的字符,并将识别结果全部录入到平台中,才能实现文献内容的“网络化”,进而达到只需输入一个甲骨字/汉字/作者/拓片图等便可检索到所有与输入内容相关的文献/甲骨片信息的目标。
就目前的技术发展而言,字符识别主要是通过深度学习技术完成的。深度学习技术,就是计算机使用训练集中的字符数据来训练计算,通过不断“学习”获得正确识别字符的能力。为了实现对每一个字符的正确识别,训练集必须囊括所有需要被识别的图片和字符,而且每个字都需要上千张图片组作为训练数据,每张图片也需要标记识别结果以供计算机学习。可以看出,要获得高正确率的识别结果,需要在大量具有正确结果标记的数据的基础上不断进行深度学习算法开发。
而根据字符数据集开发进度的不同,字符识别技术可以进一步细分为印刷汉字识别,手写汉字识别,拓片甲骨字识别,手写甲骨字识别等。
训练集图片获取难度最低的当属印刷体汉字,因为常见汉字均可以从网络上获取图片,甚至可以直接利用标准宋体字库作为训练数据。当下,在印刷体汉字的文献识别方面已经具备比较成熟的识别技术,仅汉字识别这一环节,识别准确率已可达到99%以上。市面上现已开发出一大批高质量、高准确率的ocr软件,这些软件在简/繁体中文的印刷体以及清末石印的古籍汉字等字符的识别中表现良好。在此基础上,《殷契文渊》甲骨文大数据平台也已经开始利用ocr进行甲骨学文献数字化的记录工作,实现了部分汉字印刷文献的全文检索。对于已完成数据化的文献,在平台上输入文献中的任何内容即可检索到相关文献,基本实现了甲骨学文献检索的便捷化、高效化。
相较于印刷体汉字,手写汉字数据集的获取存在一定的困难,因为手写汉字很难直接从网络图片中获取,其收集工作进展相对缓慢。同时,由于每个人的书写风格有所不同,同一个手写字的图像特征也存在很大差别,客观上增大了手写汉字的识别难度。近年来,手写汉字识别一直是国内汉字识别领域的研究热点,专家学者也陆续整理出一系列适合手写汉字识别的中文手写数据集,例如,北京邮电大学整理的HCL2000数据集[17],华南理工大学整理的SCUT-COUCH2009系列数据集[18](p53-64),以及中国科学院自动化研究所整理的CASIA-HWDB1.0-1.2系列数据集[19] (p155-162)等。在这些手写数据集中,SCUT-COUCH2009系列数据集中共涉及6763个简体汉字以及5401个繁体汉字,CASIA-HWDB1.0-1.2系列数据集则囊括了7185个简体汉字。通过对数据集中上百万张图片的训练,单个手写汉字的识别准确度已经可以达到98%以上。但将文档分析与汉字识别相结合,整个文档的汉字识别正确率却只有80%左右[20](p370-382)。
尽管对手写汉字进行识别的技术已经渐趋成熟,但这类手写汉字的识别技术却不能直接应用于手写甲骨学文献中的汉字字符识别。这主要是由以下两方面原因造成的:一方面,作为文字研究类文献,文献中经常出现上述数据集中没有收录到的生僻汉字,这些生僻字在手写汉字数据集中没有出现过,因此无法进行正确识别;另一方面,甲骨学文献常用繁体字书写,且文中经常出现不属于现代汉字的古文字、隶定字等,即使这些字体不是手写字,但无论在数据上还是技术上对这些字体的相关研究均不够充分,因此,手写甲骨学文献中的汉字字符的识别仍有很长的路要走。
除汉字字符外,甲骨学文献中还收录了大量的甲骨字字符,根据文献中甲骨字所在的位置,可将其分为拓片甲骨字与手写甲骨字。安阳师范学院甲骨文信息处理教育部重点实验室以甲骨文识别为核心开展了一系列的研究开发工作,其中,拓片甲骨字的识别便是实验室的研究重心之一。拓片甲骨字是在整理著录中拓片图的基础上,对拓片上的每一个甲骨字进行分割整理,并将分割出来的甲骨字图片作为训练数据供计算机进行深度学习。根据目前的整理结果,数据集已整理出4927个甲骨字、474379张甲骨字图片。但在整理过程中,由于许多甲骨字的出现次数过少,导致训练数据出现了样本不均衡现象,拓片甲骨字的整体识别准确率尚未达到让人满意的水平。为规避样本不均衡问题,我们只对出现次数较多的306个甲骨字(共计309551张图片)进行了识别训练,目前达到的最高单字准确率为82.28%[21]。
拓片甲骨字的识别是未来甲骨文大数据平台提供智能化服务的重要一环。目前,平台已经初步实现了查询包含特定甲骨字的所有甲骨片的功能。随着拓片甲骨字识别技术的完善,该功能将兼容输入拓片图进行查询的功能,平台会自动对甲骨拓片上的甲骨字进行识别并利用识别结果进行检索,用户可以通过点击自己上传的拓片图上的特定甲骨字进行直接检索。
除拓片甲骨字外,甲骨学文献中常见的甲骨字通常为手写甲骨字,这是由于当前甲骨字还没有统一的字符编码,在甲骨学文献的编辑过程中,难以利用输入法直接输入甲骨字并进行排版,因此大部分甲骨学文献中的甲骨字通常为手写甲骨字或甲骨字摹本的截图。要从根本上解决手写甲骨字的识别难题,需要整理并建立甲骨字字符编码,以确保甲骨学文献中的甲骨字书写方式统一。目前,实验室已经开始着手甲骨字的整理,整理结果将以甲骨文字库的方式上传到甲骨文大数据平台。在此基础上,平台还开发了与字库相匹配的甲骨字输入法以期实现甲骨字的直接输入与智能检索。
对手写甲骨字的识别而言,在已经出版的甲骨学文献中,不论是手写甲骨字还是摹本甲骨字,甲骨文都不是书写者的母语,其书写方式本质上都是通过临摹方式完成的,手写甲骨字的识别与其说是字符识别,不如说是图画(简笔画)识别。因此手写甲骨字的识别更适合借鉴基于深度学习的图像识别技术。而深度学习技术同样需要建立手写甲骨字的数据集,为此,实验室还利用甲骨文字库专门开发了手写甲骨字搜集工具,截至目前,已搜集手写甲骨字图片83245张。利用目前收集的手写甲骨字数据,手写甲骨字识别准确度达到97.8%,相关识别成果已经应用于平台上的手写甲骨字输入法的开发中。随着手写甲骨字识别技术的逐渐成熟,平台未来也会推出基于甲骨字识别的智能化服务,用户可以随时随地将手机拍到的甲骨字上传至平台进行识别并查询相应的信息。此外,对手写甲骨字识别的研究也将在计算机辅助的基础上实现对甲骨字的笔记识别,对于甲骨字的分期研究起到一定的帮助。
本文围绕《殷契文渊》甲骨文大数据平台“数据化”“数字化”“智能化”三个发展阶段,重点介绍并展望了文献数字化技术在甲骨学文献中的应用与前景。在《殷契文渊》甲骨文大数据平台的建设过程中,文献数字化技术为计算机提供了可供检索、关联与分析的数字化素材,为实现甲骨学研究的便捷化、智能化奠定了基础。尽管利用人工录入也可以完成文献数字化工作,但以机器学习为代表的人工智能技术辅助文献整理工作,使得甲骨学文献整理的工作效率得到了大幅提升,利用人工智能技术进行甲骨学文献整理也成为未来的发展趋势。此外,文献数字化技术也可以为甲骨学研究者与甲骨文爱好者提供一系列智能化服务,如图片手写甲骨字识别、拓片字符关联信息检索等,不断拓展甲骨学研究的广度与深度。目前,《殷契文渊》开发团队正积极开展甲骨学文献整理相关应用软件的研发工作,并针对深度学习所需要的大量数据进行了搜集与整理,组成了部分数据训练集。相信随着大量先进技术的应用,《殷契文渊》一定能成为甲骨学研究的综合性平台,为甲骨学研究持续取得突破性进展提供有力支撑与保障。