●李 敏 (海南师范大学 海口 571158)
古籍具有极高的研究价值,也具有一定的特殊性,经常性的翻阅会导致古籍受到损害。数字人文时代出现了文本挖掘、数字孪生、语义技术、机器学习等技术,为古籍数字化建设提供了新的研究方法和研究方式,古籍文献资料能以数据形式呈现出来,利用计算机技术可以对古籍进行数据化组织和处理,提高了古籍的学术价值。目前,图书馆在古籍资源建设领域已具有一定规模,开发了一些古籍数据库(如鼎秀古籍、中国基本古籍库、雕龙古籍等),为古籍研究提供了检索途径。但是古籍数据化组织比较偏重古籍事实的描述,缺乏一些古籍知识发现、知识关联的服务,同时呈现方式比较单一,可视化服务较少。因此本文在分析数字人文时代图书馆古籍数据化组织基本要求的基础上,从注重知识关联以及可视化呈现的角度提出了数字人文时代图书馆古籍数据化组织途径,从完善古籍数据组织标准化建设、加强古籍知识关联研究以及促进不同机构共建共享三方面为未来古籍数据化组织建言献策,旨在不断提高图书馆古籍服务的效能。
数字人文是在计算机技术的推动下发展而来的,数字人文时代最大的特点是人文资料可以利用计算机实现数据化,使人文资料可以被量化分析[1]。目前图书馆的数字人文研究主要集中在馆藏资源建设,如数字资源知识图谱构建[2]、馆藏资源数字化建设[3],图书馆人文服务,如服务优化[4]、馆员职责分配[5]等方面。图书馆利用数字人文相关技术对人文资料进行数据化,形成数字化资源,为人文研究提供丰富的学术资料。
图书馆古籍文献资源具有三方面特点:一是数量庞大,人类几千年的历史文明产生的文化遗产颇多[6];二是结构比较复杂,古籍中有散文、小说、地方志等,内容复杂多样;三是表现形式多样,语言隔阂、文化差异以及不同的传播途径导致古籍形式多样。古籍不同于一般的图书,经常性的翻阅会对古籍造成一定的损害。目前图书馆古籍资源的研究主要集中在资源开发利用与保护[7-8]、古籍数据库建设[9]、知识组织应用研究[10]等方面。图书馆对古籍的数据化组织需要保证古籍的真实性、完整性和可读性,通过计算机揭示古籍资源的形式,发现古籍知识间的规律,实现知识之间的关联性,促进知识共享,从而更好地为学术研究服务。
古籍具有丰富的学术与研究价值,同时又具有一定的特殊性。通过计算机技术实现古籍数据化组织对于古籍的保护、利用和共享具有重要的意义。目前古籍数字化建设虽然取得了一定的进展,但仍存在缺乏统一的编目标准、文字转化率不高等问题。由于各个图书馆使用的数字化平台不同,数据格式存在差异,古籍数字资源无法直接转换,限制了古籍数字资源的检索和共享。数字人文时代开展古籍数据化组织的意义,一是增强古籍数据化组织的标准化和规范化;二是提高古籍利用率,促进古籍文献资源的传播;三是为人文研究提供可靠的数据来源,提高古籍的学术价值。
数字人文时代古籍数据化组织必须保证古籍的真实可靠。古籍数据真实性主要体现在以下四个方面:古籍来源可溯源到原始材料;古籍加工、处理、分析过程需要保证数据一致性;针对某一类古籍数据收录的比较齐全,覆盖面广;系统能够准确呈现出古籍数据化组织结果,确保数据真实性。数字人文时代古籍数据的真实性将直接影响古籍的可信度以及古籍的利用效率。
数字人文时代最大的特点是人文数据可以被量化分析,古籍数据化组织的基础是古籍数据可计算性。古籍本不具备数字特征,通过计算机技术实现古籍的数字化,使古籍具有明确的计量属性,揭示了古籍的多种属性,并通过对这些属性进行描述与标注,为后续古籍数据的挖掘与知识关联奠定基础。
古籍数据差异性大,数据混杂,可能存在数据孤岛现象。数字人文时代古籍数据化组织的目的是提高古籍数据的利用效率以及更好地服务于学术研究,因此古籍数据化组织的过程需要保证古籍数据的可获得性、可访问性。为了提高古籍数据的可获得性,古籍数据化组织必须加强数据揭示以及数据的著录、本体等的描述,注重古籍数据关联以及知识发现。古籍数据检索工具的实用性、准确性、响应速度同样对数据的可获得性产生较大影响。
数字人文时代各种计算机技术发展迅猛,为古籍数据化组织提供了文本识别技术[11]、文本挖掘技术[12]、地理信息系统技术[13]、关联数据技术等,提高了古籍文献数据化组织的智能化水平。传统模式下的古籍数据化管理主要是深入分析单一数据源,数字人文时代强调对古籍数据源的多视角分析,实现古籍知识关联。数字人文时代图书馆古籍文献资源的数据化组织包含古籍数字化、古籍数据融合、实现知识关联及应用三方面内容(见图1)。古籍数字化是古籍数据化组织的基础,将纸质资源转化为数字资源,实现古籍资源在数字世界的映射,使得古籍资源能够被计算机存储。古籍数据融合是古籍数据化组织的核心环节,是实现古籍知识关联的关键,将多源异构多模的古籍数字资源进行融合,进行多维度数据挖掘和分析,发现更多古籍数据间的规律。古籍知识关联是古籍数据化组织的目的,通过语义技术和关联技术构建古籍知识网络,发现隐性古籍知识,促进古籍知识的利用和共享。最后通过可视化工具如文本可视化工具、HTML可视化工具、XML可视化工具等将古籍数据化组织结果呈现出来,帮助用户快速理解和分析古籍。
图1 数字人文时代古籍数据化组织的途径
数字人文时代开发了很多数字化处理古籍的工具,为古籍数据化组织提供了可行方案。古籍数字化的核心是将纸质古籍转化为可量化分析的数据,重组文献的内容,便于后续的古籍数据加工与分析。目前古籍数字化流程主要包含4个步骤:古籍扫描、文献识别、文献数字化、信息入库。古籍扫描大多采用线性CCD扫描,既可以采用V模型,也可以采用平面模式扫描古籍。通过线性CCD扫描能捕捉到古籍中的所有内容,同时减少扫描对古籍的伤害,保护珍贵古籍。文献识别一般采用光学字符识别技术,通过特征提取和特征识别实现古籍文本、图像、表格等的识别。文献数字化是指将识别后的古籍进行重组,转化为可量化分析的数据,便于后续文本挖掘与分析。信息入库是最后将识别出的纸质古籍资源录入数据库。
古籍数字化的过程需要保证古籍的完整性、准确性,同时还需要减少对古籍的损伤。如通过冷光扫描仪,采用非接触扫描结合冷光技术大幅度减少了对古籍的损害,同时扫描速度快,扫描准确度高,可以将扫描完成的古籍转化为pdf、word等格式,为后续古籍处理和分析提供了便利。图书馆在古籍数字化处理阶段,可以选择与数字化供应商合作,保障古籍扫描工具的性能,提高古籍数字化处理效率。
数据融合是实现古籍数据化组织的关键,对提高古籍资源利用率至关重要。古籍数据融合是采用一定的方法聚合或整合同一对象的多个属性,消除数据冗杂,生成该对象的综合数据集。古籍数据融合遵循一些通用的古籍编目规则,对不同来源的数字化古籍资源进行清理和数据转换,构建结构化数据,通过数据组合和聚合形成相应的数据集。
古籍数据融合包含异构数据、多源数据、多模数据融合,从数据简单组合到特征提取分析再到语义信息融合,层层递进,将不同属性以及可能存在关联的数据融合成新的数据集,增强了古籍数据的完整性。
古籍数据集是多源异构古籍数据融合的数据集,数据集之间存在着紧密的关系,通过元数据、关联数据等聚类方法进行古籍知识聚合和集成,建立数据间的语义关联,构建知识链条,形成知识网络。古籍知识关联过程包含元数据构建、本体设计、数据关联等。通过构建语义本体,显示古籍资源之间的关联关系,揭示古籍知识内容,实现古籍数据链接的新模式。知识图谱是古籍数据关联的一种方式,通过语义标注和链接相关古籍文献资源,描述相关概念、实体、事件间的语义关系,建立知识网络,为建立知识库以及为用户语义检索提供便利。
古籍知识应用是为用户提供古籍语义检索的服务,提高了古籍文献资源的利用率,拓展了古籍知识共享范围,同时将检索结果通过可视化工具呈现出来,方便用户直观地了解古籍数据。例如,中华经典古籍库提供同义词和关联字检索,为知识结构不完整的用户提供了检索便利,提高了古籍的查全率,同时为科研工作者发现隐性关联知识提供了检索途径;上海图书馆的家谱服务平台以时间轴的方式呈现相关联的名人、宗谱古籍以及相关历史事件,方便用户深入了解家谱文化。
计算机技术为古籍文献数据化组织提供了可能,很多图书馆也开发了古籍数字化系统,实现了古籍的数据化。为了减少编目规则的混乱,2003年国内启动了CALIS古籍联合编目项目[14],建立了古籍数据化组织的参照体系。目前国内图书馆主要以《CALIS古籍联机合作编目规则》为古籍编目的规则,采用统一的标准对古籍进行归类、记录和标引,准确地揭示了古籍资源,为古籍资源整合和古籍数据库建设提供了有利条件。未来图书馆仍需与时俱进,进一步完善古籍数据化组织规则,提高数据的标准化和规范化,提高古籍数字化的转化效率和速度,促进古籍文献资源智能化发展。
古籍数据化组织的目的是促进古籍文献资源的利用和共享,实现古籍知识关联。本体技术是实现古籍知识关联的重要工具。本体技术支持古籍自动化编目,可以实现对古籍文献资源的语义分析,自动抽取古籍概念,建立古籍知识关联,形成古籍知识网络。古籍的本体构建可以从两个角度进行[15]:一是基于学科特色构建领域本体,如中医古籍本体构建以中医专业名词为核心概念;二是基于文献类型构建领域本体,如人物传记古籍本体构建以人物和历史事件为核心概念。未来的古籍研究仍需不断研究开发知识表示的工具,加强古籍语料库的积累,自动更新知识组织工具,深化对古籍数据挖掘与语义关联的研究,完善古籍知识网络。
目前很多图书馆对古籍文献资源进行加工,构建了多个古籍数据库。不同的数据形式对不同平台间的资源整合造成了一定的困难。因此不同机构间应加强合作,实现多源异构古籍资源的融合,促进古籍文献资源的利用和共享。首先,建立统一的古籍数据库,采取统一的数据清洗方式、统一的元数据标准,为用户提供统一的古籍数据资源检索平台。该方法可以促进机构间的共建共享,通过紧密的合作避免资源重复建设,加强古籍资源数字化规范性建设,提高古籍数据质量。其次,利用跨库检索技术,建立集成古籍数据库系统,用户只需要一个检索接口就可以检索到多源异构资源。该方法可以减少用户的检索时间,用户仅需在集成数据库中进行检索就可以得到多种数据来源。不同机构间要不断强化合作,积极为古籍数据化组织建言献策,不断完善古籍保护机制。
数字人文时代古籍数据是古籍数据化组织的基础和关键,通过计算机技术实现了古籍数字化,为古籍数据挖掘与分析奠定了基础。本文分析了数字人文时代图书馆古籍数据化组织的基本要求:保证古籍数据的真实性、可计算性以及可获得性,并在此基础上提出了古籍数据化组织的途径,注重古籍数据挖掘以及知识关联,利用可视化工具直观地展示古籍数据化组织结果。图书馆古籍数据化组织不但能提高古籍的利用效率,拓展古籍的共享范围,而且能提高图书馆知识服务水平,带动人文科学的发展。未来图书馆古籍数据化组织仍需不断完善古籍数据组织标准化建设,提高古籍知识发现能力,加强机构间共建共享,以减少数据库重复性建设以及减少资源浪费。