袁 逸,袁 艳
(常州信息职业技术学院图书馆,江苏 常州 213164)
习近平总书记多次强调,要把红色资源利用好、把红色传统发扬好、把红色基因传承好。图书馆利用数字技术对红色文献进行内容挖掘并传播共享,是发扬红色精神、传承红色基因的重要举措,在保护红色文献资源的同时,能够广泛开展爱国主义宣传教育,使红色精神薪火相传,为相关研究者提供全面的资源保障,促进红色专题研究的深入开展。目前,我国的图书馆、档案馆、科研院所等单位主要利用关联数据、知识图谱、语义本体等技术开展红色文献相关的数据库资源建设或服务平台建设,虽然在一定程度上实现了红色文献的关联,但缺乏统一的标准,不利于红色文献的共享。因此,图书馆应积极研究面向共享的红色文献内容挖掘技术及标准,有效实现红色文献的关联和共享,满足用户对红色文献的多元化需求。
根据国际图联(IFLA)的定义,内容挖掘(Content Mining)是指从机器可读的材料中得到信息的过程。笔者认为,内容挖掘即采用自动化工具、技术和方法处理信息,使其能够满足信息检索、提取和分析的需要,内容挖掘的核心在于通过信息分析获取新知识。内容挖掘的发展经历了早期通过书目或摘要等检索信息的阶段、通过语义标签识别实体的阶段及通过关联数据提取信息并揭示文献之间内在关系的阶段,目前主流的应用方式为聚类综合分析和人工智能挖掘,能够有效挖掘知识信息,实现知识发现。学者们在广泛研究内容挖掘的优点、价值及其技术应用、法律限制的基础上发现,内容挖掘的应用范围不断扩大,涵盖了信息科学、医药研发、市场营销、商业分析、出版科学、图书情报档案等多个领域。其中,图书情报档案领域的内容挖掘主要采用综合分析、语义描述、数据关联、本体和知识图谱等方式或技术挖掘相关资源内容,提升了知识服务质量。
“红色文献”作为一个组合词汇,起源于苏联的《红色文献》杂志。1938年2月,党中央在延安的解放社出版了名为《红色文献》的书籍,记录了重要的党史信息。红色文献尚没有统一的定义,目前主要有以下四种说法:一是自1921年7月中国共产党成立之后至1949年10月中华人国共和国成立之前,由中国共产党机关或各根据地出版、发行、制作的各种文献资料,包括领袖著作、党组织文件及相关书籍和报刊等。二是自1919年至1949年中国共产党领导人民在革命、建设和改革中创造的一切文字记录、图像及录音等资料都属于红色文献。三是在物化层面的各类文献资料,如:袁子英将红色文献分为以红色基地为载体的物化文献、以红色经典为载体的艺术文献、以亲历追忆为载体的口述文献、以红色精神为载体的精神文献等类型。四是仅与中国共产党相关的文献。随着学界对红色文献研究的不断深入,关于红色文献的内涵、特征、表现形式、意义价值,以及红色文献的收集整理、数据库建设、推广、应用等研究已取得显著成果,尤其是红色文献的收集整理和数据库建设,在数字人文环境下的受重视程度不断提高,相关实践成果较多。但是,学界对红色文献的研究和相关实践仍存在一些亟待解决的问题,如:红色文献的共建共享难以实现、红色文献的数字化建设理论不成熟、对红色文献的内容挖掘不够深入等。
目前,我国主要是利用内容挖掘、可视化、GIS(Geo-Information System)等数字技术建设红色文献数据库或搭建红色文献数字研究平台,为用户提供红色文献检索、红色图片展览、红色资源信息揭示、红色知识关联等数字服务。我国已有一些图书馆、档案馆应用内容挖掘技术开展红色文献数字化建设的成功案例,如:上海图书馆搭建了红色文献知识服务平台,深度挖掘知识之间的关联,通过URI命名数据实体,在数据底层建立逻辑关联,并通过HTTP协议揭示及获取数据;梅州市革命历史纪念馆根据时间、地点、人物、事件等要素对红色文献中的单元(故事)进行知识挖掘和组合,深度挖掘红色文献背后的精神和故事;东莞市大岭山图书馆对东江纵队文献进行了元数据记录,并设计了本体模型,深入研究了不同文献资料之间的关联性,绘制了东江纵队文献知识图谱,清晰地揭示了革命历史事件的发展逻辑和人物关系及相关文献资料之间的联系。另外,我国部分公共图书馆已利用文本挖掘技术收集数据信息,建设了红色文献专题数据库,如:南京图书馆的“红色记忆图片数据库”、陕西省图书馆的“陕甘宁边区红色记忆多媒体系列数据库”、黑龙江省图书馆的“抗日战争文献数据库”等。
在红色文献的数字化建设过程中,语义描述、关联数据与本体、知识图谱等内容挖掘成果逐渐增多。但是,图书馆目前的相关建设工作仍存在以下四个问题:一是对红色文献的文字、图像、音频、视频等元数据处理相对独立,缺乏合作,存在传播碎片化的问题。二是不同图书馆对数据挖掘的定义及使用范围不同,加之数据开放力度较小,存在“数字孤岛”问题。三是数字人文技术标准不统一,阻碍了相关数字资源的关联和共享。虽然红色文献专题库较多,但共享库较少,社会服务效能较低。四是图书馆仅注重针对红色文献内部整理的数字化建设,难以充分满足用户的多元化需求。
面向共享的红色文献内容挖掘的意义有以下四个:一是图书馆利用语义描述、本体关联、知识图谱等内容挖掘技术,以及全息影像、多点触控、巨幕投影等数字化技术对红色文献进行整理、标识、存储和展示,能够在创新红色文献存储方式的同时,最大限度地还原历史事件场景、讲述历史人物生平,开展数字化的红色精神宣传教育工作,为用户提供沉浸式体验,扩大红色文献资源的影响力。二是图书馆根据人物、事件、故事等分类开展专题资源聚合和关联知识挖掘工作,能够构建全面的史料研究资源网络,为用户提供多种检索功能和输出格式,方便他们使用相关资源,激发他们的学术研究热情,保障史学研究的公平性。三是图书馆通过数字人文技术实现了对红色文献资源的动态开发,为学者提供了新的研究视角和研究方向,提升了红色文献的研究价值。四是图书馆通过共享的方式,降低了开展红色文献数字化工作的成本,避免了因重复建设造成的资源浪费。
面向共享的红色文献内容挖掘的目标主要有以下两个:一是实现特定主题的知识聚合,满足用户的一站式资源获取需求。图书馆利用数字挖掘技术,对分散的信息进行知识单元预处理或转换,绘制以人物、事件、故事等为中心的知识图谱,直观地展示红色文献资源。二是深度挖掘红色文献资源的内涵,提升红色文献的价值。红色文献资源作为不可再生的宝贵历史资源,具有重要的史料价值和政治价值。图书馆通过数字化的方法对红色文献进行内容挖掘,能够构建关联性较强的知识体系,充分挖掘红色文献的内涵价值、教育价值、史料价值和社会价值。
文本信息的内容挖掘指利用各种算法从文本中提取简练的、可理解的知识单元,构建高度序化和相互关联的知识库,根据各类信息的特征为用户提供多种检索途径和结果的过程。为便于数据的共享和交换,图书馆在对红色文献文本信息进行内容挖掘时,应重视语义本体的标准化,即构建语义本体术语、名称等概念的标准化模型,形成主题词表、受控词表、叙词表等特定领域的专题标准词汇表。目前,虽然很多国家都按照ISO/IEC 11179国际标准制定了各自的元数据标准,实现了数据的高效共享,但我国按照该国际标准制定元数据标准的行业很少,因此,图书馆应积极制定能够覆盖所有领域的语义数据标准,规范对红色文献的语义描述和标识。袁满、褚冰、陈萍提出了以W3C语义Web标准协议栈为基础的五层标准体系模型,为我国的语义标准化工作提供了理论指导,该标准体系中的第五层以元数据标准注册为核心,融合了第三层与第四层标准,不仅为图情领域提供了元数据标准支撑,还实现了图情领域的知识标准化,有利于标准化模式下的数据共享。
图像信息的内容挖掘指挖掘图像集中隐含的知识、信息及不同图像之间的联系,涉及图像处理与分析、模式识别、计算机视觉、图像检索、机器学习、人工智能、知识表现等技术。图书馆针对红色文献的图像信息挖掘,既可采用基于图像特征的低层次数据挖掘和基于图像中已具语义目标的高层次数据挖掘方法,也可采用基于图像描述的数据挖掘和基于图像内容的数据挖掘方法,目的是满足用户的图片检索需求,并实现图像信息的整合、共享和复用。在图像信息的数据互操作方面,外国的理论研究和实践较成熟,外国图书馆普遍采用国际图像互操作框架IIIF(International Image Interoperability Framework)管理和共享手稿、卷轴、地图、照片等图像信息,并根据开放协同标准OAC(Open Annotation Collaboration)对数据进行标注,以期达到共享和复用的目的。我国部分高校图书馆虽然已开始探索基于IIIF的图像管理与共享方式,但仍停留在理论阶段。张永娟等人在OAC的基础上,利用关联数据技术构建了开放数据解释模型OADM,通过注释图像之间关联的方式实现多平台资源共享,并以印章图像资源为实验对象进行了相关实验,证实了将IIIF与OADM相结合能够实现“印章知识中心”与其他馆藏机构之间的图像资源共享和互操作。因此,我国图书馆可将IIIF与OADM相结合,根据关联数据开放标准开展针对图像资源的标准化注释和关联工作,以实现图像资源的共享和复用。
音视频信息的内容挖掘指从音视频中提取其结构特征和表述内容的过程,须经历数据准备、数据挖掘、结果解释和表示等三个环节。音视频信息的结构特征主要包括语音、音色、字幕、图像等,表述内容主要指音视频中出现的人物、故事、情节等。图书馆应重视红色文献音视频内容、人物、事件等要素间的关联性,挖掘基于内容主题和基于内容事件的关联数据,绘制知识图谱,满足用户的音视频资源需求。与文本信息、图像信息相比,对音视频资源的内容挖掘更加困难,尤其是对知识的抽取、表达和解释。近年来,各国学者纷纷研究针对音视频信息的内容挖掘方法,成效显著。曾文献、李伟、郭兆坤提出了基于特征和基于内容的视频数据挖掘技术,即提取视频中的图像、音频等底层特征建立数据集,以主题、事件或人物为主线对数据进行结构化处理、解释及表达。图书馆可基于成熟的研究成果和相关实践经验,开展对红色文献音视频信息的内容挖掘工作,满足用户的多元化资源需求。