关键词:标准文献,数字文献资源,文献资源库,文献著录
DOI编码:10.3969/j.issn.1002-5944.2025.03.007
0引言
标准文献数字资源是标准化领域在数字化浪潮下的必然产物。借助数字化技术,标准文献数字资源在知识可用性、信息可访问性和检索便捷性方面均展现出显著优势,极大限度地促进了标准文献服务机构的数据整合、深度分析和挖掘能力,为专题化、知识化、智能化服务的开展奠定了坚实的基础。构建并应用以数字化标准为核心资源的标准文献数字资源库,是推动标准文献服务向更高层次知识服务转型的关键路径。
1 标准文献数字资源库的概念
参照图书情报领域对数字文献资源的概念解析[1],本研究中的标准文献数字资源是指通过计算机技术、通信技术以及多媒体技术的深度融合,以数字形态发布、存储,及利用的标准信息资源集合。它既涵盖了由传统纸质或其他非数字形态文献经数字化技术转化而来的标准文献资源,也包括了直接以数字化形式发布的标准文献。
从资源载体层面看,标准文献数字资源是以机器可读的数字化文件形式存在,与传统标准文献资源相比,其信息存储量更大,便于机器自动识别与处理,且可通过数据库与信息网络实现高效检索、便捷浏览与广泛传播。
从数据结构层面看,标准文献数字资源展现出结构化、机器可读、类型多元、元数据丰富、数据格式规范,以及可动态更新与扩展等特征,显著优于传统或非数字化标准文献资源。
从数据应用层面看,标准文献数字资源则以高效的检索获取能力、跨平台的兼容共享特性、便捷的数据分析与挖掘潜力,以及对可智能化、知识化、个性化服务的有力支持,彰显出突出的优势。
因此,本研究所探讨的标准文献数字资源库,正是基于正规标准出版机构和标准文献服务机构提供的数字化标准文献资源所构建的各类数字化标准文献资源综合型数据库。
2 标准文献数字资源库的分析研究
当前标准化行业对标准文献数字资源库的研究尚显不足,但标准文献作为一类特殊的文献类型,其数字资源库的建设与应用仍需遵循文献数字资源库的通用准则。
随着标准数字化转型的不断深入,近年来,本馆标准文献馆藏资源的供给形式发生了显著变化,数字化资源在馆藏中的比重不断攀升,已逐渐成为主流。
2.1 标准文献数字资源供应的多元化趋势
标准数字化转型的不断推进,使得标准文献资源的供给方式不再局限于传统纸质载体。国内外标准发布机构和第三方数据服务商所提供的结构化数据已成为本馆国外标准文献题录资源的重要来源。这些机构分别采用特定的数据组织逻辑,广泛覆盖不同国家、不同品种的标准文献。供应来源的多元化对本馆标准文献数字资源库的灵活性和可扩展性提出了更高要求。
2.2 标准文献数字资源的异构性挑战
由于不同标准化组织对数据资源的描述方式存在差异,因此,标准文献数字资源给予模式的多元化也导致馆藏标准文献数字资源存在异构性特征。目前,本馆采购入库的标准文献涵盖了CSV、XML、JSON等多种格式。相较于当前基于纸质文本的人工加工逻辑的著录细则,数字资源的异构性无疑对现有的数据著录加工、数据处理、以及信息组织等规则与模式均带来了新挑战。
2.3 标准文献资源加工利用的数字化和知识化转型
面对当前多源异构的标准文献数字资源,传统的文献加工利用方式存在效率低下、标引深度有限等弊端,难以满足数据深度开发和知识化、智慧化应用的需求。而标准文献作为一种具有明确文档结构、关系清晰,以及信息密度高的特殊文献形式,适宜以结构化数据的形式进行数字资源的管理与应用。因此,应积极探索新的加工利用方式,以充分发挥标准文献数字资源的潜在价值。
3 标准文献数字资源库构建研究
3.1 标准文献数字资源结构概况
为顺应标准数字化转型的浪潮,近年来,国内外标准化组织和标准文献机构纷纷致力于构建结构化的标准文献数据库,旨在实现标准文献的高效批量著录,提升标准文献加工的标准化、结构化水平,增强数据的可扩展性和互操作性,从而为标准文献的信息组织和知识管理奠定了坚实的数据基石。
目前,馆藏标准文献资源已突破了传统纸质模式的局限,可通过多元的渠道和方式获取数字化资源,包括CSV、XML、JSON等文本格式。值得注意的是,国外标准文献资源的供给格式存在差异,且不同标准化组织对数据资源的描述方式也各具特点。
3.2 标准文献数字资源结构特征
国外标准文献资源作为本馆馆藏体系建设的重点组成部分,其来源广泛,主要包括国外各标准化组织官方和第三方数据服务商。上述国外标准文献数字资源及其题录数据以结构化数据为主导,在数据结构上展现出以下显著特征。
3.2.1 以“族”为核心的组织架构
标准文献的结构化数据遵循Family-RevisionGroup-Document的逻辑关系梳理数据层级,并通过PRIM_SORTKEY和SEC_SORTKEY字段对不同Family与同一Family的标准文件给出排序规则,从而构建成题录数据的基本结构。这一结构清晰地展现了国外标准文献在异号标准、同号不同版本标准、同版本基础文件,以及附属文件等方面的关联关系,能够适应不同品种标准文献的统一数据管理。
3.2.2 突出标准文献间的关联性
标准文献的结构化数据通过R EL ATIONS字段对标准文献间的关联关系进行著录,该字段包括relation list和relation type两类标签,其中relationtype又进一步细化为type、rel_class和rel_type三个维度。该字段的著录可以精准地标识某一标准与其他族、版本或标准文件间的引用关系,对标准数据库数据关系构建、检索结果呈现,以及知识管理建设均具有重要的支撑作用。
3.2.3 支持标准文献精细化著录
标准文献的结构化数据在标准状态和标准发布机构等方面具有精细化的著录。在标准状态方面,通过STATUS和SPEC_STATUS字段,能够全面覆盖17种具体标准状态,满足不同品种标准对状态划分描述的需求,从而实现了标准有效性的精准著录。在标准发布机构方面,鉴于国外标准发布机构类型的多样性与合作方式的复杂性,标准发布机构信息成为链接标准文件关联关系的关键节点,通过提供包含机构名称、地址等信息的SDO结构化数据,有助于按发布机构进行数据管理、检索利用和关联关系的深入挖掘。
3.3 差异比对分析
3.3.1 总体逻辑差异
目前本馆采用的《国内外标准数据库文献著录细则》是在2006年基于国内标准文献的特征和管理需求而编制,与国外标准文献的结构化题录数据在数据组织逻辑上存在明显差异,具体表现在:
(1)数据组织基本单元的差异
本馆现行的著录规则是以标准号(标准代号+标准编号+年代号)为数据组织的基本单元,将同一标准的不同版本视为独立个体。而国外标准文献结构化题录数据则更注重“族”(Family)的概念,将不同年代、版本但属于同一“族”的标准相互关联,从而强化了标准文献之间的纵向逻辑联系。
(2)数据结构可扩展性的差异
本馆现行的著录规则主要关注标准文献层面的信息描述,且数据字段的可扩展性有限,较难全面反映国外多源标准的多维度特征。相比之下,国外标准文献结构化题录数据不仅包含文献层的信息描述,同时包含对标准发布机构、语种、与其他标准等相关性等内容。标准内容层面的内容描述得也较为详细,且其数据结构具有更强的可扩展性和互操作性,有助于构建标准文献之间的横向逻辑联系。
3.3.2 关键差异点
(1)版本有效性与替代关系描述简单
本馆现行的著录规则在国外标准文献的有效性和替代关系的描述上较为简单,主要套用国内标准的管理模式,难以准确反映国外多源标准品种中存在的多种状态以及版本间的替代关系。以标准号(标准代号+标准编号+标准发布年份)为数据组织的基本单元,主要分为现行、作废两种,对于国外多源标准品种存在的草案标准、暂行标准、限用标准等状态,以及同年发布不同版本的有效状态、不同年份版本替代关系等无法准确描述。而国外标准结构化题录数据在有效性和替代关系上具有更细致、可扩展性更强的描述手段。
(2)著录字段的全面性不足
本馆现行的著录规则对国内标准和国外标准采用了相同的著录字段,但字段主要聚焦于对标准文献层面信息的描述,对国外标准常见的组织机构、语种、与其他标准相关性等信息,以及标准内容层面的描述缺乏相应字段,不利于对国外标准多维度特征的完整体现。例如,国外标准的标准号普遍存在包含多个标准化组织机构名称的情况,且同一标准不同时期其组织机构可能发生变化,根据现行规则,组织机构仅在标准号字段进行著录,既不利于反映标准文献所关联的组织机构信息,也不便于针对组织机构变动的数据维护。
(3)数据间的关联关系缺失
本馆现行的著录规则将单个标准视为独立的文献个体,未能有效归集具有关联关系的文献(如同号不同年代、同年代历次补充修订等)。而国外标准文献机构所提供的结构化数据中,对标准纵向和横向关联关系描述的信息日益丰富,强化了标准间的逻辑联系,但由于与现行加工规则的数据结构存在差异,该部分信息及其逻辑关系在现有体系中无法明确体现。
3.4 标准文献数字资源库构建方案
3.4.1 总体原则
为顺应标准数字化的发展趋势,解决多源异构国外标准文献数字资源的加工问题,提升馆藏数据的标准化、结构化、可扩展性和互操作性,以现行《标准化工作导则 第1部分:标准化文件的结构和起草规则》(GB/T 1.1—2020)[2]、《标准化工作指南 第1部分:标准化和相关活动的通用术语》(GB/ T 20 0 0 0.1—2014)[3]、《标准文献元数据》(GB/T 22373—2021)[4]等有关国家标准为基础,结合本馆国外标准文献题录数据著录和利用需求,对国外标准文献数据组织逻辑和加工规则进行升级优化。
3.4.2 数据组织逻辑的优化策略
建立以“族-版本-标准文档”为层级的数据结构(见图1)。其中,对“族”(Famil y)赋以唯一的“族标识”(Family ID),如ISO 14119,“族标识”以标准发布机构代号和标准号为区分;对“版本”(Revision)赋以“版本标识”(Revision ID),如2001版等,“版本标识”以出版、修订、增补等日期为区分;对“标准文档”(Document)赋以“标准文档标识”(Document ID),如某标准的原始版本/补充版本等,“标准文档标识”以单个标准文献为区分。
与原加工规则相比,该逻辑可基本适应国外多源标准文献的特征描述和著录需求,支持数据字段全面性和可扩展性,有助于强化标准文献资源纵向和横向关联关系,支撑资源高效利用。
3.4.3 数据处理规则的优化措施
系统梳理国外多源异构标准文献结构化数据项格式和内容,结合现有标准题录字段编目加工要求,经差异分析,形成优化后的结构化数据处理规则(见表1),并且新增扩展的结构化数据项内容(见表2)。
4 标准文献数字资源库的应用前景展望
标准文献数字资源库的建立,极大地拓宽了标准文献的信息边界,更为标准文献服务机构利用先进的知识图谱技术奠定了坚实的基础。通过充分发挥知识图谱的查询和推理方面的能力,实现标准文献的高级检索功能,满足用户在海量信息中迅速定位所需内容的需求。
此外,借助标准之间以及标准与其他文献之间的紧密关联信息,有效构建错综复杂却又井然有序的标准文献知识网络。在知识网络中,每一个标准将不再是孤立存在的个体,而是相互交织、相互映衬的知识节点。用户不仅可以轻松浏览和获取单个标准的信息,更能深入挖掘标准与标准之间的内在联系,从而获得更加全面、深入的知识体验。
展望未来,标准文献数字资源库将以其高效、智能的知识服务能力,成为广大用户获取标准文献信息、探索知识领域的重要平台。随着技术的不断进步和应用的不断深化,标准文献数字资源库将在推动标准化工作、促进知识传播与创新方面发挥越来越重要的作用。
作者简介
许平,硕士,工程师,研究方向为标准文献信息系统设计研发。
胡千乔,硕士,馆员,研究方向为标准文献编目。
董建立,硕士,工程师,研究方向为标准文献编目。
顾晓虹,工学学士,高级工程师,研究方向为标准文献数字化加工与知识服务模式。
(责任编辑:张佩玉)