融入知识元概念的近代报纸资源主题知识组织研究
——以《盛京时报》 为例

2022-05-21 10:53:26孙绍丹张子姝钟楚依盛盼盼
农业图书情报学刊 2022年4期
关键词:盛京时报报纸

孙绍丹,邓 君,张子姝,钟楚依,盛盼盼

(吉林大学管理学院,长春 130022)

1 引言

近代报纸作为中国近代史研究的宝贵资料,具备极高的史料价值和文献价值。目前诸多公立图书馆及其他商业机构等都在积极推进近代报纸资源的数字化建设。其中有代表性的有国家图书馆建设的 《中国历史文献总库·近代报纸数据库》、上海图书馆开发的《全国报刊索引》、中国台湾得泓公司等开发的 《申报》和 《大公报》 等数据库、中国社科院等联合建设的抗日战争与近代中日关系文献数据平台、爱如生中国近代报刊库等。这些报纸数据库项目开启了国内近代报纸数字化建设的先河,通过数字加工、缩微复制、知识库构建等方式,为近代报纸的长期保存和高效利用奠定了基础。随着数字技术的更新迭代,近代报纸资源的数字化开发有了更多可能性,资源利用更加高效。同时,用户也不再满足于单一表层的资源检索,迫切需要多样深层关联的资源检索与发现。目前,国内近代报纸资源库具有一定的实践,但总体来说这些报纸资源库的组织多以传统树状结构为主,通过正文检索和图片检索获取报纸内容,资源关联程度低,资源“孤岛”现象严重,且检索形式单一,尚未构成完整的知识体系和架构,导致用户在检索时无法快速定位目标内容,致使报纸资源利用率相对低下。本文将知识元概念融入到近代报纸资源主题知识组织研究中,在主题层和资源层之间引入知识元及其关联关系,构建以主题为核心的近代报纸资源主题图,围绕主题组织内容,深层标引报纸元数据特征,深度揭示报纸资源知识结构,并挖掘报纸资源之间的语义关联性,实现资源链式拓展和知识聚合,为报纸资源的深度组织与开发提供参考路径。

2 相关研究

2.1 近代报纸资源知识组织研究现状

近代报纸资源知识组织研究现状可以从实践和理论两个层面进行梳理。在实践工作方面,目前,近代报纸数字化工作主要以构建专题报纸数据库为主,如美国国会图书馆建设的数字报纸计划(NDNP),旨在创造一个在线历史报纸知识库,实现全文检索目标[1];荷兰国家图书馆构建了1922—1994 年160 万个报纸数据的数字化报纸档案库[2],包含注释丰富的历史报纸收藏和分面搜索界面;欧洲图书馆联盟Europeana 收录了1 000 多万份报纸资源,尤其是第一次世界大战期间出版的报纸,借助OCR、布局分析、文章分割、命名实体识别(NER)和页面类识别等细化技术,构筑成报纸知识库,并对细化步骤进行质量评测[3];中国国家图书馆于2014 年开启民国报纸缩微化和数字化工作[4],利用OCR 技术,建设了近代报纸数据库,提供检索下载服务。以上近代报纸数字化项目一定程度上推动了报纸资源的利用和开发,但在知识组织方面略显不足,其数据库检索方式大多以单一匹配内容为主,缺乏对资源进行关联分析、链式组织,限制了报纸资源隐性知识的挖掘。

理论研究方面,目前主要聚焦于报纸抢救及长期保存、报纸数字化过程中数据质检、数据噪音等问题以及报纸资源元数据及内容挖掘等研究。如KRAHMER 以北德克萨斯大学和斯坦福大学的合作项目The Texas Digital Newspaper Program(TDNP)为例,阐述报纸数字化保存策略[5];陈桂香则以地方近代报纸数字化建设为例,探讨其数字化技术和工具、分析数字化报纸的必要性和优势,并提出抢救近代报纸的相关建议[6];JARLBRINK 等分析了瑞典国家图书馆在历史报纸数字化过程中的数字噪音问题[7],如光学字符识别(OCR)识别质量参差不齐、载体形态转换价值丢失、数字外包质量控制风险等。元数据研究方面,FAFALIOS 等以1987—2007 年纽约时报为数据源,采用档案描述元数据和语义信息构建RDF 图,试图解决报纸档案资源的语义信息检索问题[8];BOGAARD 等通过日志分析法探讨了荷兰国家图书馆历史报纸元数据在用户搜索行为方面的效用,识别用户的搜索模式[9]。内容挖掘技术方面,学者们主要借助自然语言处理、机器学习、深度学习等方法,首先对报纸资源进行OCR 识别[10],改进OCR 算法,提高文本识别准确率,进而从主题角度挖掘报纸内容特征,如报纸中记录的洪水内容、自动识别报纸中关于诗歌记载[11]、透过报纸的新闻报道观摩城市动态演变[12]、报纸报道中性别偏见量化研究[13]、报纸中对野生动物保护观念历时性分析[14]等。

综上,国内外学者在近代报纸资源知识组织理论和实践方面有较多探索,但在如何实现报纸资源多维关联检索方面探讨不足。为了充分发挥报纸资源的珍贵史料价值,弥补当前研究空白,本文引入知识元概念,知识元是知识的基本组分,是构造知识系统的核心,是知识在微观领域的存在形态,通过将知识元与主题图结合,能够从多层次和多粒度视角构建以主题为核心要素的近代报纸资源主题图,以此揭示报纸资源之间的深层关联性,实现报纸资源多维检索,提高报纸资源利用率。

2.2 主题图研究现状

主题图是ISO/IEC13250 国际标准规范中用于组织大量非结构化信息的工具,通过整合信息资源,揭示资源特征,实现知识元之间的链接,构建领域知识体系,提高知识的集约化利用效率。目前,主题图在多个领域都有所应用,主要以知识组织和管理为主。①在传统文化领域:以京剧、昆曲为例,借助主题图可视化直观展示京剧和昆曲的历史渊源、传承脉络等属性[15];探讨邯郸地方文献、土家学地域知识的主题及主题关联[16,17]。②在图书馆信息资源领域:构建数字图书馆信息资源主题图模型[18]或图书馆特色资源知识地图[19],揭示图书馆信息资源之间的关联路径,助力资源组织,提高资源利用效率。③在电子政务领域:聚焦于政务信息主题地图门户建设[20]、隐性政务信息资源开发[21]、政务信息资源组织[22]等研究。此外,主题图在旅游文化信息[23]、教育信息[24]、消防应急信息[25]、健康信息[26]等方面都有所应用。

综上,主题图技术较为成熟,应用领域广泛,但对近代报纸资源尚未有所应用。考虑到近代报纸资源分布分散、资源类型多样、且缺少规范的知识组织体系等特征。本文尝试将主题图引入到近代报纸资源知识组织中,以揭示报纸主题概念之间的关联关系,聚合报纸资源相关内容,查询定位知识概念所在位置,进而整合报纸知识,实现报纸资源的个性化导航和高效利用。

3 研究方法及工具

主题图作为一种知识组织方式,与索引思想密切相关,其前身是主题导航地图(Topic Navigation Maps),包含主题(Topic)、关联(Associations)、资源指引(Occurrence)、范围(Scope)、标记(Identity)、分面(Facet)等组成要素。主题泛指实体、概念等能引起讨论的对象,主题类型是主题所归属的类别,同一主题可以有多个主题名称;关联是指主题之间关系,可以是一对一、一对多和多对多关系,相同关联关系可以归结为一个关联类型,每个主题在关联关系中扮演的角色被称为“角色类型”(Role Type);资源指引是指每个主题具有的属性特征,用来描述资源特性,可以是图片、视频、主题评论等;范围用来限制主题概念的定义范围;身份识别主要用于主题图合并。在主题图中,最关键的三要素分别是主题、相关关系和资源指引(图1),每个圆形节点表示一个主题,圆形节点之间连线表示主题之间相关关系,下方椭圆形内不同形状节点表示主题所具备的资源属性,整个图形表达了主题之间复杂的网状关系。

图1 主题图三要素构成[27]Fig.1 Construction of three elements of a topic map

本文使用挪威Ontopia 公司开发的主题映射工具Ontopia 构建主题图,该工具既可以显示文本主题映射,如主题、关联和相关主题以及资源属性,也可以提供清晰灵活的图形可视化工具,显示主题间的关联类型和主题类型。Ontopia 广泛应用于主题图引擎、主题图编辑器、主题图浏览工具、主题图可视化工具、Web 编辑框架、主题图导航框架和Web 服务接口等场景。本文在创建近代报纸资源主题图时主要使用了主题图编辑器Ontopoly 和主题图可视化工具Vizigator,其中Ontopoly 包括4 个模块:Description(说明)、Admin(管理)、Ontopoly(本体编辑器)及Instances(实例编辑器)。

4 近代报纸资源主题图模型构建

4.1 近代报纸资源库调研情况

笔者调研了国内比较知名且应用较为广泛的8 个近代报纸资源平台,梳理其报纸资源检索模式(表1)。由表1 可知,各个平台主要以近代报纸资源形式特征检索为主,如题名、作者、出版时间、出版年等基础信息。在报纸内容特征方面的揭示,《全国报刊索引》深入到报纸正文和图片信息,南京大学CCAA 将报纸广告内容单独建库。因此,可以看出,尚未有一个平台完整地解构了近代报纸资源内容,往往以单一化检索模式为主,缺乏完整的资源检索体系,且资源之间缺少关联和耦合。鉴于此,本文将结合表1 内容,从近代报纸资源形式和内容特征两大方面来描述报纸资源。

表1 国内近代报纸资源平台Table 1 The platform of Chinese modern newspaper resources

4.2 提炼近代报纸资源属性

本小节将参考3.1 近代报纸资源平台调研情况,并阅读平台所呈现的近代报纸内容,提炼出22 个近代报纸资源形式特征(表2)。在近代报纸资源内容特征方面,将报纸资源分为政治主题、经济主题、军事主题、社会活动主题、诗词歌赋主题、自然灾害主题六大主题类型,并融入“知识元”概念构建近代报纸资源主题-知识元-资源指引图(图2),即在主题和资源层加入知识元及其关联关系(图3),不同主题类型均涉及五大知识元相关内容,且知识元实体之间存在关联,如人物与机构、时间、空间、职官等。在资源指引层,主要揭示知识元实体的属性特征,如人物知识元具备姓名、字、性别、出身、突出业绩、任职方式和个人图片等属性特征,通过将知识元引入主题图构建过程中,旨在揭示不同主题类型下近代报纸资源内容多维语义特征。

图2 近代报纸资源主题-知识元-资源指引图Fig.2 Topic-knoweldge element-resource occurrence map of modern newspaper resources

图3 近代报纸知识元层关联关系Fig.3 Relation associaitons of modern newspapers at the level of knowledge elements

表2 近代报纸资源形式特征Table 2 Characteristics of the forms of modern newspaper resources

4.3 构建近代报纸资源主题图

本文抽取报纸资源主题类型,构建主题关系及确定主题资源指引,形成完整系统的近代报纸资源主题图。具体构建流程如图4 所示。

图4 近代报纸资源主题图构建流程Fig.4 Process of topic map construction of modern newspaper resources

4.3.1 确定主题类型

近代报纸资源内容包罗万象,且具有浓厚的时代印记和地域特色,其主题类型也呈现多样化特征。本文参照表2 和图2 内容来定义近代报纸资源主题类型,并从近代报纸资源形式特征和内容特征两大方面描述其内容(表3)。其中形式特征包含:报纸所属类别、语种、出版周期、国别、版次、保存格式和栏目,说明字段是对主题类型值做进一步地解释。内容特征方面将近代报纸内容主题划分为政治、经济、军事、社会活动、诗词歌赋、自然灾害六大类,并抽取人物、机构、时间、空间、职官五大知识元,梳理其关系及属性,以揭示近代报纸内容特征。

表3 近代报纸资源主题类型定义Table 3 Definitions of types of topics of modern newspaper resources

4.3.2 确定关联类别

近代报纸资源主题类型确定后,需要考虑主题之间的关联关系,将分散独立的主题聚合关联,建立近代报纸资源知识网络,实现近代报纸知识互联。关联类别同样从报纸形式和内容特征两方面来描述(表4),其中形式特征包括报纸与归属类别、国别、语种、出版周期、版次、保存格式和栏目关联。内容特征中,主要指人物、机构、时间、空间、职官知识元实体之间的关联关系(表4)。

表4 近代报纸资源主题之间关联关系说明Table 4 Association between topics of modern newspaper resources

4.3.3 确定资源指引

主题图通过资源指引功能链接到特定主题的相关信息,方便用户查找浏览。资源指引主要描述了资源所具有的属性特性,类型往往以文字描述、图像、日期、视频和链接等为主。本文从近代报纸资源形式和内容特征两方面总结归纳了多种近代报纸资源指引类型(表5)。

表5 报纸资源指引描述Table 5 Occurrence type description of newspaper resources

4.4 近代报纸资源主题图模型生成及可视化

本小节在3.3 基础上采用Ontopia 工具中Ontopoly本体编辑器,录入近代报纸资源主题类型(Topic Types)、关联关系(Association Types)、资源指引(Occurence Types),生成主题图元素构造图(图5)。利用Instances 实例编辑器将近代报纸实例数据依次添加到元素构造图中,生成相应的主题图。

图5 主题图编辑器构造主题图元素Fig.5 Elements of a topic map constructed by an editor tool

采用Ontopia 中Vizigator 可视化工具,生成报纸资源主题连接图,非线性地呈现网络的主题及其关系,让用户自由探索主题空间。Vizigator 提供局部控制参数供用户选择,设定主题图中围绕焦点主题展示的关联维度,即主题之间的层级关系深度,如以近代报纸为核心焦点,报纸到政治主题属于1 级关联,近代报纸到政治主题-机构知识元属于2 级关联。在主题图中,用户也可以实现主题词检索,搜索结果会以核心主题为轴心,辐射直接关联的主题和关系,从而将围绕某一主题的所有关联主题聚合,便于用户精准定位资源信息。例如,以近代报纸为核心焦点主题,可视化主题图(图6),周围辐射与近代报纸1 级关联的主题、关系及资源指引,形成一个网状结构的近代报纸资源主题图,直观再现了近代报纸资源形式和内容特征之间的关联性,使报纸资源知识内容得以优化组织,实现资源的链式拓展和同属性知识的聚合。主题标签上方数值表示未显示的与该主题1 级关联的主题数量,连线表示主题之间的关系,鼠标放置连线处会显示关系类别,且同一主题类型颜色一致,方便用户区分识别。

图6 以近代报纸为核心焦点主题的主题图Fig.6 A topic map with modern newspapers as the core

5 基于主题图的近代报纸资源知识组织实例

5.1 《盛京时报》 简介

《盛京时报》 是日本人中岛真雄于1906 年10 月18日在沈阳创办的中文报纸,于1944 年停刊。该刊以国内时事和评论为主,主要汇聚了东北地区金融、商贸、交通、教育、文学等许多方面的信息,是研究东北军民抗日史、北洋军阀史以及中国近代史弥足珍贵的史料。本章节以 《盛京时报》 为例,构建主题图模型,旨在实现《盛京时报》 知识内容的组织和聚合。

5.2 构建《盛京时报》 主题图

5.2.1 《盛京时报》 主题图元素生成

采用Ontopoly 编辑工具生成 《盛京时报》 主题图元素(图7)。图7 揭示了 《盛京时报》 报名、目录信息、关键词、出版者、出版地、出版日期等基础性信息,以及六大类主题类型,即政治、经济、军事、社会活动、诗词歌赋及自然灾害,此外也列举了报纸相关形式特征主题类型,如报纸栏目、所属国别、出版周期、版次、及语种等。

图7 《盛京时报》 主题图元素Fig.7 Elements of a topic map of Shengjing Times

5.2.2 《盛京时报》 主题图绘制

采用Vizigator 绘制以 《盛京时报》 为起始点的主题图(图8),检索以 《盛京时报》 为核心轴点的主题图,中心黄色高亮部分表示起始节点 《盛京时报》,同一颜色表示同一类别,点击 《盛京时报》 所属“近代报纸”主题类型后,近代报纸相关主题类型、主题关系显示。图8 展现了报纸实例化后 《盛京时报》 主题知识的聚合和延展,清晰直观地凸显出主题图对于信息组织的优势。

图8 《盛京时报》 主题图Fig.8 Topic map of Shengjing Time

如果将图8 《盛京时报》 为核心节点的其他信息与近代报纸对应属性整合,可以得到图9。同一颜色表示同一类别,如 《盛京时报》 报纸栏目、报纸所属类别、报纸版次、报纸归属国别、报纸出版周期、报纸保存格式、报纸语种所有属性信息均以“聚合”方式展现,方便查看。与图8 相比,图9 对信息进行深层整合处理,同类别主题聚合在一起,虽然图形看起来较为复杂,但在操作界面中用户可以自由选择目标主题,点击标签实现收放功能,获取目标信息。该主题图揭示了 《盛京时报》 形式和内容特征,将相似主题内容聚合成簇,实现资源的链式拓展,满足用户浏览、查看、检索需求,推动 《盛京时报》 的组织利用与共享。图10 是将《盛京时报》 中“政治主题”类型单独检索出,可以看出围绕五大知识元及其关联关系展开,如实例“开放北满商埠电文”涉及机构“东三省电报总局”、人物“孟宪彝”、职官“太守”、时间“光绪三十二年十一月初三日”,地点是“长春”。

图9 《盛京时报》 扩展主题图Fig.9 Expanded topics'map of Shengjing Times

图10 《盛京时报》“政治主题”为核心的主题图Fig.10 A topic map of political topics of Shengjing Times

5.2.3 《盛京时报》 主题图输出

本文通过添加 《盛京时报》 实例,将构建好的主题地图以XTM2.0 格式输出,输出部分代码如图11所示。Ontopia 支持LTM、XTM1.0、XTM2.0、XTM2.1或RDF 格式输出主题地图。LTM(Linear Topic Map Notation)是由Ontopia 公司开发的一种主题地图语法,也被其他主题地图程序使用。XTM(XML Topic Maps)语法是主题地图的ISO 标准,RDF 是一种用于表示万维网中有关资源信息的语言。主题图以特定格式如XTM、RDF 输出后,可以在互联网上实现资源共享和互操作,在知识管理、知识组织与信息检索、知识导航领域进行应用。主题图以结构化方式呈现知识内容,为用户提供一个标准的技术方法来分享知识,使得报纸资源的获取、加工和存储更加便捷高效。此外,主题图可以揭示知识本身及知识资源之间的关联性,为报纸资源的链式拓展奠定基础。

图11 主题图XTM2.0 格式(节选)Fig.11 XTM2.0 format of a topic map(Partially)

6 讨论与展望

中国近代报纸记载了丰富的历史文化内容,是中国历史的生动缩影,其新闻价值和史料价值日益凸显。本文基于主题图方法,通过调研国内近代报纸资源库网站,对近代报纸资源主题类型、主题之间关系及资源指引进行设定,从近代报纸形式特征和内容特征两方面构建主题模型,采用Ontopia 工具建立近代报纸资源主题图,并以 《盛京时报》 作为实例,展示具体实例下主题图生成、可视化及知识组织过程,为近代报纸资源知识导航、检索及知识库构建提供参考路径。

主题图技术作为一种知识组织工具,可以灵活定义主题类型及概念之间关系,并以可视化方式展示知识信息,为用户提供查询和检索功能。因此,本文通过在主题层和资源层之间融入知识元概念,构建近代报纸资源主题图以实现近代报纸的知识组织和聚合,是对近代报纸资源组织方式的一种尝试和探索。相较于本体技术,主题图在主题类型定义上较为自由开放,不受标准约束,更具有伸展性;在主题关系定义上,相比本体和语义网络中抽象语义关系,主题关系表达更为具体实用,契合于用户需求;在资源指引方面,可以链式拓展主题信息,设定主题属性和资源类型,丰富主题网络图;在知识可视化方面,主题图能直观展示近代报纸资源知识结构,支持复杂的主题词语义检索,提供标签收放功能,提高用户的检索效率,对近代报纸资源组织和导航具有重要的实际应用价值。此外,本文由于篇幅所限,仅以 《盛京时报》 作为实例数据进行演示,在实际工作场景中,主题图远不止一个,根据实践需要实现多个主题图合并也是未来工作的趋势和方向。

猜你喜欢
盛京时报报纸
150多名游客“失踪”,韩担心免签被利用
环球时报(2023-01-09)2023-01-09 17:16:31
论盛京文化——从清前史规划讨论谈起
报纸
卖报纸
可以吃的报纸
卖报纸
盛京往事
空中之家(2017年11期)2017-11-28 05:27:59
清代盛京刑部四题
潮流时报
Coco薇(2016年10期)2016-11-29 02:32:44
基于活动营销的专业报盈利模式之探索——以《平安时报》为例
新闻传播(2016年13期)2016-07-19 10:12:05