基于关系数据库的报纸题录数据结构研究

2022-04-02 05:08熊定富
新世纪图书馆 2022年3期
关键词:版面全文报纸

熊定富

摘 要 建立报纸篇名数据库,即报纸题录数据库,可以极大地方便读者检索图书馆报纸,提高报纸的开发利用率。论文讨论了在实际的报纸题录加工中可能用到的、利用关系数据库建立的几种报纸题录的数据库表结构,包括不需要链接全文和需要链接全文两种形式。论文还提出了利用关系数据库二维表分段管理全文索引的具体方法,对推动报纸题录建设具有重要意义。

关键词 报纸题录;数据结构;篇名数据库;地方文献

分类号 G254.3

DOI 10.16810/j.cnki.1672-514X.2022.03.006

Research on Newspaper Title Data Structure Based on Relational Database

Xiong Dingfu

Abstract The establishment of newspaper title database, namely newspaper title database, can greatly facilitate readers to search library newspapers and improve the utilization rate of newspaper development. This paper discusses several kinds of database table structures of newspaper titles which may be used in the actual processing of newspaper titles, including two forms: no need to link full text and need to link full text. This paper also puts forward the specific method of segmented management of full-text index by using the two-dimensional table of the relevant system database, which is of great significance to promote the construction of newspaper titles.

Keywords Newspaper title. Data structure. Title database. Local literature.

报纸是图书馆最重要的馆藏文献之一,任何时候都要加强对图书馆报纸的整理、开发、利用,而重视报纸题录的建设是重中之重。题录,是将图书和报刊中的篇目按照一定排检方法编排,供人们查找篇目出处的工具。题录的著录项通常包括篇名、著者和出版来源,无内容摘要[1]。题录要指明文献出处。题录形成的检索工具,国内通常称之为论文索引、篇名索引[2]。本文认为,建立报纸的题录数据库相对于文摘和全文系统是最省力省心的辦法,其中,事先规划好报纸题录数据结构显得十分重要。

1 报纸题录的几种形式

基于关系数据库的报纸题录可以有两种形式,一种是不带全文链接的题录,这种题录可以指明纸质文献的收藏位置,让读者了解大致的馆藏,其编写和制作系统的速度特别快。另一种是编写的题录带了全文链接,并且有对应的全文可以阅读和下载,这种可以叫做全文目录。全文目录,是全文系统的一部分,与全文构成一个完整的整体。

全文链接,是指题录要使用一个字段或几个字段来存贮题录所对应的全文文献的链接地址。全文链接有caj、pdf、DOI、html四种。caj连接超星的caj文档;pdf连接服务器上pdf格式的全文;html连接服务器上的html格式的文档。DOI是“Digital Object Identifier”(数字对象唯一标识符)的简写,由美国出版协会于1994年提出,被形象地称为“互联网上的条形码”[3],通过它可以方便、可靠、唯一地链接到全文。目前,我国万方、CNKI等生产的全文文献已经在使用IDF[4]。对于一些小范围的自建报纸题录或不太愿意与外界进行数据交流的用户,可以用pdf全文链接等来代替该字段。

根据报纸题录所链接的报纸全文的形式,又可以分为以下三种:(1)题录链接报纸的某个版面的某一篇具体的文章,即单篇链接。这是最常见的篇名全文数据库,例如,慧科新闻和CNKI报纸数据库。(2)题录链接报纸的某个版面,即一条题录数据对应一个报纸版面。这是相对粗糙一点的加工。但是这种题录形式有一个优点,就是加工方便,使用起来也很方便。因此,很多题录和全文系统就是这样做的。如果要在版面内进行全文检索,必须将版面的所有内容文字化,并建立关键词索引、题名索引或全文索引。题录所对应的这个索引可以存放在本条题录的专门字段之中,也可以建立专门的索引文件。(3)题录链接某一天整天的报纸,即一条题录对应一天的报纸全文内容。这也是相对粗放的报纸加工方式。这种加工方式也具有上述优点,就是加工快捷方便,阅读起来也能令读者接受。

2 常见数据结构

2.1 单篇链接1:不带全文链接的题名、著者、关键词综合在一起的题录数据结构

“题名、著者、关键词”这个字段是整条数据的核心字段,就是将一条报纸新闻的标题、作者、关键词全部写在一起,填入该字段。为了项目操作起来更加简单、方便和快捷,一般可以不加任何标点符号和分隔符(如空隔、斜杠等)。只是在有时候会出现检索误差,查询出的结果会出现冗余数据,但这并不会过多地影响系统的实际使用和查询效率。在我们的实际应用中,“作者”一般情况下不能少。如果报纸的文章标题已经较好地反映了内容主题,关键词也可以不必录入。在标题不能全面反映文章的内容时,可以适当录入几个关键词。总之,标题、作者和关键词可以根据需要分别来录入。下面是《重庆晨报》《重庆晚报》《重庆时报》三份报纸中的三条新闻,其著录如样例1所示。

其脚本程序如下:CREATE TABLE [dbo].[样例1题录](

[ID] [int] NOT NULL,

[报名] [nvarchar](255) NULL,

[日期] [date] NULL,

[题名著者关键词] [nvarchar](255)NULL,

CONSTRAINT [PK_样例1题录] PRIMARY

KEY CLUSTERED

将题名、著者、关键词的全部数据放在一个数据字段中,检索题名、著者、关键词的数据时,便可以同时检索题名、著者、关键词,更加方便快捷。由于没有原文链接,当读者在图书馆电脑中查找到报纸的线索信息时,可请工作人员从报纸的纸质书库中提出报纸原文,然后才能进行阅读、查找、复印、扫描、拍照等利用。此外,还可以对地方文献报纸进行快速、大數量的题录索引,为读者提供报纸线索。又比如,为缩微转电脑版的报纸编写题录,以便为读者查找报纸提供标题和关键词检索服务。

最重要的是,这种将题名、著者、关键词三个字段的数据综合到一个字段的形式,也适合于我们后面要谈到的其它数据结构,如按日期或按报纸版面建立的报纸题录。这种建库方法将极大地加快建库速度,非常适合不需要加入DOI系统的图书馆,如地市级图书馆加工地方报纸。采用这种思路最大的好处是可以将房地产广告、寻人启示、遗失公告、公司注销公告等常常为读者大量查阅的信息录入系统。

2.2 单篇链接2:带全文链接的各检索字段独立的题录数据结构

我们先分析一下国内两个大型全文数据库厂商的报纸题录的数据结构。CNKI数据库的报纸题录有如下数据字段:题名、作者、报纸名称、日期、被引、下载、阅读、收藏、正文快照、关键词、报纸日期、版名、版号、专辑、专题、DOI、分类号[5]。而“慧科新闻”主要有如下字段:ID、文章相关度、日期、媒体、版面/栏目/作者、字数、文章编号(全文链接代码)、原文链接地址[6]。

由此我们看到,国内目前已经存在的几种报纸题录的数据结构具有如下共性:

(1)具有ID、标题、作者、关键词、报名、日期、版面号等基础性字段;

(2)有html地址、caj地址、pdf地址、DOI地址等全文文献链接字段。

其中,题名、作者、报纸名称、日期、关键词、DOI/pdf链接、版号、分类号是基本字段,一般来说是必备的。“html”字段是将pdf全文转化html或XML格式直接展示给读者阅读的字段。如果用户要阅读图像格式的文档(pdf、caj等格式),通常须自己下载到本地电脑。

将题名、著者、关键词分字段进行存贮与检索,是当前主流全文数据库加工商的做法,不仅能够让数据的条理性更加清晰,而且可以方便地从电脑上直接看到文献的全文。然而在实践中也可以看出,无论是慧科新闻,还是CNKI,它们也有两个方面不足:一是没有将房地产广告、寻人启示、遗失公告、公司注销公告等读者大量查阅的信息建库;二是篇名不齐全,只是选择了一些重要的新闻文章建立全文库。

2.3 按版面加工成题录的数据结构

基本思路是将按版面或按日期加工成的电子文档(如pdf文档)同步产生的可编辑文字所形成的文档(如word文档)中的结构化数据,主要是报纸的标题、作者(记者)、关键词(如重要概念、地点、时间等)按报纸的篇名一条一条地提出来,建立一个单独的题录,在链接全文的时候,同一版面或同一天而且报名又相同的数据链接同一个pdf电子文档。

这样做的好处是,加工速度会成倍加快,因为这样就不需要去单独拆分一篇一篇的报纸文章。不好的地方是用户在阅读的时候比较麻烦,当用户在题录中找到某一天或某一版面报纸的时候,还得在该日期或该版面中继续寻找自己需要的某篇新闻。数据样例如样例2所示。

上述两条题录的题名、著者、关键词索引不同,但是链接了相同的pdf文件地址。很明显,在这两条题录中,读者能很方便地找到自己需要的文章。而且,这是一种很常见的报纸加工形式。下面是样例2的脚本程序,仅供读者参考:

CREATE TABLE [dbo].[样例2题录](

[ID] [int] NOT NULL,

[报名] [nvarchar](255) NULL,

[日期] [date] NULL,

[题名著者关键词索引] [nvarchar](255)

NULL,

[版面] [nvarchar](50) NULL,

[pdf文件地址] [nvarchar](255) NULL,

[Html地址] [nvarchar](255) NULL,

[文字地址] [nvarchar](255) NULL,

CONSTRAINT [PK_样例2题录] PRIMARY

KEY CLUSTERED

2.4 按日期加工成题录的数据结构

基本思路类似于按版面加工,即按日期加工的题录,每一条题录对应某个日期报纸的一篇文章,对应的全文链接(如pdf链接)则链接该日期整天的报纸全文,可见样例3。

上述两条题录,按“天”加工,就是将2021年1月20日的重庆晨报扫描制作成一个电子版,例如一个pdf文件。然后,为每一条新闻制作一条题录,但是全文链接地址给的是完全相同的地址。读者打开链接之后,自己去寻找当天新闻中自己需要的某一篇文章。

这种结构的优点是将某一天的报纸加工成一个电子全文,利于收藏;在实际保存中,报纸文件不会那么容易被丢失和误删除。缺点是读者阅览和查找当天某一篇自己需要的新闻时,需要花一些时间,而且因为在数据加工的时候要将同一天报纸的每一个版面连接成一个全文文档,同样也要花不少时间。下面是样例3的脚本程序,仅供读者参考:

CREATE TABLE [dbo].[样例3题录](

[ID] [int] NOT NULL,

[报名] [nvarchar](255) NULL,

[日期] [date] NULL,

[题名著者关键词索引] [nvarchar]

(255) NULL,

[pdf文件地址] [nvarchar](255) NULL,

[Html地址] [nvarchar](255) NULL,

[文字地址] [nvarchar](255) NULL,

CONSTRAINT [PK_样例3题录] PRIMARY

KEY CLUSTERED

2.5 全文索引型题录

全文索引型题录不是严格意义上的题录,但是为了研究的系统性,我们还是将它放在一起进行探讨。全文索引型题录的建立方法:采用非结构化的数据加工方法+结构化的数据管理方法。其基本思路是:(1)一次性将报纸全部扫描完,同时生成可编辑文字的文档和供读者阅读的电子文档。(2)利用计算机全文加工系统的插件或者自己编写的全文索引程序,对可编辑文字文档进行标准的全文索引,将高频词提出来作为关键词放到全文索引文件中。(3)对产生的索引文字使用关系数据库进行管理。主要是将超过255个字符的索引按255个字符的长度进行切分,形成多个全文索引数据段。这个切分过程应该使用计算机程序段自动完成。在进行切分的时候,应以词而不是以单字为单位,注意不要将一个关键词切分到两个字段之中去。(4)每一个255字符的索引数据段保存为一条记录,并链接上相同的地址。这样就能实现全文索引和全文检索。

如对重庆晨报2020年1月21日全天新闻[7]进行全文索引,其关键词如下:

市政协 五届四次会议 开幕 五届人大四次会议 预备会议 主席团 第一次会议 春节返乡 核酸检测 阴性 证明 教育热点 委员 八省市 联考 重庆考生 重庆桥都 博物馆 桥梁 建议 免征 增程式 电动汽车 消费税 摇号入学 地域文化 城市设施 道路命名 学生 电子产品 教学 使用时间 家暴 受害人 扶贫工程 街道办主任 敛财 疫情 一线 企业 100% 复工复产 江津 重庆晨报 上游新闻 记者 2020年 招商引资 丰都县 重庆桥梁

依据全文索引切分所建立起的题录其加工如样例4所示。

从上面的例子可以看出,即使将一条报纸新闻的两个全文索引词分别放在不同的题录中,计算机仍然可以检索出该天的新闻。各个索引词之间可以加分隔符,也可以不加分隔符,对检索结果的影响都不是太大。下面是样例4的脚本程序,仅供读者参考:

CREATE TABLE [dbo].[样例4题录](

[ID] [int] NOT NULL,

[报名] [nvarchar](255) NULL,

[日期] [date] NULL,

[全文索引] [nvarchar](255) NULL,

[pdf文件地址] [nvarchar](255) NULL,

[Html地址] [nvarchar](255) NULL,

[文字地址] [nvarchar](255) NULL,

CONSTRAINT [PK_样例4题录] PRIMARY

KEY CLUSTERED

使用这种结构来建立报纸题录具有三个优点。(1)全文加工速度快。全文扫描之后,文字层的生成,各种链接字段的生成,全文索引、全文题录的建立等几乎都可以实现计算机自动处理,大大节省了人工成本。(2)对于有缺陷的索引,可以在计算机处理完成后,以人工继续进行处理,继续向索引字段追加关键词。(3)与非结构化数据库系统相比,使用这种结构对老用户来说更加利于理解。当然,这种数据结构也有自己的缺点:根据切分和词频抽取出的全文索引词中,词频高的不完全是反映文章主题内容的关键词,而词频低但是反映文章主题内容的关键词汇又可能没有被索引到,或者没有被全文索引收录。正如上面所说的,遇到这种情况时可以手工编辑索引字段,在全文索引数据字段中追加关键词索引。

参考文献:

徐军玲,洪江龙.科技文献检索[M].上海:复旦大学出版社,2004:21.

王立诚.科技文献检索与利用[M].5版.南京:东南大学出版社,2014: 29.

《医药导报》编辑部.DOI编码功能介绍[J].医药导报,2020,39(12): 1707.

龙健,赖茂生.DOI的兴起与我国的对策[J].情报杂志,2009,28(12): 161.

程正龙.重庆怎样加快建成高質量发展高品质生活新范例?[N/OL].重庆日报,2020-12-24[2021-06-08]. http://elib.cqlib.cn:8081/interlibSSO/goto/10/+jmr9bmjh9mds/KXReader/Detail?TIMESTAMP=637587611121692813&DBCODE=CCND&TABLEName=CCNDLAST2021&FileName=CQRB202012240120&RESULT=1&SIGN=PyrjFZvDW9PxoJuGt6z%2bGtDTTyc%3d#.

开启新征程!两江新区瞄准两大定位两大目标.慧科新闻[EB/OL].(2021-01-16)[2021-06-08].https://epaper.cqrb.cn/html/cqrb/2021-01/16/003/content_rt_2777602.htm.

重庆报业集团.重庆晨报[EB/OL].(2021-01-21)[2021-06-08].https://epaper.cqcb.com/html/202101/21/node_001.html.

猜你喜欢
版面全文报纸
拥有猫一样的眼睛
确实不容易
A Survey of Research on Fine—grained Sentiment Analysis in Chinese
青年再造
发现“西方中医”
反腐
来信
版面撷英
非常魔典
旧报纸·巧存放