期刊文献数据仓库的设计与实现

2011-11-17 01:25贾生王宇

现代情报 2011年6期

贾生王宇

〔摘要〕从科研人员的实际需求出发，基于对期刊文献的理解与分析，首先设计了针对文献数据的解析流程，确定了期刊文献数据仓库三层体系结构；进而采用三级维度建模技术具体构造数据仓库三级模型；最后利用SQL Server 2008平台实现了一个期刊文献数据仓库原型系统，并利用该数据仓库对文献资源进行了OLAP操作，取得了较好的分析效果。

〔关键词〕文献数据仓库；文献数据解析；体系结构；三级维度建模；OLAP

收稿日期：2011－03－10

基金项目：教育部人文社科研究项目“期刊文献知识元挖掘及知识仓库构建研究”（项目编号：09YJA870005）研究成果之一

作者简介：贾生（1985－），男，硕士研究生，研究方向：文献资源管理。

DOI：10．3969／j．issn．1008－0821．2011．06．019

〔中图分类号〕G203 〔文献标识码〕B 〔文章编号〕1008－0821（2011）06－0069－04

Design and Implementation on Periodical Literature Data Warehouse

Jia Sheng Wang Yu

（College of Management Science and Engineering，Dalian University of Technology，Dalian 116024，China）

〔Abstract〕With the actual requirements of scientist workers,this text firstly designed a data analysis process for periodical literature and determine the three-tier architecture of periodical literature data warehouse based on the understanding and analysis of periodical literature.Then constructed a tree-level model of date warehouse by three dimensional modeling technology.Finally,implemented a prototype system of periodical periodical literature data warehouse based on SQL Server 2008 platform, making OLAP operations towards the periodical literature data warehouse and have achieved good results.

〔Key words〕literature data warehouse;literature data analysis;architecture;three-dimensional modeling;OLAP

文献是一种宝贵的信息资源，是人们获取信息和知识的一个重要渠道，而期刊又是所有文献类型中最重要的信息情报来源，据统计向人们提供了所需文献信息的50%～70%。近年来，随着数据库技术、网络技术和数字化图书馆技术的飞速发展以及数据库管理系统的广泛应用，使得以电子期刊文献为主要形式的文献资源不断膨胀。如何从浩如烟海的文献资源中获取有用的信息和知识始终是科学工作者所关心的一个问题同时也是图书情报学研究的一个重要方向。目前，各级各类图书馆特别是大中型图书馆都拥有了大量如CNKI(中国期刊全文数据库)、VIP(维普资讯)、万方等大型文献数据库系统，这些数据库系统为人们获取文献提供了方便快捷的途径。但由于这些文献资料大多以摘要或全文的形式存储在计算机中，计算机不能对这些文献资料进行更深层次的数据挖掘，而需要人工对所检索的信息进行分析处理，其处理效率和深度都非常低［1］。因此，建立一个文献数据仓库系统，对期刊文献信息进行深度挖掘，使读者迅速、准确获取所需要的信息，为决策需要面向主题进行数据重组具有非常重要的意义。

当前数据仓库技术已相当成熟，应用也日益广泛。但在文献资源管理领域，论述文献数据仓库建设思想［2－4］的文献目前还很少，详细介绍文献数据仓库设计方法和实施过程的文献更是凤毛麟角。在国外，Owen Kaser［4］等于2006年提出过文献OLAP（联机分析处理）项目，Steven W.Keith［5］对文献数据仓库的不同存储方法进行了研究。近年来，国内学者也对文献数据仓库建设进行了思考和探索，其中徐慧所提出的文献数据仓库系统设计的4个步骤［1］，对文献数据仓库建设具有重要启发。但这些研究都没有涉及文献数据仓库的详细设计和具体实现。由于期刊文献结构规范，信息量大，覆盖面广，数据也易于提取、处理和管理，研究起来相对方便也具有可行性，因此我们选取期刊文献作为本文的研究对象，通过建立一个文献数据仓库原型系统来研究期刊文献数据仓库的设计和实现流程，并利用该数据仓库进行OLAP分析。

1 期刊文献数据仓库分析

由于期刊文献资源的特殊性，如何高效地获取期刊文献资源数据并对其进行解析和处理是期刊文献数据仓库实施的关键，设计一个合理的数据仓库体系结构是期刊文献数据仓库建设的基础。

1.1 源数据的获取和解析问题分析

期刊文献数据仓库的构建应以文献数据库系统为基础。因此我们选取现有的文献数据库系统作为期刊文献数据仓库的数据源，从中提取满足分析需要的数据。但是，以常规渠道从现有的文献数据库中获得的数据包含很多冗余，也存在格式不一致等诸多问题，并不能直接加载到数据仓库中，因而必须首先对其进行解析和预处理。基于此，我们设计了一个期刊文献数据解析流程来对源数据进行预处理。本文选择维普资讯(VIP)中文科技期刊数据库(1989-2010年9月底)作为文献资料来源。文献的检索方法是：在“分类检索”中选择“社会科学总论”下的“管理学”中的“管理计划与控制”进行搜索，得到351篇文献记录。以50篇为1个单位下载这351篇文献的全部详细信息，得到1个txt文本。进而利用JAVA编程对该文本文件进行处理，得到相应的excel文件。该excel文件包含除标题栏外351条记录，分别记录每篇文献的题名、作者、机构、刊名、ISSN号、CN号、馆藏号、关键词、分类号和文摘信息，将其作为数据源文件。再利用VBA编程进行数据处理，删除如馆藏号之类无用的信息，并对原来包括期刊名、年份等数据的刊名信息进行分解得到期刊名、年份、卷号、期号和页码信息，将机构信息分解得到机构和地区信息，最终处理后的部分结果如图1所示。

图1 源数据解析结果

1.2 期刊文献数据仓库总体结构分析

数据仓库作为一个系统，是多种技术的综合体，结合期刊文献数据的特点和决策分析的需要，我们将期刊文献数据仓库设计为结构化的三层体系结构，如图2所示自底向上依次为数据获取／解析层、存储／管理层和分析／应用层三部分。

图2 期刊文献数据仓库总体结构

1.2.1 数据获取／解析层

该层是期刊文献数据仓库与普通企业数据仓库相区别的地方。由于从外部数据源（主要指文献数据库系统）获取的数据不能直接加载到期刊文献数据仓库，因而在该层我们要首先通过上文设计的文献数据解析流程对获取的源数据进行解析处理进而得到可以直接进行加载的数据仓库数据源。

1.2.2 存储／管理层

该层是联结数据层和分析层的桥梁，是期刊文献数据仓库的主体部分。本层首先通过抽取、转换和加载，填充和实现了数据仓库，并对数据仓库中的数据予以存储。同时该层还负责利用数据仓库管理工具对所存储的数据进行管理和维护以保证数据仓库的正常工作。

1.2.3 分析／应用层

该层是期刊文献数据仓库的功能部分，也是与传统文献数据库系统的根本区别所在。面向系统的一般用户，通过OLAP向用户展示查询、分析的结果，满足用户决策需要，最终实现对期刊文献资源的数据深度分析和挖掘。

2 期刊文献数据仓库三级维度建模

数据仓库模型设计可分为自上而下(从需求出发)与自下而上(从底层数据出发)两种。三级规范化维度建模过程分为：概念模型、逻辑模型与物理模型3个阶段［6］。在期刊文献数据仓库设计中我们依据对数据的深入分析，选取期刊文献作为数据仓库分析的主题，将数据驱动与需求驱动相结合，采用三级维度建模方法进行数据仓库的设计。

2.1 概念模型设计

概念模型的设计是以信息打包的方法用二维表格的形式反映主题数据多维性，从总体上表示用户对信息的需求。根据对期刊文献数据仓库的分析，可以确定信息包图的3个对象：(1)定义关键性能指标：文献数。(2)定义维度：时间维、作者维、文献维、期刊维、机构维、分类维、期刊类型维、地区维。(3)定义各个维度的类别：类别提供一个维的详细信息。由于篇幅所限本文对各个类别定义不进行深入说明，其中由于文献的关键词和作者大多是几个组合在一起，为降低粒度以便进一步对每个关键词和作者进行分析，我们首先用一个共编号来表示关键词和作者的组合，然后在下层具体情况表中再分别对每个作者和关键词进行编号和说明；对文献全文内容在数据仓库中我们暂时不予以存储，仅以存放位置进行标识。在各种详细类别确定之后，将各个维度对象、指标对象以及类别对象用信息打包的方式，形成一个如图3所示的完整信息包图。

图3 期刊文献信息包图

2.2 逻辑模型设计

建立了完整的信息包图后，就需要将信息包图转换成星形图。按照转换的原则，首先定义指标实体，指标实体是由数据指标和逻辑指标构成的。信息包图的指标对象对应着星型图中的数据指标，而每个维度的最低级类别可以纳入逻辑指标中，这样得到的数据指标和逻辑指标共同构成了星型图中的指标实体。接下来，要定义维度实体，维度实体对应信息包图的维度对象，它位于星形图的角上，用菱形表示。随着指标实体、维度实体在星形图上的定位，就要进一步定义两者的关系。有了各种实体后，我们就可以建立一个完整星形图。根据信息包图和星形图，我们可以初步确定数据仓库中应包括八个维度表和一个事实表。同时为减少数据冗余我们将作者维、文献维和期刊维，进一步细分建立详细类别表（用八边形表示）使之具有较低的粒度，这样原来的星形图模型就扩展为如图4所示的雪花模型。

图4 雪花模型图

2.3 物理模型设计

数据仓库物理模型是逻辑模型在数据仓库中的实现。主要解决如何组织和存储数据以满足系统处理的要求，如处理速度、响应时间和存储容量等问题。建立物理模型是一个从逻辑模型向更加具体的依赖于数据库平台的物理形式转化的过程，如实体到表、记录到行、属性到列、关系到外键、惟一标识符到主键的转化过程等［7］。在期刊文献数据仓库设计中，我们以信息包图和雪花型模型为基础设计各个表最终结构，其中在设计期刊文献事实表时以各个维度表的主键为公共主键同时加入一列文献数指标、各个维度表的设计以信息包图中的相应类别为表中各个列、首行为各表的主键，具体情况表的设计相对比较简单，设计完各个表我们要确定事实表、维度表和具体情况表之间的关系最终形成事实表／维度表关系基本结构，然后再考虑确定索引策略、数据存放位置及存储分配等。最后我们用SQL Server 2008平台建立数据仓库的基本结构。

3 期刊文献数据仓库的实现及应用

经过比较分析，我们选取Microsoft SQL Server 2008的商业智能解决方案来部署数据仓库并进行OLAP分析。SQL Server 2008商业智能平台主要包括以下三大服务：Analysis Services(分析服务)，Integration Services(集成服务)，Reporting Services(报告服务)和一个工具：Business Intelligence Development Studio(商业智能开发套件)，使数据仓库实现和OLAP变得更为便捷高效。

3.1 数据的抽取、转换和加载及Cube创建

数据的抽取、转换和加载（ETL）是源数据库和数据仓库之间的桥梁也是数据仓库生成实现的主要步骤。本文采用SQL Server Integration Services(SSIS)服务将包含解析后期刊文献数据的Excel表格导入到已创建的数据库中并创建一个完整的SSIS包，然后将数据装载到期刊文献数据仓库中。数据仓库是在RDBMS中管理的一个结构特殊的数据库，Cube(数据立方)是从数据仓库中提取的全部或部分表构成的多维数据集合，是进行OLAP分析的前提。SQL Server 2008中的Analysis Services是建立和管理多维数据集并对Cube进行分析的工具，在创建时我们先使用多维数据集向导，按照设计文档建立量度、维度，再通过SSAS提供的工具自动生成关系架构，最终自上而下的创建数据立方［8］。至此，期刊文献数据仓库已基本上部署完成了。

3.2 基于期刊文献数据仓库的OLAP

能够进行分析处理是数据仓库区别于传统数据库系统的最主要特征，也是我们设计期刊文献数据仓库的根本目的。OLAP通过多维的方式对数据进行分析、查询和定制报表并以多维视图的形式从多个角度、多个侧面及多个层次向用户展示分析结果［9］。OLAP分析的基本多维分析操作有切片（slice）、切块（dice）、钻取（roll-up）、下钻（drill-down）及转轴（pivot）等［8］。我们以期刊文献数据仓库为平台，利用SSAS服务逐步实现了以上操作。由于篇幅所限，我们仅以切块和转轴操作为例介绍和展示一下OLAP的效果。切块是在立方体中的3个维上取一定区间的属性成员或全部属性成员。如图5中左图所示，我们选取地区、机构和作者3个维度来分析，通过切块我们可以发现地区编号为R43、机构编号为1000099和作者共编号为CA000045等3个维组合的文献数、地区编号R43汇总数以及地区编号R43和机构编号1000099等2个维组合的汇总数。转轴又称旋转，是改变一个报告或页面显示的维方向，它转动数据的视角，提供数据的替代表示。通过进行转轴和旋转操作我们可以灵活的从多个角度观察数据。如图5中的右图所示，通过转轴操作，年编从左侧标注转换到上部标注我们可以更灵活地选取所需的数据。通过这些操作，我们可以根据需要对期刊文献资源进行分析和挖掘从中发现所隐含的信息和知识。

图5 OLAP切块、转轴效果图

4 结束语

随着文献数据库系统的迅速发展，如何对海量增长的文献资源进行分析、开发和利用是亟待解决的问题。本文将数据仓库技术应用于文献资源管理领域，确定了期刊文献数据仓库的特有结构，采用三级规范化维度建模方法设计数据仓库，利用SQL Server 2008平台实现了期刊文献数据仓库原型系统并在其基础之上运用联机分析处理工具进行多维分析，提供多视角查询分析文献数据资源，为科学研究者搭建了一个综合、面向分析的平台。期刊文献数据仓库设计与实现的最终目的是为了对期刊文献数据的知识发现，本文的研究对期刊文献数据仓库建设研究具有一定意义也为今后进行文献知识仓库的构建和知识挖掘奠定了一定的基础。

接下来针对期刊文献资源的分析和挖掘研究还有许多工作要做。目前我们所设计的期刊文献数据仓库还没有考虑参考文献这一重要数据，也没有涉及对文献内容的分析处理。下一步我们将会考虑以参考文献信息为分析对象利用数据仓库技术对期刊文献资源进行引文分析；同时研究对期刊文献内容的知识表示、存储、检索和分析等问题，结合知识元研究理论，以期刊文献数据仓库体系结构为基础构建期刊文献知识仓库，从而进一步实现对文献资源的知识挖掘。

参考文献

［1］徐慧.文献数据仓库系统设计方法［J］.煤矿自动化,2000(1):29-32.

［2］徐彬荣.论文献数据仓库逻辑建模［J］.情报杂志,2005，(4):63-65.

［3］徐彬荣.文献数据仓库新探索［J］.情报杂志,2004，(5):57-60.

［4］O.Kaser,S.Keith,D.Lemire.The LitOLAP project:Data warehousing with literature,in:CaSTA06,2006.

［5］Steven W.Keith.Efficient storage methods for a literary data warehouse［D］.Master餾 thesis,UNB,2006.

［6］邢攸达.港口生产数据仓库设计方法研究［D］.大连:大连理工大学,2007.

［7］邢攸达，王宇，潘明霞.港口生产数据仓库设计与实现［J］.计算机辅助工程,2007,16(4):84-89.

［8］朱德利.SQL Server 2005数据挖掘与商业智能完全解决方案［M］.北京：电子工业出版社，2007．

［9］杨武成，孙俊茹，张武刚.基于OLAP的矿井局部通风系统故障数据仓库的建立［J］.工矿自动化,2008，(3):9-11.