云环境下基于商务智能技术的数字图书馆决策支持研究

2015-07-25 08:16朱东妹
唐山师范学院学报 2015年5期
关键词:数据仓库日志流通

朱东妹

(安徽师范大学 图书馆,安徽 芜湖 241003)

1 引言

随着计算机网络技术的发展,云计算技术已经从概念转变到实际各领域应用中。在数字图书馆领域,中国高等教育文献保障系统(CALIS)三期项目实施过程中的种种新技术、新理念的及时推送,让高校数字图书馆在建设的过程中技术支撑理念发生了突飞猛进的变化,如联机编目系统、公共目录检索系统、中西文资源导航系统、文献传递服务网、集团采购统一平台、数字图书馆解决方案等,各省中心馆及地方高校成员馆可以按需使用面向图书馆的云服务。在这种背景下,高校数字图书馆每一笔图书著录、读者借还等业务数据都记录在数据库中;另外,读者通过网络访问数字图书馆中各种数字资源的信息,也都存在web日志中,日积月累,图书馆中积累了大量的业务数据。那么,如何分析这些数据为图书馆业务、管理和决策服务,以进一步提高图书馆的服务质量,成为图书馆信息化建设的一个重大课题。

2 商务智能

商务智能(Business Intelligence),就是在必要的时间期限内把准确且有用的信息传递给适当的决策者,为其制定有效决策提供支持[1],主要包括数据仓库、OLAP联机分析及数据挖掘等数据处理、分析技术。其中数据仓库技术以关系数据库及分布式处理技术为基础,集成各种异构数据源,多步合并并存储这些数据。其特征是:面向主题的、集成的、非易失的及随时间不断变化的;OLAP联机分析处理技术是数据仓库技术的继续与延伸,其通过多维数据模型实现数据仓库的前端展示,为决策人员提供当前的、历史的情况分析[2];数据挖掘技术与前面OLAP联机分析处理技术有本质的区别,其通过对大量业务数据或数据仓库数据选择并利用各种数据挖掘算法建模,挖掘那些不能靠经验或直觉而发现的信息或知识,所得到的信息具有先前未知、有效及实用等特征[3]。近年来,随着云计算技术的发展,商务智能技术在各领域得到很大的发展。

3 系统研究

基于Microsoft SQL Server 2008的解决方案,介绍商务智能技术在高校图书馆的应用。

3.1 数据仓库建模

Microsoft SQL Server 2008解决方案中提供了包括自上而下和自下而上两种数据仓库建模方式[4]。自上而下的设计方法强调应用决定数据,首先根据大局需求建立数据仓库多维数据模型,然后从业务OLTP系统中抽取所需数据,再进行数据转换,最后加载到各主题的数据仓库中。该方法需要进行大量的业务需求分析,需要大量的时间与用户交流、决策,数据仓库模型灵活性差。自下而上的设计方法从业务OLTP系统中的数据出发,将这些数据元素组织到各个指标及维度中,然后建立数据仓库多维数据模型。该方法见效快,可以并行开发,但是各数据集之间兼容性差,维护、共享困难大。

一个成功的数据仓库系统是一个不断进行反馈的系统,因此文章采用两种方法相结合的设计思路,既根据业务决策需求又兼顾业务系统现存数据情况,进行数据仓库设计与建模。

通过对馆内各部门需求分析,最终确定围绕读者入馆、图书采购、馆藏图书、图书流通、数字资源利用、参考咨询服务等主题来建立多维数据集。多维数据集由事实表和维表构成,其中事实表中包括各维度外键值及度量值,度量是一个用来表达组织某方面效能的数值型的量值,如“入馆人数”“借阅次数”“借阅册数”“资源下载次数”等。度量和维度的存储布局有两种:星型架构与雪花架构。星型架构以事实表为中心,一组维表通过外键与事实表连接组成一个星型结构,该架构是非范式的。雪花架构是在星型架构的基础上对某些维进行扩展,以便更好地描述一些复杂的维度,如在描述读者专业信息维的同时会包括其学院信息,一个学院有多个专业,多个专业会拥有同一个学院,用一个表来描述会出现学院信息冗余,而由两张表来表示是一个比较好的解决办法。本文以其中图书流通分析主题为例,构建其数据仓库模型,如图1所示。

图1 图书流通业务OLTP系统与OLAP系统对应关系

涉及到的图书流通业务OLTP系统关系数据表有读者信息表、图书信息表以及流通日志表。其中读者信息表中“读者记录号”唯一确定一位读者,图书信息表中“文献条码号”唯一确定一本书,通过图书流通日志表将读者和图书两者进行关联,构建事实表;通过读者信息表构建专业、学院、年级及读者流通类型等读者相关维度;通过图书信息表构建图书分类、馆藏地点、馆藏状态及图书流通类型等图书相关维度;时间维度可以自动生成,也可以根据流通日志表中的操作日期信息手动构建时间维度。其中读者专业维与学院维,馆藏地点维与校区维,形成雪花架构。最终在 SQL Server 2008 Analysis Services(SSAS)中构成OLAP系统数据仓库模型,其图书流通业务OLTP系统关系数据表与数据仓库OLAP多维模型对应关系。

3.2 从数据源提取和加载数据

针对数据的提取和加载,Microsoft SQL Server 2008提供了一个名为SQL Server 2008 Intergration Services(SSIS)高性能数据集成和工作流解决方案。通过该方案可以将 OLTP业务系统中的数据抽取到 OLAP系统中,并且可以按OLAP要求转换数据的格式。SSIS项目的基本的执行单元是“包”,一个SSIS项目可以包括多个包。SSIS包主要包括两部分内容:控制流和数据流,其中数据流提供的是数据转换服务,能够完成文本文件、EXCE文件向关系数据库的转换;控制流由一系列任务组成,如执行循环、加载数据、执行 SQL语句等。另外,一个包只有一个控制流,而一个控制流可以拥有一个或多个数据流。

为了将每天产生的流通日志自动地抽取到数据仓库中,创建了图书流通日志SSIS包,该包的控制流中使用了For each循环容器、数据流、执行SQL任务及发送邮件任务。其中通过For each循环容器将每天新增的日志文件插入到 SQL Server中,循环成功则执行后面 SQL任务,不成功则发送邮件给管理员。图书流通日志SSIS包:控制流与数据流图,如图2所示。

图2 图书流通日志SSIS包控制流与数据流图

3.3 视图技术

数据仓库中包含了业务系统中每天产生的大量细节数据,因为整个数据仓库分析系统中有多个主题,每个主题都对应一个事实表,在不同事实表构建的过程中,为了避免大量数据的重复存储,本文中采用了视图技术。视图作为数据库中的一种实体,实际上存在的只是它的脚本,而它的内容并不真正的物理存在;它是一个虚拟表,表中数据来源于查询脚本中所引用的表,并且在引用视图时实时并动态生成。如可根据读者信息表、图书信息表、流通日志表之间的关系,构建图书流通分析主题的事实表视图语句。

3.4 粒度的级别

确定粒度是数据仓库开发者需要面对的又一个重要的设计问题[5]。粒度是数据在数据仓库中保存的细化级别,影响存放在数据仓库中的数据量的大小及查询问题的细节程度。粒度越大,综合程度越高,细节程度越低,回答查询的种类就越少;粒度越小,回答查询的种类越多,但是会降低查询效率。通常按时间段综合数据的粒度[6]。

每年本学校图书借还系统中产生约1 200 000条借还记录,根据实际分析需要和系统中产生的记录条数,我们采用了多重粒度级别,如图书流通分析主题中对最近一学年的数据采用最低级别,从专业和图书小类两个维度进行聚集,可以进行按日汇总的信息分析;对超过一学年,四学年以下的数据,又从操作时间上进行了月份级别的聚集,对超过4年以上的数据,在操作时间上进行了年度级别的聚集。从而达到提高查询速度及细化分析结果的目的。

3.5 多维数据集的实现与设置存储格式

通过SSIS集成服务将业务数据抽取、转换及加载到数据仓库之后,下一步需要根据不同的分析主题建立多维数据集。打开Microsoft Visual Studio建立Analysis Services项目,连接数据源,并且建立数据源视图,即可建立不同主题的多维数据集。建好多维数据集后本应用选择了三种存储格式中的MOLAP存储格式,对立方体进行处理,MOLAP能够自动地建立索引,有良好的预计算能力,支持高性能的决策支持计算,建立的图书流通分析多维数据集,如图3所示。通过对不同主题多维数据集的建立可以大大加快工作中的统计分析的速度,并且可以从多个角度进行查询统计,很好地解决了图书借还业务系统中统计难、速度慢的问题。

3.6 数据挖掘

除了多维分析外,SQL Server 2008 Analysis Services(SSAS)还提供大量数据挖掘算法。利用不同的挖掘算法可以较好地解决诸如读者的需求分析和个性化服务、借阅规律分析、各种数字资源利用情况及馆藏建设等问题。图4为利用关联规则挖掘算法,对图书借阅过程中,读者专业与图书类别之间联系的描述。将2011级本科学生在2012年~2014年借阅图书数据作为训练数据进行挖掘,得到读者专业与图书类别在借阅规律上的逻辑关系,如从挖掘结果中可以看出,本校 TP类图书在2011级本科中借阅最多的是生物科学专业学生,而不是计算机专业学生;F7贸易经济类图书,是汉语言文学专业的学生借阅最多等。

因此通过数据挖掘可以发现隐藏在数据里面一些不易被工作人员日常工作中发现的读者借阅规律,运用这个规律可以更好地进行各专业读者借阅习惯进行分析与预测,以便为读者提供更多更优质的服务。

4 结语

图3 图书流通分析多维数据集

图4 关联规则挖掘结果

在当今前所未有的信息时代,知识的获取将成为最终目标,而对图书馆各系统中产生的信息处理和利用能力的强弱是决定图书馆服务质量的关键。这就需要一种快捷有效的方式发现隐藏在庞杂信息当中的模式和知识,以便决策[7]。依据商务智能工具,能够帮助图书馆循序渐进地实现商务智能,辅助图书馆管理者做出有效决策。

[1] Brian Larson.商务智能实战[M].北京:机械工业出版社,2011:7-300.

[2] 池太崴.数据仓库结构设计与实施[M].北京:电子工业出版社,2005:1-200.

[3] 蒋盛益,李霞,郑琪等.数据挖掘原理与实践[M].北京:电子工业出版社,2011:6-7.

[4] 刘玉红,罗晓沛.航空票务系统OLAP数据仓库设计与实现[J].计算机工程与设计,2009,30(2):345-347.

[5] 吕海燕,车晓伟.数据仓库中数据粒度的划分[J].计算机工程与设计,2009,30(9):2323-2328.

[6] 张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2011:28-29.

[7] 殷利艳.信息资源可视化研究初探[J].唐山师范学院学报,2009,31(2):156-157.

猜你喜欢
数据仓库日志流通
富“鳜”逼人!标鳜最高38元/斤,订单去到39元/斤,流通商疯狂抢订!这条鱼成“抢手货”
一名老党员的工作日志
基于数据仓库的数据倾斜解决方案研究
扶贫日志
圣物的流通——蕃尼古道上的尼泊尔鎏金铜佛流通考察
基于数据仓库的住房城乡建设信息系统整合研究
雅皮的心情日志
雅皮的心情日志
“流通空间”的中西方比较
探析电力系统调度中数据仓库技术的应用