基于BI的图书馆信息实时分析系统

2009-11-19 09:16康晓丹季颖斐高海峰
现代情报 2009年9期
关键词:商业智能

康晓丹 季颖斐 高海峰

〔摘 要〕本文介绍了商业智能(BI)的基本概念,逻辑组成和主要工具,其中着重介绍了联机分析处理(OLAP)技术。探讨了将BI技术用于图书馆用户行为分析的可行性,提出了搭建用户行为实时分析系统的方案和步骤。最后介绍了使用Cognos BI工具搭建上海大学图书馆用户行为实时分析系统的实践。

〔关键词〕商业智能(BI);实时分析;Cognos

〔中图分类号〕C931.9 〔文献标识码〕B 〔文章编号〕1008-0821(2009)09-0079-04

The Real-time Analysis of Library Information System Based on BI

——Build a Library User Behavior Analysis System with CognosKang Xiaodan Ji Yingfei Gao Haifeng

(Library,Shanghai University,Shanghai 200444,China)

〔Abstract〕The article introduced the base concept and main components of Business Intelligence.Then it focused on introducing the important technical of BI-OLAP.The article discussed the feasibility of the user behavior analysis in library by using BI technical.It made a proposal of how to build a system for the real-time analysis of the user behavior in library.At last the article introduced the practice of building the system for the real-time analysis of the user behavior in Shanghai university library.

〔Key words〕Business Intelligence(BI);real-time analysis;Cognos

在最近十年中,各高校图书馆纷纷建立了本馆的图书馆信息管理系统。这些系统记录本馆的书籍采购信息,藏书信息,书籍借阅信息,甚至有些馆还将门禁系统与图书馆信息管理系统整合起来,真正达到了信息系统的统一。这些系统记录了大量的读者行为信息,但缺乏一种有效的利用方法和手段。如何有效的利用这些信息,以达到为读者服务的目的,成为目前图书馆工作者需要关注的问题。

图书馆信息系统记录大量的读者行为信息,比如借书的次数,借书的类型,借书的平均时间。通过分析这些信息,可以获得大量对提高服务质量有帮助的信息。在分析用户行为信息方面,商业领域通过BI技术的应用,领先了一步。

1 BI概念介绍

BI是Business Intelligence的缩写。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

因此把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。

2 BI功能模块的介绍

2.1 BI的功能模块

BI由数据展现层,数据分析层,数据挖掘层,数据存储层构成,包括以下功能模块:

终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适应于专业人士的成品报告生成工具。

联机分析处理(OLAP)工具。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析。

数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。

数据仓库(Data Warehouse)和数据集市(Data Mart)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。

2.2 OLAP技术简介

OLAP技术是BI的核心技术,它从观念提出到实用也经历了漫长的过程。联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理(OLTP)明显区分开来。

当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易,图书馆管理系统数据录入。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。

钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有2个,则是切片;如果有3个,则是切块。

旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

2.3 主流BI工具

由于BI正逐渐成为IT系统中不可缺少的一环,所以许多公司开发出了BI的专用工具。主要有Cognos,水晶报表(Crystal),微软的Micro Strategy,Oracle Data Warehouse工具,BO(Business Object),BRIO等。

3 基于BI的图书馆用户行为分析

从上世纪90年代起,几乎所有图书馆都部署了如图书馆管理信息系统,图书信息联机查询系统,门禁系统等多样的IT系统。这些系统一方面有效的提高了图书馆的工作效率,为广大用户提供了方便,另一方面也产生了大量用户行为数据。如何利用这些数据为图书馆的管理提供决策支持分析,就显得极为重要。

将BI系统引入图书馆,图书馆管理人员首先通过数据建模,建立图书馆用户行为分析模型,使用BI系统根据数据模型的需要,获取数据,清洗数据,转化数据,展现数据。从而达到动态分析的目的。

3.1 数据建模

数据建模是BI系统搭建的一个重要过程,也是决定一个BI系统成功与否的重要过程,在建模之前,应该从业务部门和决策部门获取相关有效信息,包括:能提供的数据源以及决策部门所希望获得的动态分析结果。建模的整个过程如图1所示。

3.2 数据获取

在完成数据建模后,可以通过抽取工具,从现有的图书馆管理系统,门禁系统等IT系统中获取用户行为信息的原始信息。将这些IT系统的数据库作为数据源,抽取有效信息的表。例如可以将管理系统中借书信息,门禁系统中用户进入信息等数据从其原始数据源中抽取出来。

3.3 数据清洗

在获得原始数据后,由于原始数据包含了很多没有价值的,与客户需求无关的数据,我们定义其为“脏数据”,必须对这些原始数据进行清洗后才能被分析系统所使用。数据清洗将去除原始数据表中多余的字段。

3.4 数据转化

经过数据清洗后,我们获得了干净的数据,但这些数据仍不能直接使用,需要根据前端数据展现需求将其转化为前端展现可以直接读取的数据。数据转化包括数据合并,数据链接等多种手段。

3.5 数据展现

数据展现是BI系统的重要环节之一,它需要将前面各阶段获得的数据有组织的展现给业务的决策者。并允许使用者自主的使用钻取,切片,切块以及旋转等手段去使用这些数据来进行决策支持。

4 基于Cognos的图书馆实时信息分析系统实践

Cognos是一家专业提供BI支持工具的公司,目前属于IBM旗下。Cognos的Power Play是业界比较流行BI系统解决方案。拥有以下特点:

(1)轻量级BI工具,快速部署;

(2)友好的用户界面;

(3)简便直观的显示方式和趋势分析;

(4)多种手段的展现方式;

(5)简单易用的建模工具。

基于Cognos以上优点,将它作为图书馆实时分析系统的解决方案平台的首选。

4.1 系统建模

数据源定义:数据主要来源于馆内使用的Horizon管理系统和门禁系统。

决策分析需求:馆内图书某一时间段内的借阅量,某一类书籍借阅用户的分布;某专业学生借阅书籍类型分布;某专业学生使用阅览室类型分布等。

建模:根据业务部门提供的数据源以及决策分析需求,对数据表进行分析,并找出关联字段,建立链接,进而通过Cognos的建模工作Framework进行Cube立方体数据模型。如图2所示。

4.2 数据获取,清洗和转化

根据数据模型,设置BI系统的数据源,将HORIZON系统和门禁系统数据库设置为数据源定时抽取数据。

将抽取的数据根据模型需求进行清洗,只保留与决策业务分析有关的数据字段。

将清洗后的数据,根据字段关联,进行数据合并,整理出书籍情况基本表,学生情况基本表,借阅情况基本表,分析基本表等多个基本表,然后通过学生ID,书籍ID,等关键字段进行数据表关联。

4.3 数据展现

根据决策需求,将组织化的数据,以多维的形式展现给业务数据决策使用者。可以通过学生分布,书籍分布,馆藏资源使用分布,借阅时间分布等多个维度进行数据的钻取,切片,切块以及旋转。以最大程度的满足决策者的需求。其中查询界面如图3所示。

5 结 语

目前在图书馆使用BI技术搭建用户行为分析和决策支持系统还处于起步阶段,各种理论和解决方案也都在探讨过程中,希望通过上海大学图书馆在这方面的实践工作为这一领域的研究和发展提供借鉴。

参考文献

[1]熊继佑.浅谈商业智能[J].计算机与现代化,2003,(8):23-24.

[2]王冬梅,等.智能企业门户的关键技术研究[J].情报科学,2008,(7):1085-1090.

[3]刘业政,胡剑.商业智能的核心技术及体系结构研究[J].合肥工业大学学报:自然科学版,2004,(8):882-885.

[4]范方.数据挖掘技术在CRM中的分析应用[J].大众科技,2008,(7):32,31.

[5]王晋.数据挖掘技术在电信企业客户关系管理中的应用研究[D].兰州理工大学,2007.[6]郑永彪,肖荣阁,等.商业智能在企业中的运用及发展趋势初探[J].现代管理科学,2008,(8):63-64,101.

猜你喜欢
商业智能
什么是商业智能?它的定义和解决方案
关于实时商业智能的文献综述
商业智能在当下出版社中的运用
广东省高速公路联网综合信息商业智能系统