摘 要:为提升渔政服务能力,需要充分利用各种渔业信息化系统产生的大量宝贵的数据资源,建立基于数据仓库的渔业综合平台。文章以渔业综合平台系统为例,构建多层次数据仓库系统体系架构和模型设计。主要包括:多层次的系统数据架构;数据仓库主题模型设计和多维度分析设计。
关键词:渔业综合平台 系统架构 主题模型 多维分析
中图分类号:TP311 文献标识码:A
文章编号:1004-4914(2013)02-065-03
一、引言
(一)数据仓库及其应用
数据仓库的概念产生于20世纪90年代,随着互联网技术的兴起和企业信息化飞速发展,为在激烈的市场竞争环境下获得优势,企业需要基于其大量业务数据对其自身业务的运作以及整个市场相关行业的态势进行分析并做出有利的决策,从而产生了专门为分析统计和决策支持应用服务的、可满足决策支持和联机分析应用要求的数据中心,即数据仓库。在数据仓库基础上,通过数据挖掘、联机分析应用,构建经营分析系统和商业智能系统才成为可能,因此数据仓库系统也被称为企业的“数字神经系统”。由于在促进企业获取商业竞争优势和改善优化决策方面有明显作用,数据仓库的概念一经出现,就首先被应用于金融、电信、保险、零售等主要传统竞争激烈且数据处理密集型行业,数据仓库的建设应用也日趋成熟并进一步向构建动态数据仓库的方向发展。
(二)数据仓库关键技术
1.数据抽取技术。传统数据仓库数据抽取可以定时抽取,动态数据仓库则可以在不影响源系统负荷情况下进行动态抽取。数据抽取工具要满足下述要求:广泛支持各种数据源类型;具有良好的元数据管理能力,能及时发现数据源结构的变动;完善的任务管理能力,能够灵活地制定数据抽取任务的执行策略,管理任务的执行状态等;高效的执行效率,对于特殊的大数据量的处理可能会采用人工开发的方式,以获取最好的效率。
2.分布数据存储和管理。面向决策支持扩充的并行关系数据库将是数据仓库的核心。数据仓库处理的数据量比传统事务处理大得多,且随时间的推移而累积。关系数据库系统目前已发展到支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力,可以管理数百个GB甚至到TB的数据。另一方面跨省中心数据仓库可以采用基于分布式联网的数据库系统,进一步增加系统的可扩展性。
3.并行数据库处理技术。并行处理技术是数据仓库系统性能的关键。在数据仓库系统中,用户访问系统的特点是庞大而稀疏,即联机分析的查询和统计都很复杂,系统需要将所有的处理机调动起来并行处理复杂的查询请求服务。在并行及分布式数据结构中,可采用多个SMP的主机组成集群或分布式联网,通过对数据的分布以及数据库处理的分布,提高整个系统的处理能力。而且在日后系统规模扩大时,可方便地通过增加处理节点的方式扩展整个数据库系统。
4.多维分析模型技术。管理人员往往希望从不同的角度来审视业务情况,比如从市场、时间、地域、功能、利润、余额等来看,即多维分析技术。
多维分析模型技术的关键就是将信息按照多维的模型进行组织,支持切片、分割、旋转,再通过相应的工具如以数字、直方图、饼图、曲线等展现给用户,使得用户可以以灵活、直观的方式分析数据。多维联机分析系统目前有采用多维数据库系统的MOLAP、优化的关系数据库系统的ROLAP和二者的混合系统HOLAP等几种。
5.前端应用工具。数据仓库系统对用户应提供方便的图形化应用工具,除前面提到多维分析工具外,还包括针对决策优化的报表及查询工具等。
考虑到应用环境的多样性,前台应用工具应支持Client/Server、Browser/Server以及Excel等多种应用环境,其中Web前端联机分析工具由于具有跨平台特性使用上更为方便。
二、数据仓库在渔业综合平台系统中的应用
纵观建国以来我国渔业的发展史,渔业从单纯的近海捕捞,到近海、外海、远洋捕捞,再到现代的海洋捕捞和海水增养殖业,渔业的范围在不断扩大,渔业呈现多元发展趋势,逐步形成了以渔业为主,一、二、三产业相互渗透、交叉发展的格局。向科技要效益、强化渔政管理、完善社会化服务体系是当前渔业综合平台的主要任务。渔业信息化建设取得了显著成效,渔业局MIS系统、海上GPS定位系统、电信通信计费服务系统、气象与渔业服务系统、渔政管理系统等已建成并稳定运行。随着这些应用系统的持续运行,渔业部门积累了大量详尽真实的历史数据,各级渔业部门迫切需要对这些数据进行综合分析,从而保障渔民海上作业安全、准确分析渔业资源情况合理利用、科学指导渔业养殖、为政府合理制定渔业政策提供依据。然而,当前这些系统存在着部门自成体系的现象,无法对渔业高层进行宏观决策提供可靠的基础支持,严重制约了高层的分析决策能力和渔业信息化建设。基于海量的业务数据,为高层决策提供支持和分析预测的数据仓库系统无疑成为渔业部门关注的焦点。下文给出渔业综合平台系统数据仓库一种应用设计思路。
(一)系统架构设计
渔业综合平台数据仓库系统的整体框架如图1所示,由四部分组成,分别是业务数据源、数据抽取层、数据管理及使用以及渔政门户,其中业务数据源、数据抽取层以及数据管理及使用构成整个系统的数据中心。
1.业务数据源。业务数据源是整个渔业综合平台数据仓库系统业务数据集合的源平台,包括渔业局MIS系统、海上GPS定位系统、电信通信计费服务系统、气象与渔业服务系统、渔政管理系统等基础应用系统的数据库。这个业务数据源并不是固定不变的,随着新系统的加入,其对应的数据库也可以加入。
2.数据抽取层。在渔业综合平台数据仓库系统建设中,ETL,能够按照统一的规则集成并提高数据的价值。它负责将数据从业务数据源中提取出来,然后进行必要的清洗、转换、整理,最后再加载到主题数据库中,是实现主题数据库的重要步骤。
3.数据管理及使用。数据管理及使用是整个综合平台数据仓库系统建设的核心部分。可包括主题数据库、数据仓库、商业智能等,实现数据的统一保存与管理。
(1)主题数据库是业务数据库中的数据经过ETL工具的抽取、清洗、转换形成的,其主要特征为:面向业务主题。主题数据库是面向业务主题的数据组织存储,是对各业务应用数据进行分析整理而设计的,不是各个业务应用数据原样复制。数据库与渔业管理中要解决的主要问题相关联,而不是与通常的单个业务应用相关联。信息共享。数据库不是对各个应用系统“自建自用”的数据库的彻底否定,而是强调建立各个应用系统集中统一的共享数据库。
(2)数据仓库通常包含全局数据字典(即元数据)、访问工具、数据集市,数据仓库管理几部分。元数据是描述数据库内数据的结构和建立方法的数据,按用途的不同分为技术元数据和商业元数据两类。元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。元数据是数据库运行和维护的中心,数据库服务器利用它来存贮和更新数据,用户也通过它来了解和访问数据。
访问工具为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具等。
数据集市是为了特定的应用目的或应用范围,而从数据库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据库。
数据仓库管理包括:安全和特权管理:跟踪数据的更新:数据质量检查;管理和更新元数据:审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据:备份和恢复;存储管理。
(3)商业智能是通过数据仓库提供的访问工具、决策支持工具OLAP和数据挖掘工具等实现渔业数据的智能分析,包括报表定制、即席查询、预警分析机制等。
4.渔政门户。通过建立渔政门户,渔业综合平台数据仓库系统可以实现信息发布和共享;可以巩固并有效地利用渔业现有的信息资产和H架构投资,并充分发挥这两者的杠杆作用:还能使系统提供的功能和信息更容易获得,更容易为渔民、养殖户、电信部门和气象部门所访问,因此有效地提升了渔政最复杂的后台办公应用系统的价值。一个好的渔政门户必须具有以下五大特点:良好的合作性:强大的整合性;方便的流程管理;全面的内容管理;先进的个性化设置。
(二)数据仓库模型设计
1.模型主题域设计。数据仓库是按照主题来组织数据的,主题的划分是以业务系统的信息模型为依据的,并由主题构成企业运作的框架,是企业信息在较高层次上的综合与归类。确定数据仓库的主题,是数据仓库模型建设的关键。那么如何合理确定主题?
渔业产量、渔民安全和用户满意度是衡量渔政工作的最关键的指标,这就必然首先要求要关注客户(渔民和养殖户),捕捞和养殖产品是盈利来源,因此“客户主题”、“产品主题”和“安全主题”是三个最基本的主题。客户主题是作为数据仓库系统的各种主题中最重要,也是最核心的内容。客户主题中,需要提供的分析主要定位于:有哪些客户、他们关心什么、哪些客户具备相关性、哪些客户的需求类似、客户为渔业收入做出了多大的贡献等等。产品主题中,需要提供的业务分析主要定位于:产品有哪些、产品之间的关系组合怎么样、在产品的质量,产品的销路、贡献度如何等等。安全主题关注的内容就是:海上安全区域,哪些船只发生警报,每年事故率等等。
客户以及客户的需求并不是一成不变的,产品也需要跟踪,因此相应地养殖户和渔民满意度也是衡量系统的重要指标,因此,“满意度”主题也是必须的。满意度主题中,养殖户对气象预报、养殖知识指导、预防措施是否满意,渔民对海上通话、报警是否满意等。
上述四个主题是渔业综合平台常用的四个重要主题域,当然还可以根据需要扩展决策关心的系列主题。
2.逻辑模型设计。确定数据仓库主题后,下一步进行维度分析并采用维度建模方法建立各主题的逻辑模型。下面以客户主题为例说明逻辑模型的构建。客户既是维度,又是主题。客户作为维度,是考察其它主题的基本出发点,体现了“以客户为中心”的宗旨。同时客户又是主题,希望了解掌握与客户相关的各种数据和活动,强化客户至上的原则。客户主题包含的主要实体是客户、用户和账户实体。与客户主题相关维度有:客户类型维、价值级别维、证件类型维、信用度维、价值级别维行业类型维和时间维。客户主题星型逻辑模型如图2所示。逻辑模块根据需要也可以用雪花模型或第三范式设计。星型模型查询效率较雪花模型高。
三、结论
通过在数据仓库在渔业综合平台系统中应用,对渔政工作起到很好的促进作用:整合渔业部门数据,逐步(下转第86页)(上接第66页)构建和完善渔业综合平台。增强了渔业综合平台服务用户的能力,提升了渔业信息化水平。
参考文献:
1.Inomn W H. Building the data warehouse [M].北京:机械工业出版社,2007
2.苏新宁,杨建林等.数据仓库与数据挖掘.北京:清华大学出版社,2006
3.陈文伟.数据仓库与数据挖掘教程.北京:清华大学出版社,2006
4.萨师煊,王珊.数据库系统概论(第三版).高等教育出版社
5.韩峰.基于Oracle的电力营销数据仓库的设计与实现.山东大学硕士论文,2007
6.唐九洲.电信行业经营分析系统数据仓库建模研究.中南大学硕士论文,2004
(作者单位:南京厚华通信设备有限责任公司 江苏南京 210016)
(责编:贾伟)