大数据时代的数据挖掘

2014-01-06 03:44张建业
中国科技信息 2014年23期
关键词:数据仓库数据源数据挖掘

马 斌 周 平 张建业 卿 松 李 猷

1.国网新疆电力公司信息通信公司;2.新疆信息产业有限责任公司;3.国网新疆电力公司

通过分析大数据外显的规模、种类、变化频度和价值密度等特征,提出采用数据挖掘技术解决海量数据的分析、集成、共享等问题,阐述了数据挖掘技术的概念,数据准备、数据挖掘及解释评估等三个过程,详细论述了数据挖掘的方法,以及在大数据智能分析中的实现技术。

概述

企业在信息化建设中,重点关注的是信息系统对现有业务的支持,对业务流程的自动化处理,而没有意识到隐含在数据中的商业价值,在管理上缺乏对大数据的应用,导致企业管理高成本、效率低的局面。其次,由于政策原因很多大企业没有意识到大数据技术的迅猛发展,在信息化建设中再次处于落后状态。

信息技术的迅猛发展从某种程度上促进了企业集约化与精细化发展,企业对于信息技术亦愈发重视,对数据的价值和需求越来越高,原有的信息技术手段与传统的数据处理方式已成为飞速发展的瓶颈。随着数据呈几何倍数爆炸式的增长,数据的规模、种类、变化频度和数据的价值也发生了巨大的变化,因此数据的研究方法、手段和观念也发生了变化。企业亟须通过信息技术手段解决和消化数据,消除企业内部的资源共享壁垒,实现数据的共享与融合,因此借着大数据、云计算的发展,结合数据挖掘的研究方法,采用新的信息技术解决海量数据的分析、集成、共享等问题。结合行业的特点及目前工作的特征,解决用户多种形式、多数据源的集成需求,快速响应用户,提高用户感知度,降低数据集成的复杂度和操作难度,深度挖掘潜在业务数据价值,反相分析业务结果数据的业务关联关系,重塑业务流程,提供切实有效的业务数据质量检查、业务数据关系检查的工具,提高业务数据质量,提高业务水平。

实现大数据分析技术,企业需要解决如下问题:1.统一数据源:整合异构系统的数据资源形成共享数据源,通过转换工具统一数据格式,实现数据交换、数据采集和数据分析的基础资源;2.清楚需求目标:认识企业自身发展对数据对象的需求,对数据对象进行有效分类,确认分析结果的商业价值;3.数据挖掘选型:针对不同数据对象类型和分析过程,选择合适的数据挖掘技术,对大数据进行分析。

数据挖掘技术

数据挖掘的概念

数据挖掘是从现有企业信息系统长期积累的大量业务数据中,按照企业发展需要整理数据、分类存储、按规则提取、按目标模型分析,最终获取隐含在杂乱无序的大数据中的有效信息和知识的过程。

广义上,数据挖掘是基于一些事实或观察数据的集合中寻找一定模式的决策支持过程。对于企业,数据挖掘的对象数据主要包括两部分:一是信息系统长期保留在数据库中的业务数据,通过这些数据的挖掘和分析,能够为企业管理提供决策支持;二是互联网上的用户数据,其目的是通过挖掘分析获取用户行为习惯,以便调整企业服务模式来迎合用户需求。数据挖掘提取的知识通常表示为概念、规则、规律、模式、约束、可视化等形式,可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。

数据挖掘的过程

数据挖掘过程是基于对数据对象的深刻理解基础之上,为数据对象有针对性的选择数据挖掘方法。因此,充分了解业务领域的前提下,掌握行业数据对象的背景知识,明确数据分析的目的,将数据挖掘方法、统计分析技术与专业领域知识技术相结合,才能体现出数据挖掘对企业的应用价值。

图1 数据挖掘过程

图2 数据挖掘的体系结构

数据挖掘过程一般由三大阶段组成:数据准备、数据挖掘及解释评估。数据挖掘可以描述为这三个阶段的递归过程,如图1 所示。

数据准备过程(数据源的集成、数据的选择、数据的预处理)的优劣,对数据挖掘的准确度、效率以及最终采用挖掘模式的有效性都有影响。该阶段主要完成的工作包括:数据集成,实现数据对象整理、清洗等;数据选择,根据商业需求分类和提取数据集合;数据预处理,检查数据的完整性和一致性,目的是消除数据中的非主体数据;数据转换,是完成数据从数据源向目标数据仓库的转化过程,是将数据值按照目标数据的属性分组分类,包含数据转换过程中需要的计算组合等操作。

数据挖掘通过选定的数据挖掘模式,从海量数据中多次提取并转化为用户需要的知识。解释评价是根据最终用户的决策目的对所提取的知识进行多次清洗与分析,将最有价值的信息甄别并提取出来,提交给最终用户。

图3 BI 实现流程

数据挖掘的体系结构

数据挖掘系统一般可以分为如下三层结构,如图2 所示。

第一层既数据源层,包括传统的数据库集合、外部的具有一定格式的数据资源等以及数据仓库集合。数据的挖掘是否需要建立在数据仓库的基础上一般需要视实际情况与具体需求而定。如果实际情况与需求允许,使用数据挖掘技术与数据仓库协同工作,将会大幅度的提高数据挖掘效率;第二层是数据挖掘的工具,利用数据挖掘方法(常用的方法包括聚类分析、分类分析、关联分析等)分析各数据源中的数据,通过ETL 工具将数据进行多次清洗与转化;第三层是用户界面,可以通过可视化工具将获取的最终信息展示,更好的让用户理解和观察。知识库是用于存放专业领域知识,按照各专业领域建立的主题库,为后续的数据分析指导准备或数据挖掘结果的评估。

数据挖掘在BI 的应用

BI(Business Intelligence)即商业智能,是目前流行的词汇,是数据采集、转换、分析与预测、展示这一整套完整的过程实现,是数据挖掘与企业已有信息系统支撑的关键业务职能和流程充分结合,以企业商业目标为导向的普适方案。整个BI 的流程如图3 所示。

ETL 是对企业数据进行数据抽取、转换、装载的过程,负责将企业各类业务信息系统数据源中的数据,通过数据中心ODS 层抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础。BI 的难点不是技术,而是对于业务的深刻理解,将业务与技术结合,建立正确的模型,才能实现真正意义上的商务智能。

结语

通过技术手段获取海量业务数据中隐含的商业价值,为企业的经营决策提供支撑,是当前企业信息系统深化应用的研究热点。本文详细论述了大数据挖掘技术的概念、体系结构和实现方法,阐述了数据挖掘技术在商业智能中的应用。基于大数据的分析技术是当前研究的热点,必将对企业信息系统的深化应用产生积极推动作用。

猜你喜欢
数据仓库数据源数据挖掘
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
基于真值发现的冲突数据源质量评价算法
WONCA研究论文摘要汇编
——初级保健晚期疾病患者照顾者的识别障碍:3个数据源的三角化测量