杨宗宝
万物皆可云的大数据时代,商业智能技术应用非常广泛,涵盖的行业更是不计其数。为了有助于各企业业务开展过程中数据有效转化为信息,研究商业智能的数据挖掘与元数据管理的发展情况和应用于各行业中的走向,以及数据挖掘和元数据管理之间的关联具有十分重要的现实意义。
本文研究的对象均属商业智能中的核心技术——数据仓库。研究的目的是确定数据挖掘与元数据管理的关联与特征。在广泛收集和查询了国内外相关文献的基础上,为课题研究提供理论框架与方法论,并将数据挖掘和元数据管理的现状及优势展现给大众。
伴随着以电子商务为特征的新经济逐步走向成熟,商业智能已成为企业核心竞争力的重要部分。商业智能将数据挖掘和元数据管理等技术与数据仓库结合起来应用到实际的商业活动,实现了万物皆可云时代技术服务与决策的目的。
商业智能被认为是信息技术发展到一定阶段的结果,也是企业对海量数据进行分析的必然方式,充分利用商业智能技术可以改善企业管理、在更大空间提高企业的竞争力。
一、商业智能发展趋势
商业智能用于有效整理并整合企业现有的数据,在最短的时间内快速准确地提供报表、给出决策依据,帮助企业做出正确且收益最大化的业务经营决策方案。商业智能的作用有三种:分析客户的分类和特点、分析市场营销策略以及分析经营成本和收入。
商业智能处理过程是:收集信息并进行筛选-分析-输出。在互联网普及、科技发达的今天,商业智能发展已成为一种势不可挡的潮流。企业可以通过互联网信息的收集,获取更多的客户信息和交易信息,再通过商业智能技术的应用,将这些数据转化成更有价值的信息,帮助企业高层做出准确的分析与决策。
商业智能除了帮助企业管理人员做出准确的分析和决策,还可以为客户提供各种个性化的服务。这不仅可以给企业带来直接的经济利益,同时也可以帮助客户在最短的时间内购买到最需要的商品。商业智能的发展也必然通过Web和局域网的交互,实现信息与知识的共享。
随着移动互联网的发展,商业智能对包括用户交易数据和行为数据在内的金融数据的采集能力大大增强。金融服务的多样化和市场规模的不断扩大,需要对这些数据进行深度挖掘和分析,从而匹配金融产品的交易需求,发现隐藏的趋势信息,帮助金融机构发现商机。
二、数据挖掘和分析理论及其实际应用
(一)商业智能的三大层次
1.初级层次:数据报表
数据报表是商业智能的基本功能之一,也是三大层次中的初级层次,是企业日常经营的基本措施和途径。这是企业商业智能的基本业务要求,也是实现BI战略的基础。数据报表可以帮助企业收集、处理、分析数据,将数据进行整合,以更可靠、更安全的方式呈现给决策者。与传统报表相比,商业智能的数据报表功能能够处理更大的数据量,处理的速度、安全性都更高。其能防止传统数据的有限性形成的数据孤岛,从而发现潜藏在数据背后的信息与规律。
2.中级层次:多维数据分析
数据分析,就是选择适合的统计分析方法将收集到并处理过的数据进行分析,提取其中有价值的信息,最后形成结论。多维,是一个抽象的词语,比如描述2021年12月份橙子在南部地区的销售额为20万时,就涉及到时间、产品、成本、区域、利润等维度。如果说初级层次能够让决策者直观地看到企业运营情况蕴藏在数据背后的信息与规律。那么,中级层次的多维数据分析就是对数据进行有目的的分析,通过多维度的分析、钻透探索出可能存在的原因。简单来形容,就是带着问题找问题。
3.高级层次:数据挖掘
数据挖掘是从海量数据库中挖掘新的有用知识的一种新兴技术,以满足日益增长的数据所带来的知识发现要求。所以数据挖掘又称知识发现(KDD)。数据挖掘把一些高效的分析算法从平淡的数据里挖掘出有用的模式,它是将海量数据库和有用的知识紧密结合起来,搭建出桥梁结合成体系网。企业利用数据挖掘发现知识的过程通常包括六个步骤:(1)确定商业问题;(2)确定并研究资料来源;(3)对数据进行抽取与处理;(4)数据挖掘,如:找出关联规则或生成预测模型;(5)对数据挖掘结果进行验证;(6)将该挖掘模型运用于商业实际。
(二)数据仓库和数据挖掘之间的关系
数据仓库是企业为了支持决策分析的数据集合。随着时间的变化,其面向的主题、集成、稳定都会发生改变。数据仓库的关键技术包括数据的抽取、清洗、转换、加载以及维护技术。数据挖掘能够从数据仓库中提取和发掘历史数据,并使其转化为信息、知识等。借助于历史数据分析可找出数据内部的宝贵规律。同时,数据仓库又是进行数据挖掘的基础。因为数据仓库的数据是完整的、集成的,它为数据挖掘提供了扎实的数据基础。数据仓库可以为数据挖掘提供需要的历史数据和全面的数据处理、分析等基础设施。
(三)数据挖掘技术的实际应用
1. 数据挖掘技术在零售行业的应用
数据挖掘源于商业中的直接需求,并在众多的领域中拥有广泛的使用价值,同时零售行业也是数据挖掘的主要应用领域之一。
零售行业一般采用广告、优惠券等形式和其他系列让利方式促销,以实现促销产品、招揽客户的目的,最终刺激消费。因此,只有对客户的要求有一个全面的认识,才能精确定位促销对象,提高针对点和减少活動费用。运用数据挖掘技术,能够精确地分析时间、位置、方式和所面对的消费群体等,从而达到促销的目的,避免企业资源利益造成浪费。数据挖掘既能推动对活动有效性的分析,同时,还能利用以往有关促销数据,找到将来投资时收益最高的用户群。
按照经济学二八定律,企业需要准确区别20%和80%客户。只有进行深层次数据挖掘,才能够帮助企业在众多客户中进行分类,找到哪些是20%客户。这点恰恰说明了客户也可以利用数据挖掘达到细分的程度,客户细分化将一个巨大的消费群体逐个细化为无数个小群体,将属于同一小群体的客户相似的消费喜好、消费特征清晰地呈现出来。
零售行业大多采用办会员卡、设立客户会员制度等手段采集客户的消费行为。通过挖掘客户会员卡信息,通常会记录客户消费时的购买顺序,并把每个客户不同时期购买的物品分组成序。在序列中进行模式挖掘,可以应用于客户购买倾向、喜欢商品程度改变等方面。按照这种方法来调整完善商品和价格上的创新花样,并不断地进行优化和提升,这样不仅能保留会员老客户,还能吸引更多新客户。
2.数据挖掘技术应用增强各产业的竞争力
(1)将数据挖掘技术应用到互联网
互联网包含了大量信息,文本、图表、声音等,都是人们所熟知的传媒信息。其次还有链接信息和记录信息。网络检索、网络教育、电子商务等都是在这样一个大信息网上,获得所需的知识与信息。互联网数据挖掘技术向世人充分展示了其优势,在很短的时间里迅速地获得有效信息,提升用户访问效率、集中新用户。
(2)将数据挖掘技术应用到农业
国民经济的基础离不开农业的发展,在农业市场信息中,数据收集多采用进出口贸易仓库数据作为数据源,市场监控信息作为数据库,这样就可以给农业部门提供较为具体的数据信息来指导农业市场开发管理,因此数据挖掘应用于农业也就显得尤为重要且范围较广。
(3)将数据挖掘技术应用到金融業
经济飞速发展的年代,金融领域每一时间都有大量现金流水及数据量产生,因此数据挖掘技术应用于金融业就尤为紧迫。因为在缺乏数据分析的情况下,不可能衡量与评价投资风险,也不可能精准明确金融投资走向。而数据挖掘可以处理已知的数据,方便找到某种事物之间的联系,预测并且避免无谓损失。所以便于在金融领域控制金融投资,监视金融犯罪。
(4)将数据挖掘技术应用到工业生产
众多工厂积累了大量生产数据,而这些数据收纳成数据文件,这其中生产记录等占据了绝大部分,多数文件有可能被闲置起来。数据挖掘技术应用于工业生产领域内部,正好利用这些闲置数据辅助工业生产。
三、元数据在数据仓库的应用管理
(一)元数据的概念
元数据,即所谓“有关资料”,是组织与处理数字信息的基本手段,它为各种形式的数字化信息单元与资源集合提供了规范而通用的描述基准与方法。在数据仓库系统的建立、维护、管理和使用过程中,用以描述实际数据的信息。
(1)技术元数据
技术元数据面向数据仓库系统管理员及系统应用开发人员。旨在让数据仓库系统开发与维护人员更好地完成各种作业。它在管理系统环境下,为系统开发、维护提供支持,也为所有分析、设计、开发及管理人员提供服务,是开发工具、应用程序与系统之间的技术纽带。其主要内容包括数据源元数据和预处理后的数据元数据。
(2)数据源元数据
数据仓库中的数据来源通常并不属于数据系统,所以有必要在不同数据源中统一定义元数据,以实现从数据源中提取整体数据。数据源元数据一般可以分为数据源的数据格式、数据源的所有者、数据源的访问方式和使用限制、数据源的储存平台、数据源的内容说明以及更新频率等等。
(3)预处理数据为元数据
所谓预处理数据是介于数据源与主体数据中间层次的一种数据,对预处理后的数据处理是在数据仓库后台完成的,并且处理量大。例如,保存所有经过纯化的数据、保存海量细节性的业务加工数据、数据仓库数据备份等。所以相关元数据的处理也更加复杂,包括在数据抽取、转换和加载时所使用的各类文件定义;从数据源到不同层次中间视图和主题数据实视图的数据对应;定义数据集;利用统计和更新维护记录来完成数据转换等手段;预处理数据的备份方法;实际数据转换与装载记录。
(二)大数据时代下自动化企业的元数据管理
元数据涉及的商业智能领域很广。在商业智能中的数据仓库、数据挖掘等多方面,元数据贯彻于其中各项目始终。
元数据管理,通俗地说就是管理数据仓库系统的元数据,参与数据仓库系统的每一个环节,并实现系统的各处理单元由元数据驱动等。
元数据平台的功能框架大致可分为元数据源层、元数据获取层、元数据存储层、元数据管理层和元数据访问层。其中元数据源层又可以分为各个不同的源系统;元数据抽取层的适配器可以帮助元数据源层实现元数据的抽取,所抽取出来的元数据存储在元数据存储层中的元数据库中;元数据管理层为元数据提供访问、分析、导入、导出等重要功能需求,以便于元数据管理工具前端、二级数据仓库系统和中央元数据抽取服务器使用。
元数据在数据仓库中处于一个核心地位,对数据仓库的设计、开发、维护和管理具有非常重要的作用。多策略的数据挖掘形成平台,将元数据的使用范围从数据仓库拓展到包含数据挖掘任务等整个系统中,使之成为系统的核心和各个子系统之间连接的纽带。将数据挖掘与元数据管理相结合,保证了元数据的完整性和一致性,更加完善开发元数据维护与分析功能的细致程度。运用数据挖掘等建立更全面的元数据模型,添加更多的元数据分析功能,从而提高系统执行效率。随着元数据管理系统所管理的元数据不断增多,元数据的分析算法与可视化就需要考虑更多的元数据和处理概率增加。
(作者单位:天津理工大学中环信息学院)