数据挖掘作为交叉学科的特点

2017-04-20 14:32赵义军商梦娇
时代金融 2017年9期
关键词:机器学习数据仓库数据挖掘

赵义军+商梦娇

【摘要】本文主要讲述了数据挖掘的内涵以及作为机器学习,数据仓库,统计学,智能决策等多个学科的交叉学科的特点。

【关键词】数据挖掘 机器学习 数据仓库 统计学 智能决策

20世纪90年代后期,信息技术、计算机以及网络技术迅猛发展,人类社会从此迈进了一个崭新的数字时代。但是,精彩纷呈的数据也带来了利用这些数据的烦恼,怎样才能充分利用这些数据,怎样才能从中得到最有价值的信息,是我们共同的目标和心愿,而数据挖掘技术的出现,则在很大程度上解决了这些问题,使大数据时代迎来了一个春天。

一、数据挖掘的内涵

大多数人认为,数据挖掘(data mining)的概念最早是由1995年Fayyad在知识发现会议上所提出来的,他认为数据挖掘是一个自动或半自动化地从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模型的复杂过程[1]。在实际问题的解决过程中,人们慢慢总结出数据挖掘的真正内涵,那就是,数据挖掘是一项以发现数据中有价值的模式和规律为基本目标的独立的数据组织和协作的建模历程。数据挖掘是为发现大规模数据中所隐藏的有意义的模式和规律而进行的探索、实验和分析。数据挖掘是一门需要结合各行各业领域知识的交叉学科。

二、数据挖掘的特点

数据挖掘作为一种新型门类,自然有它自己独特的特点,但是它并不专属于某一个学科门类,而是多种学科的交叉,相关的学科包括机器学习,数据仓库,统计学,智能决策等多个学科,接下来文章将要讲述数据挖掘作为一种交叉学科在各个学科中的应用中所表现出来的特点。

(一)数据挖掘与机器学习

当数据挖掘在机器学习相结合时所体现出来的主要特点是强调数据的特点和分布,有严格的原则和方法。这个特点主要是在机器学习在大数据库上的应用上来体现的。

根据Tom Michael于1997年提出的定义,机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序。从这个定义我们可看出所谓的机器学习的算法旨在存在经验观测的领域中提出解决工具来为缺乏理论模型作出指导。然而早期的机器学习并非是把原始的经验观测输入,而输入的是经验中的规则,进而学习算法就是基于规则分析的基础上形成的。但是随之而来的问题也出现了,随着经验观测的量越来越大,要求学习算法不仅要分析规则,更要去理解有意义的规则,甚至还要去考虑经验观测的存储格式问题,例如销售业中各个销售分店的位置定位问题,图像库中与指定图片匹配的跟踪问题,遗传病在一个家庭中蔓延的基因等等,这些问题通常需要涉及大范围而且多个角度的数据采集,由于诸类原因,伴随产生了很多棘手的问题,比如信噪比较低,模式结构不明等问题,这就需要人们从大量数据中通过建立模型认识数据内在结构和规律的解决思虑和算法设计也纳入到机器学习的研究范围中,这时数据挖掘便开始发挥它的作用。机器学习的结果是产生新的处理数据的算法,机器学习在大数据库上的应用就是数据挖掘。任务、训练数据和实施性能是构成机器学习的三个基本要素,而机器学习的结果就是产生新的智能处理数据的算法,显然,这就是数据挖掘与机器学习之间的内在联系。

一个机器学习的算法由5个方面构成:

①任务:算法的目标,简要的如分类,类聚等;

②模型或模式的结构:线性回归模型,高斯混合模型,图模型等;

③得分函数:评价模型或算法优良性的函数,比如敏感度,BIC等;

④达到最优结果的途径设计:达到方法最优的参数估计计算算法,最速下降,MCMC等;

⑤数据管理技术:数据的保存、索引和提取、展现数据的方式,特别是数据量较大的时候存储的设计等[2]。

由此可以看出,数据分析和机器学习之间既有联系又有区别,机器学习产生的算法称为“直升机型”程序,因为其核心是任务和任务完成的质量。这种算法的优点是其算法具有很高的效率,可以突出问题的重点,缺点是对数据特点的灵活性考虑不周,使算法很容易受到外界因素的干扰,其自主调节性能也就很弱。数据分析在机器学习中的应用则很大程度上解决了诸类问题,因为数据分析强调数据的特点和分布,并且有严格的原则和方法,强调建模过程和统计设计,这时数据分析的优势和特点也就显现出来。

(二)数据挖掘与数据仓库

当我们进行数据挖掘技术时要先把数据从数据仓库中拿出来,放到一個专门的数据库或者数据集市中进行数据挖掘,我把数据挖掘这个特点总结为间接性。

那为什么不能在数据仓库上直接挖掘,非要先把数据放到另一个数据挖掘库或者数据集市中去挖掘呢?到底能不能直接在数据仓库上直接挖掘呢?答案是肯定的。首先来说,数据挖掘是可以直接在数据仓库上进行的,除此之外,如果直接在数据仓库上挖掘的话,还有一定的好处,数据的不一致问题得到解决,因为数据挖掘是首先要进行数据清理工作,不但要对数据挖掘的数据进行清理,而且还要对数据仓库中的数据进行清理,因此可能会导致数据的不一致问题出现,如果是在数据仓库中直接挖掘的话,则避免了这一问题的出现,如果数据在导入数据仓库时已经进行过清理工作,那么将数据导入数据仓库后就没有必要在进行一遍清理工作,而是在数据仓库中直接进行数据挖掘,这样一来就避免数据不一致的现象,也省去了很多了时间,但是我们忽略了一个问题,那就是,没考虑到数据仓库的计算资源量的问题,当一个数据仓库的计算资源和充足的情况下,完全可以直接在数据仓库上进行数据挖掘,但是,如果数据仓库的计算资源不充足,那数据挖掘工作则无法完成,这时就需要另外建立一个数据挖掘挖掘库或者是数据集,这类问题则迎刃而解了。

(三)数据挖掘与统计学

随着社会的进步,人们对生活和工作提出了越来越高的要求。很多时候需要人们去建立模型来解决较为棘手的问题,并且还要做出相对准确的预测,数据挖掘和统计学这两门学科都是致力于模型发现和预测,在模型发现和预测方面,数据挖掘较统计学而言的显著特点就是数据驱动。

与数据驱动相对的是经验驱动,所谓经验驱动强调先有设计然后通过数据来验证设计的合理性,统计学在应用的过程中显然是经验驱动,在经济以及社会问题的研究中,统计模型常常以经验验证和理论证据的角色起作用,而数据挖掘则不然,大数据分析需要的是建模过程,更强调的是数据驱动的分析。经验驱动还是数据驱动可以作为数据挖掘和统计学这两个学科的基本区别。除此之外这两门学科还有其他的不同點,在处理问题的类型方面,传统的统计学善于处理结构化的问题,而数据挖掘则善于处理非结构或者半结构化的问题,传统统计学所使用的主要方法论是估计与假设检验,而数据挖掘所使用的主要方法论是探索、推断与评价,下面来看看分析的目标和数据来源方面,传统的统计学是预先定义目标变量,设计抽样方案来收集数据,而数据挖掘则是探索目标,与目标分析结合观测数据,接下来看两者收集的数据特征,传统统计学收集来的数据集较小,具有同质性,静态,主观性强等特点,而通过数据挖掘收集来的数据来源广泛,数据量大,具有异质性和动态的特点,传统统计学的分析类型确定,变量个数小,信噪比较强,而数据挖掘的分析类型不确定,通过探索性分析来确定,变量个数很小,信噪比较弱。

现代统计学已经将数据挖掘作为其中的核心内容,高维变量建模问题、多模式建模问题、复杂网络建模、非参数建模等技术发展很快,为数据挖掘源源不断输入新的血液。

(四)数据挖掘与智能决策

数据挖掘是以解决问题为导向的数据综合利用技术,而智能决策作为企业辅助决策的动能与数据挖掘相结合会促进企业的有效发展,此时我把数据挖掘所体现出来的特点称为可预测性。

在这个经济全球化的趋势下,各行各业拥有者越来越多的机遇,同时也面临着越来越多的挑战。正在成长期的企业需要正确把握效率与发展的平衡,这就需要肩负重任的企业家有洞察新问题的能力和谋求新发展的战略思考。于是在各大企业做决策时将会面临着各种问题和困难,于是对他们提出了更高的要求,这时数据挖掘就起到了很大很重要的决定,它可以帮助人们做出尽可能正确的决定,给企业创造更大的利润。数据挖掘与智能决策时如何相结合的呢?当企业要做出重要决策时,并不总是直接从原始的运营数据中找出有用的信息,而是从原始数据中按照一定的顺序,经过加工、整理和分析即数据挖掘之后,从中提炼出更加清晰和有层次的信息,而这些信息往往是启发企业延伸思考和最终形成明智稳妥的密钥。

常见的数据挖掘与智能决策相结合的案例如下:

第一,2015年,长虹启动用户标签管理系统,深入洞察用户行为、偏好以及产品诉求等各方面特征。用户标签系统与400客服中心对接后,售后人员可提前了解用户购买产品偏好等各方面信息,延保服务销量增加了80%。

第二,德国宝马汽车公司以大数据为基础建设,并大量借助与第三方供应商。2016年4月宝马又与微软合作,希望借助微软Azure云计算平台以及微软数据库和机器学习功能,为宝马用户提供路况、导航等应用,从而提高用户体验。

第三,当顾客向BELL公司投诉电话使用中的问题时,该公司决定派怎样的技术人员去解决这个问题,1991年主体解决方案是专家系统。1999年则利用数据挖掘创建匹配规则,学习得到的规则每年为BELL公司节约1000多万美元,因为专家系统难以有效维护,而学习得到的系统却通过实例训练得到,因此降低了维护成本。

综上所述,不管是在自然领域还是在社会领域,信息网络技术已经为我们缔造了一个巨大而神秘的大数据世界,这就需要用我们的智慧来迎接这个大数据时代向我们发起的挑战,进而激发了我们人类对自然对社会的更深层的探索,并且产生了由衷的敬畏之情,需要我们用宽广的胸襟接受自然的考验,这就是我们为什么要进行大数据分析的原因。

参考文献

[1]Usama M.Fayyad,Ramasamy Uthurusamy(Eds.):Proceedings of the First International Conferenceon Knowledge[J].Discovery and Data Mining(KDD-95),Montreal,Cnnada,August 20-21,1995.

[2]王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013.

作者简介:商梦娇(1992-),女,汉族,山东德州人,山东科技大学在校研究生,研究方向:计算理论与数据处理。

猜你喜欢
机器学习数据仓库数据挖掘
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究