左荣国
近几年来,随着信息技术的飞速发展,计算机领域积累了大量的数据。从元数据的角度考虑,这些数据仅仅是数据,数据产生后,后续对元数据的再次利用却很少。长此下去,这些数据慢慢就会变成没有用的垃圾数据。人们越来越认识到这个问题的严重性,由此逐渐产生了知识发现技术,也就是数据挖掘的前身。知识发现源自于人工智能的机器学习领域,其实质是在一个已知状态的数据集上,通过设定一定的学习算法,从数据集中获取所谓的知识。而与此同时数据库技术也已经发展到一定的阶段,并得到了广泛应用,各个企业都已经积累了无数的数据资源,迫切需要有一种技术能够帮助他们从数据中发掘出其内在的规律。数据挖掘技术正好能满足这一需求,它实质上就是知识发现技术在数据库领域中的应用,其主要应用领域涵盖了商务管理、生产管理、市场分析、工程设计和科学探索等。因此,可以说数据挖掘是一个从数据到知识的过程。
谈到学习数据挖掘,《数据挖掘:概念与技术》就是一本全面而深入地介绍数据挖掘实用技术的经典教材。本书作者美籍华人韩家炜教授有着丰富的理论和实际经验。在本书中,他从数据库的角度针对数据挖掘是什么、数据挖掘能解决什么问题、数据挖掘的关键问题和数据挖掘涉及的相关技术等问题做了深入的分析,由浅入深地把读者引入数据挖掘这个未知领域。
首先,数据挖掘是什么。书中指出,数据挖掘是指从大量数据中提取或挖掘知识的过程。用通俗的语言说,数据挖掘就像淘金者从石头或沙子中寻找金子的过程。另外一个非常重要的,同时也在本书中进行了详细说明的是,数据挖掘的对象(也就是大量数据)在什么地方?书中指出,数据挖掘主要针对关系型数据库、数据仓库、高级数据库等。对于数据库开发人员,这些都是已经比较熟悉的领域了。而本书中的数据挖掘主要针对的是数据库系统。
其次,数据挖掘能解决什么问题。挖掘来的数据是用来解决企业中的问题的,否则挖掘就没有任何意义了。书中指出,数据挖掘可以被用来进行市场分析和管理、风险分析和管理、缺陷分析和管理等。具体来讲,比如对大学里的学生课程数据,可以用数据挖掘的方式来获得学生姓名、地址、状态和相关课程等信息及其相互关系。
再次,数据挖掘的关键问题。本书从数据挖掘方法和用户交互、数据挖掘的性能以及不同数据库类型的数据挖掘等多角度出发,把数据挖掘做了非常透彻的分解,并对分解后的问题逐一解决。
第四方面,数据挖掘涉及的技术。对于数据挖掘涉及的OLAP和数据仓库、数据清理、数据集成和变换、数据简化、数据挖掘查询语言、数据库支持的数据挖掘规则、数据挖掘分类和预测、数据聚合方法、对多媒体数据库和万维网的数据库挖掘方法等技术,本书作者都从理论和实践的角度作了深入的剖析,让读者不仅知其然,而且还知其所以然。
数据挖掘是可以由多个层面来提供支持的,包括数据库层面、应用程序层面等。当前,包括Oracle、IBM、Sybase和Microsoft等在内的多家数据库提供商都从数据库层面提供了数据挖掘的支持。对于应用层面讲,包括SAS、SPSS、COGNOS等软件在内的应用程序都对数据挖掘提供了很好的支持。本书从理论和实际相结合的角度出发,在书中提供了大量的理论、模型、算法和实际的应用例子,包括多维数据模型、三层数据仓库架构、数据立方体的实际查询例子等。借助本书,读者可以理论联系实际,把数据挖掘的应用提高一个层次。
另外,书中提供了大量的例子、习题以及一些基本概念的比较。如数据库与数据仓库的区别、用于数据挖掘的OLAP与数据仓库技术等。所以,即使您对数据库比较陌生,也能根据本书内容的安排,循序渐进地领悟到数据挖掘的真谛。同时,您可以根据书中提供的习题,检验自己对书中内容的理解。“实践是检验真理的唯一标准”,书中提供的例子在实际开发应用中都会用到,让您不会为了读书而读书。
总之,该书图文并茂,理论联系实际,非常适合从事数据挖掘研究和应用开发工作的相关人员参考书,也特别适合作为高年级本科生和研究生的专业课教材。