周胜利
【摘 要】信息时代的特征之一就是数据的密集爆发,人们积累的数据越来越多,而这种数据的变化没有一个循序渐进的过程,而是呈现跨越式的特征,因此传统的查询、报表工具无法满足挖掘有效信息的需求。从而就需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,即数据挖掘技术。本文深入浅出地阐述了数据挖掘技术的产生,概念以及数据挖掘的常用技术。
【关键词】信息时代;数据;挖掘;分析
一、大数据的定义
所谓“大数据”,一般具有几个特点:首先是数据量很大,已经从TB级跃升至PB级;其次是区别于传统的数据结构,“大数据”时代的数据结构比较复杂,超过80%都是非结构化数据,比如道路上的视频监控数据、网上的流媒体数据、物联网中RFID的感应数据,以及社交网络上产生的各种数据等。这两个特点,给数据存储、管理和挖掘带来了困难。第三,数据更新快,比如视频监控每秒钟都在进行,微博随时都有人在更新;最后,是对数据的随机访问,这些更个人化的数据在存储后被再次访问的时间是不确定的。这两点就要求新的IT系统更够更快地处理数据,并且能够更智能地保存和管理数据。比如在某一天,你需要从监控录像中找出某个人,那么就需要能够迅速地查找、调用、分析之前保存的海量数据。“大数据”的这些特点,对数据搜索及管理提出了更高要求,因为在“大数据”时代只有经过分析提炼的关键数据才有价值。
二、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式,它并不是用规范的数据库查询语言进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
(1)统计学
统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在于处理小规模数据样本采集和小规模数据集处理的问题上。统计学的工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。
(2)模式识别
在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中。模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不总是有意义的。比如,形状上“方”与“圆”的差别就很难说比性别上“男”与“女”的差别大。显然,这其中应当注重其语言的含义。
(3)人工智能
人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式识别和统计学在数学上的精确和要求严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上有很大作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立了关于特定领域知识和数据的已有知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。
(4)数据库
数据库及其相关技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、储存和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中数据的在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据挖掘所得知识支持率的研究是个新领域。
三、数据挖掘技术的方法
数据挖掘涉及的学科领域和方法很多,如多种分类法。根据开采任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据开采方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
四、结束语
数据挖掘技术是一个发展十分快的领域,随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
参考文献:
[1]韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社2007
[2]邓纳姆(Dunham,M.H.)著,郭崇慧,田凤占,靳晓明等译数据挖掘教程[M]北京:清华大学出版社2005
[3]王军.数据挖掘技术[J].计算机世界,1998
[4]朱延劭.科学研究的好帮手[J].计算机世界,1998
[5]唐纪,王景.组合预测方法评述[J].预测,1999