王 旭
摘要:数据挖掘,是指从大量、不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取隐含在其中的,人们事先不知道但又是潜在有用的信息的过程。数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快。在各行各业,各个领域发挥了巨大的作用。
关键词 :数据挖掘技术;应用
1 数据挖掘技术简介
近年来,随着科学技术飞速的发展,各行各业都迅速发展。与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。随着信息技术在各个领域的普遍使用,人们在社会信息化的进程中已经建立了数以百万计的数据库系统。但是面对不断增加的海量数据,人们不再满足于数据库的功能。其实,这类数据有如矿藏资源一样,通过挖掘,还可产生知识和财富。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题。
概念
数据挖掘(Data Mining,简称DM),就是从大量数据中及时有效地提取隐含其中的、未知的、有用的、不一般的信息和知识。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中"挖掘"更多知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD)。
数据挖掘的一般过程
(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。
分类
按数据源分类,有关系数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的数据挖掘、Web数据挖掘、各种专用数据库(空间、多媒体等)的数据挖掘等。按所发现的知识类别分类,有关联规则、时序规则、转移规则、分类分析、聚类分析、趋势和偏差分析等。
2 数据挖掘技术在各领域的应用
2.1 在军事科研上的应用
数据挖掘技术最早应用在天文学上。由机器学习、类型辨识及统计等技术,在短短四小时内所发现的行星胜过20多位天文学家4年的研究成果。数据挖掘技术不断地为科学研究寻找突破口。为气象的研究,生物技术的研究等提供了有力的工具。
在现在战争中,信息化战场是战争的重要组成部分。数据挖掘之所以被广泛运用于信息化战场,就在于其具有预测和描述两大功能。预测是根据已有的数据模样和专家知识建立识别模式,预测其趋势和结果。信息化战场由一系列瞬时事件组成,数据挖掘能发现已有的数据库与新近发生的战场事件间的联系,预测将要发生的事件,这对夺取战场决策优势和行动优势至关重要。描述是信息推演信息,揭示已有信息更深层的内在表达,指从现实数据库中发现和抽取未知的、有价值的和可理解的模式。信息,既反映表象,又反映本质。只有把信息放在相关联的环境中,通过挖掘发现反映事物本质的真相。
伊拉克战争开始前,美军就利用其高技术信息情报手段,对伊拉克进行了长期、全面和深入的监视与情报收集工作,掌握了大量政治、经济和军事情报。以此为基础,通过数据挖掘,美军对各种作战方案进行了充分论证和演练。战前,美中央总部还利用数据挖掘等技术制定了“联合一体化目标清单”,其中包括多达25240个攻击目标,仅针对伊领导集团及其控制能力的目标就有4559个。在战争中,美利用庞大的情报侦察网继续大规模收集情报,并与以前数据库融合,挖掘出许多新的信息,预测敌方可能的行动,为其让世人惊异的高速突击作战提供了有力保证。
2.2在教育、医疗服务上的应用
目前,我国大中型医院都建立了医院信息系统(HIS),它可以对大量医疗数据进行交流共享和查询。随着大型医院信息管理系统的发展,有关病人和疾病的数据日益增多,利用数据挖掘技术在庞大的数据中发现有用的信息,更充分地利用这些信息,就可以为广大患者提供更有效的服务,并能发现医院运作的基本规律,预测医院发展的趋势,为管理者决策提供有价值的信息,为发展新的医疗方法提供理论支持。由于医学信息自身的特殊性和复杂性,与常规数据挖掘相比,在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有着更高的要求,数据挖掘技术在医学上的应用将会出现更多亟待解决的问题。随着数据挖掘技术的不断发展,数据挖掘在医学领域中将有更重要的实用价值和更为广阔的发展前景。
随着信息化的深入,教育信息化带来了信息量的迅速增长和对信息提取的更高要示,我们很难再按照传统方法在如此大量的数据中寻找决策的依据,数据挖掘技术的发展给我们带来了很好的工具去发掘数据中隐藏的规律或模式,为教育教学决策提供科学依据。数据挖掘技术可以应用于教育信息化的各个方面如教学评价、合理设置课程、指导学生选课、进行学习者特征分析、实现网络教育个性化与智能化。
2.3在商业金融上的应用
数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用Mining工具进行有目的的发掘分析。商家从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额;保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免风险,减少损失,提高利润;电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。
例如:银行部门根据以前的数据将客户分成了不同的类别,就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。用聚类的方法将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。利用关联规则和序列模式发现今天银行调整利率,明天股市的变化情况。利用预测的方法对未来经济发展做出判断,指导利率的调整。在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。就可以运用利用偏差的检测。
2.4其他
近年来,随着信息技术的发展,我国政府网站建设得到了迅猛的发展。政府网站的作用除了作为政府实现政务信息公开,服务企业和社会公众参与的平台以外,还有一个重要的作用就是为政府决策提供有效地支持。通过数据挖掘技术对用户的建议或投诉文本进行自动分词,采用聚类分析方法,实现对建议或投诉问题的自动分类,再通过数据挖掘技术实现数据的二次聚类,进行关联性分析,最终形成分析报告,发出预警预测信息。达到为政府决策提供有效支持的目的。
此外,数据挖掘技术在诸如公共气象服务中,在通信行业中也得到了有效的利用。
数据挖掘技术在企业中的应用目前主要集中在市场推广方面。应用于工业制造生产流程还处于理论研究和初步实践阶段。
3总结
目前,无论厂商、集成商还是学术界,基本上都认同一个观点,即:数据挖掘在技术上已经趋于成熟,现在更重要的就是如何拓展行业应用。数据挖掘技术已经到了一个普及化的阶段。
从行业应用来看,目前大多数的用户都来自电信、银行、保险、税务等领域。应用主题则主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势,可以看到的是,大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。数据挖掘技术必将得到更为广泛,更为深入的应用。
参考文献
[1]范明,范宏建 数据挖掘导论[M] 北京:人民邮电出版社。
[2]Feldman R,Dagan I Knowledge discovery in textual databases(KDT)[c].Montreal,Canada,prog of 1st INt'l Conf on Knowledge Discovery and Data Mining,1995.
[3]姜代红 数据挖掘用其在HIS系统中的应用[J].电脑与信息技术,2004
[4]田卉 用数据挖掘技术构建政府智能化网络投诉平台[J]政务办公.2009