于慧凝
摘 要:数据采掘是数据库技术、人工智能、机器学习、统计分析、模糊逻辑、模式识别、人工神经网络等多个学科相结合的产物。最后探讨了数据挖掘的发展趋势,这对我国的数据挖掘研究具有一定的参考价值。
关键词:数据挖掘;发展前景
一、引 言
数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscovery in Database), 数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它能组合各个领域的优点,从而能从数据中挖掘到其他传统方法不能发现的有用知识。在最近几年里已被数据库界所广泛研究,随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术,在这些数据当中我们可以找出“金子”来。
二、数据挖掘应用
数据挖掘是面向实际应用的技术,现在已经广泛应用于金融、银行、农业、制造业、零售业、电信、医疗卫生、教育和生物科学等领域。在信息技术方面,将数据挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。在医疗卫生方面,探讨了各种数据挖掘方法在生物医学研究领域中的应用,可以用分类方法对疾病进行诊断,用神经网络、支持向量机等数据挖掘方法对某些疾病进行预测,研究表明,预测效果良好。在研究MRI乳腺非肿块样强化病灶对乳腺癌的诊断时,发现决策树模型的灵敏度、特异性和准确率等性能均优于传统统计学中的 logistic 回归模型。
三、数据挖掘发展趋势
目前数据挖掘技术的研究已成为国内外研究的热点,最近几年在国内发展迅速,今后该领域发展的趋势可能主要表现在以下几方面:
(1)随着互联网技术的发展,网络上的资源越来越多,如何通过数据挖掘技术对互联网上的资源进行挖掘,并从中发现有用的信息,将成为一个热点问题。Web 数据挖掘目前的研究虽然比较多,但是还有很多不足,需要进一步研究完善。
(2)數据挖掘算法的改进和数据挖掘可视化。数据挖掘算法一般要处理海量的数据,如何在算法效率和算法准确度之间寻找平衡点,是一个值得研究的课题。另外,数据挖掘结果的友好可视化展现也是一个重要的研究课题。
(3)多媒体数据挖掘。多媒体包含视频、音频、图像等,这些数据的结构往往比较复杂,传统的数据挖掘算法处理多媒体数据效果比较差。为了挖掘多媒体资源,需要设计和开发更好的数据挖掘算法。
(4)数据挖掘和隐私保护。数据挖掘的个人隐私与信息安全问题备受人们关注。误用和滥用数据挖掘可能导致用户数据特别是敏感信息的泄露,越来越多的人对此表示担忧,如何在不暴露用户隐私的前提下进行数据挖掘,将成为非常值得关注的研究课题。
(5)数据挖掘技术与其他系统的集成。数据挖掘应该是一个完整的过程,不单单是一个算法,为了将数据挖掘技术更好地应用于现实生活中,需要研究如何将数据挖掘与其他系统有机地集成,从而最大化地发挥数据挖掘的优势。
(6)空间和时序数据挖掘。空间数据库与关系数据库不同,空间数据库具有丰富的数据类型,带有拓扑、距离信息,空间数据有很强的局部相关性等特点。挖掘空间数据库需要特殊的数据挖掘方法。另外,有一类数据集的数据之间存在着时间上的关系,这类数据被称为时序数据。在对时列数据进行挖掘的过程中,必须考虑数据集数据间存在时间上的关系,如何高效地处理空间和时序数据,仍有大量问题需要解决。
(7) 适合中小企业使用的数据挖掘系统。目前国外著名的数据挖掘软件有:SAS Enterprise Min-er、SPSS Clementine(现被IBM收购并改名为IBMSPSS Modeler)和RapidMiner(开源)等 。除开源软件外,数据挖掘软件一般价格昂贵,中小企业往往望而却步。针对我国中小企业的特点,开发一套适合我国国情的数据挖掘软件具有重要的现实意义。
四、结束语
总之,数据挖掘只是一个工具,但不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。
参考文献:
[1]朱明.数据挖挖掘[M].合肥:中国科学技术大学出版社,2003.
[2]邵峰晶、于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
[3]范明.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[4]夏火松主编.数据仓库与数据挖掘技术[M].北京:科学出版社.