李怡
摘 要:互联网的发展为资源共享提供了有效的途径,资源量越来越庞大,类别也越来越多,并且呈现出了分散与异构的特点。实现数据资源的有效利用,需要通过一定的技术与方法。而随着技术的更新与发展,传统的方法已经无法适用新的环境检索的需要。需要将新的技术应用于其中,并且与知识发现系统相融合。本文就基于数据挖掘技术的知识发现系统作简要阐述。
关键词:数据挖掘技术 知识发现系统 分析
中图分类号:G250.74 文献标识码:A 文章编号:1674-098X(2017)07(c)-0142-02
随着资源量增加,如何从海量数据中寻找到需要并且有用的信息成为了新的问题,而将统计学、神经网络、数据库、模糊数学、模式识别等技术结合到一起,以此来解决问题。实现对所需要的知识搜索或者是基于某种需要进行深度挖掘。数据挖掘技术已经经历了一定的发展时期,并且积累了一定经验,市场应用的前景十分广阔。
1 数据挖掘及其对象
数据挖掘又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
其经历了四个阶段,电子邮件阶段,信息发布阶段,电子商务阶段,全程电子商务阶段。
依据原则来讲,数据挖掘工作可以在任一类型的数据存储上进行。如事务数据库,数据仓库,关系数据库,高级数据库。面向对象、对象关系、空间与时间关系的数据库等。数据挖掘的技术可能会因为数据存储的类别不同而存有差异。数据知识发现需要经历一个过程,如数据的清理,集成,选择,交换,挖掘,模式评价,知识表示等。数据挖掘只是知识发现过程中的一个步骤,或者可以将其理解为一个环节。在大多数的场合,人们采用的都是数据挖掘的广义观点,从存储信息的地方将需要的信息进行挖掘一个过程。数据存储的地方可以是数据库,也可以是数据仓库,或者是其他的信息库。
2 数据挖掘的几种模式
首先是概念描述,概念描述作为区分性描述与特征化数据挖掘的最简单的类型,通常会经过以下方法获得。一是数据特征化,对目标类数据进行一般性的汇总。二是对数据进行区分,将不同比较类与目标进行比较。
关联规则。通过该方法进行数据挖掘工作和,可以获得大量的数据中项集间存在有用或者是相关联系。
分类与预测。作为数据分析的两种方法,可以对未来的数据趋势进行预测,或者是用于重要类数据模型进行提取。聚类则是将抽象或者是物理对象进行分组成为由类似对象组成的多个类的过程。聚类算法包括了层方法,划分方法,基于网格的方法,基于密度的方法,基于模型的方法等。时间序列模型则是依据时间变化趋势对未来进行预测。
3 数据挖掘的方法与步骤
3.1 数据挖掘的方法
数据挖掘技术的核心包括了多学科知识与技术,但是并产是将其简单的组合到一起,应用的技术是一个整体,具有不可分割性,具体包括了机器学习,人工智能,数学统计等。在相关技术的支持下,得出满足用户要求的结果。
人工神经网络的方法主要是应用于群集,特征挖掘,分类,模式识别,预测。人工神经网络是基于生物神经网络仿真的,其本质是矩阵或者是分散型的结构。统计分析的方法应用于数据挖掘工作中,能够为其提供多种回归与判断方法,技术上有方差分析,回归分析,贝叶斯推理等。在知道了新信息后,对数据集的概率进行修正,所使用的工具就是贝叶斯推理,以此来解决处理过程中数据分类问题。回归分析的作用在于输出与输入变量之间的最佳的模型。或者是对变量的变化趋势进行描述,对其他的变量值关系进行线性回归。也可以用其为某些事件发生的概述建立模型,对变量集的对数回归进行预测。方差分析一般则是用于分析估计回归直线性能与自变量对回归的最终影响。
決策树是一种常用的方法,既可以用来对数据进行分析,同时也可以对数据进行预测。该方法以树形结构对决策集合进行表示,而规则的产生则是通过对数据集进行分类。而除了上述方法还有其他方法,比如粗燥集法,关联规则,遗传算法,聚类分析,联机分析处理,可视化方法。挖掘工具的使用需要结合到具体的问题,不同方法有其不同的特点与适应方面,在应用的时候,需要结合到具体的情况。
3.2 数据挖掘的过程
数据挖掘过程可以将其分为三个阶段,数据准备,挖掘,结果的表达、解释。在数据准备阶段,对数据进行合并处理,处理的数据来源于不同文件或者是不同数据库,数据集成解决的主要问题是语义模糊,数据中存在的遗漏,脏数据清洗等。数据选择则是确定需要进行分析的数据集,以此来提升挖掘工作质量,而对其进行预处理,则是为了解决挖掘工具存有的某些局限性。
在数据挖掘阶段,又可以将其进行细分。产生假设,挖掘系统为用户提供假设或者是用户对数据库可能会存有的知识进行假设。将前一种方式称之为发现型,而后一种方式则称之为验证型。选择并确定合适的工具,数据挖掘操作,对发现的知识进行证实。
数据结果表述与解释阶段,通过对提取信息进行分析,利用决策支持工具将其提交于决策者,并将结果以某种方式表达出来。如果对数据挖掘结果不满意,则需要重复挖掘过程。
4 知识发现系统与实现
4.1 知识发现
数据挖掘与基于数据库的知识发现在一定程度上存在混淆,两个术语在使用的过程中通常会被替换。前者是将低层数转换为高层知识的过程。可以对其进行简单的定义,知识发现就是对数据中有效的,潜在有用的模式的特定过程。知识发现是从数据中对知识进行挖掘的技术,通常将整理,降维、识别、归纳、收集等过程集于一体。知识发现中最主要的就是数据挖掘。知识发现的过程包括原始数据收集,数据清理、集成,数据仓库,数据选择、变换、预处理、挖掘,模型建立,知识表示,模式评估等。
4.2 知识发现系统的体系
理论层面,知识发现过程的机制有双基融合,信息扩散,双库协同,构造了不同的模型。针对客观存在的,并且具备某些特征的知识源,如不确定性、海量性、不完备性、复杂形态等,挖掘其中用户感兴趣的、潜在的知识。
知识发现体系的框架可以将其分为知资源层,包括了本地的数据库,互联网,通过其他方法组成的底层支持结构。知识发现层,该层的主要目的在于依据用户的要求,将知识需求通过挖掘技术、仓库技术,得到所需要的知识,并且将其进行存储并返回用户。
在发现体系的实现方面,应用到的相关扶梯技术包括了预测与分类,概念描述,时序模式,关联挖掘,聚类分析,序列模式,数据仓库技术,分布式计算方法,四组件技术等。系统实现的组成包括了用户登录,知识发现,资源预处理,可视化界面,预测决策等。
5 结语
数据仓库与挖掘技术的发展,知识发现作为一个新的学科而受到广泛关注。知识发现过程中,数据挖掘是一个重要的步骤。该环节涉及到的内容有信息检索,高性能检索,数据可视化,数据库技术,统计学,图像与信号处理等。数据挖掘在某些方面已经得到了应用,并且产生了巨大价值,技术在应用过程中不断完善。但是同时也要认识到数据挖掘技术仍然存在的某些方面的问题。比如大规模数据处理的效率问题,挖掘结果的无效性等。而知识发现技术同样也面临着多方面挑战,需要在今后的使用过程中不断的完善,促进其发展,发挥更大的价值。
参考文献
[1] 邱晓辉.知识发现与数据挖掘分析[J].情报探索,2011(1):69.
[2] 罗平,阳广元,甯佐斌.数据挖掘方法和知识发现研究[J].图书情报工作,2011(S1):85-86.endprint