软件数据挖掘中的模型研究

2017-04-08 08:52杨小梅
数字技术与应用 2017年2期
关键词:软件系统数据挖掘

杨小梅

摘要:研究中将软件设计挖掘中的模型构建作为了研究的重点,对数据挖掘的基本过程、数据资源的运用现状以及模型设计的核心理念进行了系统性的研究,旨在通过对数据挖掘模型的有效构建,实现软件工程数据挖掘的科学分析,为信息系统的优化设计提供系统支持。

关键词:软件系统;数据挖掘;模型设计

中图分类号:TP31 文献标识码:A 文章编号:1007-9416(2017)02-0086-03

对于软件数据挖掘系统而言,其数据资源的挖掘是一种对数据发现模型构建及规律认知的过程,通过对数据资源信息的优化分析可以实现对数据资源系统的有效收集。在实际软件系统开发的过程中,通过对软件信息资源的有效收集,可以实现对软件基础编码及测试依据的有效分析,而在现阶段软件数据挖掘系统分析的过程中,怎样实现软件系统的有效处理,逐渐成为数据资源信息模型构建中需要解决的问题。所以,在研究中,通过对数据挖掘系统的模型构建,进行了软件挖掘系统的分析,核心目的是通过信息资源数据库的稳定优化,实现数据资源模型的稳定构建。

1 数据挖掘的过程分析

对于典型的数据挖掘系统而言,其基本的过程可以通过图1所示。

1.1 数据挖掘对商业目标的理解

在数据资源挖掘的过程中,首先应该在商业的角度对用户的真实需求进行理解及分析,其中,信息资源的收集及理解会将行业的信息作为基础,通过对行业运行现状的分析,进行问题的理解及确立。同时,在问题分析的过程中,需要对项目的实行计划、项目风险以及受益项目进行合理性的问题的有效设计,充分保证资源项目评估的稳定性及优势性,从而为项目目标的优化设计提供稳定支持。

1.2 数据挖掘对数据资源的理解

数据资源系统构建的过程中,项目设计者需要在了解数据挖掘的商业目标之后,进行相关原始数据信息资源的优化设计,并通过对数据相关特征的分析,进行数据格式、形式及数量的优化统计,从而保证数据资源信息的稳定连接。

1.3 数据资源的准备

在软件系统数据资源准备的过程中,通过数据资源的准备及数据挖掘过程的稳定分析,可以发现在数据资源准备系统设计的过程中,主要内容应该包含数据的集成、数据的清理、数据的选择以及数据的变换,通过这些步骤的确定,保证数据资源在大量、全面及丰富的状态下,实现对数据资源的准备及集成性分析。同时,在数据集成问题分析的过程中,应该通过对多种异质数据的有效整合,保证数据资源库数据处理的原始性特点。数据清理主要是通过对噪音数据、数据冲突现象的消除,实现对数据信息的有效填补,从而为数据资源系统的数据污染处理提供稳定支持。数据选择主要是通过对数据清洗后的数据进行集成化的样本筛选、维度提升,使数据样本在项目优化设计的基础上,保证数据信息挖掘的技术性及分类型特点,实现数据格式资源转化的合理性。

1.4 数据模型的算法实施

在数据资源整合及设计的过程中,通过优化的测量进行参数资源的设定,可以保证数据资源挖掘算法的稳定性执行,并在模型构建及模型规则分析的基础上,实现系统阐述的稳定设计[1]。

1.5 评估模型的设计

在数据挖掘系统结果分析的过程中,应该将数据挖掘的结果中作为分析的对象,并将数据挖掘的学习类型作为项目的指导,从而寻找并认识到设计评估的基本规则及模型。在评估系统设计的环境下,其内容不仅需要包括对数据资源的处理及检测,而且也应该发现数据结构设计系统的中心环节,保证项目的设计的稳定性及核心性,从而实现系统评估及评价模型设计的科学性。

1.6 商业实践环节优化

通过对数据挖掘过程的分析可以发现,其资源库的构建可以指导企业进行稳定性的社会实践,并在某种程度上满足商业实践的基本标准。在商业实践优化设计的中,应该注意的是,数据信息库的资源处理,应该充分展现动态化的知识活动构建体系,并在商业实践及资源挖掘的基础上,保证商业活动柜的有效拓展,从而为数据挖掘资源平台的设计提供稳定支持。

2 数据挖掘系统需要解决的问题

2.1 数据准备及处理阶段的问题

在现阶段设计挖掘系统设计的过程中,很多数据资源库的设计在数据准备及预处理的过程中,并没有形成自动化的数据库资源分析模式,而且,对于冗余、冲突以及异常的现象缺乏应急性规定处理制度,从而导致数据库的资源选择以及样本筛选都需要得到专业人群进行干预,造成了资源的严重浪费[2]。

2.2 数据挖掘对象的问题

在设计挖掘对象分析的过程中,要求数据挖掘系统需要面对大规模的数据资源模型,但是,在现阶段数据资源挖掘系统设计中,其数据异质性现象较为突出,数据的特征及维度空间也相对较高,因此,在特征及属性间关系优化分析中面临着繁杂的特点,同时,在数据系统非机构化数据处理及分析的状态下,其结果也很难得到量化的处理。

2.3 企业数据库资源不完善

数据挖掘库作为信息资源储存的重要平台,在现阶段数据挖掘系统设计的过程中,企业存在着数据仓库系统设计不完善的现象,这一问题的出现也就会为信息数据的收集及整理造成较为严重的时间浪费[3]。

2.4 数据挖掘系统知识体系不成熟

数据挖掘问题分析的过程中,由于知识的形成及表示方法的差异性,导致在实际数据资源挖掘及项目指导及分析中,存在着领导人员缺乏专业性的数据挖掘知识的现象,使指导工作面临着一定的制约。

2.5 对系统处理方式没有形成有效体系

在數据资源挖掘及处理的过程中,系统项目在某种程度上会起到指导性的作用,所以,对数据系统的算法及模型的处理应该保证项目评价的客观性,这种客观性评价也是数据资源信息挖掘中较为关键的环节。但是,在现阶段数据挖掘系统设计的过程中,存在着系统不完善的设计现象,从而为系统资源的处理造成了制约[4]。

2.6 样本分布中的不均匀现象

在系统设计及样本分析的过程中,其不均衡的数据集中问题存在着一定的制约性问题,其主要的内容包括了对学习理解不深刻、算法不合理以及评价不完善等,这些不均衡的因素得到了广大学者的广泛关注。因此,在现阶段数据挖掘资源优化的过程中,应该认识到样本分布不均匀的问题,通过对数据资源挖掘系统的有效分析,保证系统运行的稳定性及科学性。

3 软件数据挖掘中的模型研究

3.1 聚类挖掘中数据模型系统的构建

在对城市发展类型化问题分析的过程中,其初始环境中的数据模型构建,应该在数据实例设计分析的基础上,进行聚合关系的有效确定,但是,在现阶段数据模型分析中,系统内容并没有形成系统化的建模方式。因此,在现阶段数据挖掘系统优化设计的状态下,应该通过对聚类问题的有效分析,进行数据挖掘技术的有效优化[5]。

第一,层次状态下的聚类分析。对于系统聚类方式而言,是一种层次化的聚类方式,其使用的范围相对较广。在系统运行的状态下,通过对各个样本类型的分析,合理规定样本之间的相互距离,然后在两类合并分析的状态下,形成一种全新的类型模式,通过对其他聚类数据资源的计算,重复两类合并化的工作内容,并将相关的工作成本合为一类,保证数据资源的合并化及顺序化处理。同时,在数据挖掘系统处理的过程中,软件系统会提供一种hclust()的函数层次聚类方式,hclust()聚类方式是hclust(d,merhod=“ward”,members=NULL),函数中的d是指距离结构的距离,而merhod是一种制定的聚类方法,在运用的过程中,可以通过最短距离、最长距离以及中间距离方式的运用,进行数据挖掘系统 的有效设计。对于聚类系统而言,是也中非监督的模式,通过对各个数据资源的合理关注,可以通过对实际状况的分析及调整,进行聚类内容的程序优化。在程序设计的过程中,其基本的程序如下所示。

subest<-subest (datasrt,sckect=出(3:11)

city<-dist (subest) 该程序主要是对Euclide的距离进行测定分析

hclust<-hclust(city,“ward”)该程序为了实现对Ward进行系统聚类分析

Plclust(hclust)实现系统绘制程序的聚类化谱图

result<-rect.hclust(hclust,k=4,border=“red”)实现对特定的聚类进行划分

第二,划分聚类方式分析

在聚类方式分析的过程中可以发现,k-means是一种较为经典的划分模式,其基本的设计思想是通过对聚类化指标的最小优化,进行聚类准则及聚类函数的样本分析,从而保证距离的最小化。因此,在整个聚类方法分析的过程中,第一,应该通过对制定聚类数据的分析,进行聚类项目的合理确定,并保护走鞥初始聚类中心设计的稳定性、合理性。第二,通过对养成集里以及样本最小距离的分析,可以对不同的聚类样本进行平均聚类中心的稳定设计,从而保证数据资源系统处理的优化设计[6]。

3.2 分类模型的设计

在社会运行及发展的状态下,人类在生产活动设计的过程中,需要对不同的信息系统做出预测,如天气变化状况以及股票指数等内容,通过预测可以对相关数据的历史指数进行综合性的分析,并在指标分析及评价的基础上,划分出综合性的预估内容,保证项目生产活动效率的稳定提升,降低数据模型构建中出现的风险因素。有效提升生產活动的整体效率。在分类技术分析的过程中,需要对控制变量的控制进行预测及取值特征的分析,因此,在预测状态下,可以将其内容分为分类及回归两种。因此,需要对预测的项目内容进行分类处理。在数据挖掘模型输出结果设计的状态下,我们会将其过程称为回归学习方式。通常情况下,在分类技术概述分析的状态下,对决策树进行分析。其中的决策树主要是一种无序性的数据记录内容,并通过对数据资源的有效分析及结构的表述,实现数据挖掘资源的有效处理。

首先,通过这种本属性值的比较及分析,可以构建分子化的系统处理模式,从而保证分类树资源结构优化的合理性,其基本的决策树分类技术可以分为以下几点:第一,ID3算法内容思考的分析中,其核心的工作内容是对样本数据进行检测,并在计算的各个活动中,实现信息增益的资源优化处理,实现不同属性值建立的稳定性。通过对ID3算法理论的科学化分析,可以保证数据资源的稳定设计及便利性分析,并在此基础上,扩大数据集成性的理想内容,保证数据资源项目核算的稳定优化及合理改进。第二,C4.5算法。对于C4.5算法而言,在计算的过程 中会在项目设计的基础上实现对数据挖掘的有效改进,并在此基础上,建立了分类树的项目过程。首先,需要构建数据决策树,这种决策方式与ID3的构建决策方式呈现出一直化的发展变化,其主要的区别是ID3在信息增益分析的状态下,可以实现对属性分子问题的有效解决,而C4.5算法需要通过对信息收益率的综合性分析,并进行属性不足的确立。其次,在对已经形成分类树剪裁及处理的状态下,应该通过对噪音数据分支问题的分析,进行离散化的项目处理,从而保证数据资源处理状态下的系统缺失值,并在最大程度上为决策树算法的运用提供良好依据[7]。

其次,在函数类分类算法分析的过程中,应该支持向量机化的合作管理模式,并在理论统计及学习的基础上,保证函数项目设计的稳定性发展。因此,在函数类分类算法分析的基础上,应该通过对样本信息模型的复杂性设计,应该寻求复杂性及学习性的分类算法,有效克服传统信息模型设计的局限性,从而保证函数分类的广泛性发展。同时,在函数分类算法分析的同时,为了支持向量机化学校模型的构建,就应该构建集样本是否为线性化的分析,对线性函数进行稳定的构造,所以,在函数类分类算法过程中,应该做到以下几点内容:第一,认识到训练集体成本的的构造分类,从而实现数据挖掘环境下非线性映射技术的空间化转化。第二,在支持向量机采用投影技术确立及使用的过程中,应该对非线性的特征进行系统化的设计,保证全局项目上合计的最优化处理,保证期望风险的有效执行[8]。

3.3 实现模型选择的不均衡性模型构建

对于不均衡分类模式而言,主要是在分类问题处理的过程中,通过对多数样本数量的分析,进行少数样本数量的合理优化。同时,在不均衡分离的理念下,可以将其分为不均衡的数据集约分类方式,通过数据的稳定研究,可以实现数据资源挖掘状态下的全新发展,例如,在软件系统检测中,当发现了软件缺陷问题,应该保证模块在98%以上,其错误的软件模块应该时刻小于2%,从而实现数据挖掘系统分类算法的合理预测及系统分析,实现模型项目设计中信息价值的稳定提升。同时,在集成学习模式构建的状态下,也需要对组合学习项目进行优化,通过对原数据训练分类模型的好送将诶,可以额保证分类模型及子分类模型的优化设计,实现模型测试项目的集中化及预测化判断,为不均衡性模型的优化设计提供稳定性的技术支持[9]。

4 结语

总而言之,在现阶段数据挖掘系统优化设计的过程中,为了保证资源项目设计的稳定性及合理性,不仅应该保证系统挖掘的完善性及功能性,而且也应该对用户界面进行综合性的设计及分析,从而保证数据挖掘系统设计条件的稳定性,实现数据挖掘系统的实用性。同时,在软件挖掘系统优化的状态下,也可以通过对不同语言程序的开发及挖掘能力的提升,充分展现出资源数据目标挖掘的基本特点,完善数据资源的挖掘功能,从而保证数据资源系统设计的稳定性及互动操作的特点。而且,在图形界面数据资源可视化效果的分析,需要通过对流程化资源挖掘状态的分析,进行功能及用户界面的有效改进,实现数据资源挖掘系统的优化提供稳支持。

参考文献

[1]王國勋.基于多目标决策的数据挖掘模型选择研究[D].电子科技大学,2013.

[2]龚璞.数据挖掘在软件项目风险管理系统中应用研究[D].大连理工大学,2014.

[3]陈荣鑫.R软件的数据挖掘应用[J].重庆工商大学学报(自然科学版),2011,(06):602-607.

[4]林立,朱小冬,王毅刚,阎旭坤.基于数据挖掘的软件故障诊断研究[J].微计算机信息,2010,(34):156-158.

[5]王辉,杜庆峰.基于软件信息库挖掘的软件缺陷预测方法[J].计算机工程与设计,2012,(08):3094-3098.

[6]崔广风.数据挖掘中的统计方法及其应用研究[D].西南石油大学,2014.

[7]张晓艳.股市数据挖掘中偏模型的检验和应用[D].西南财经大学,2014.

[8]曾强.面向软件漏洞的挖掘方法研究[D].燕山大学,2014.

[9]金莲花.数据挖掘在软件缺陷管理中的研究与应用[D].长春理工大学,2010.

猜你喜欢
软件系统数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究