摘要:该文阐述了提高管理信息系统内数据质量的方法技术,并从数据质量的角度科学分类了管理信息系统内的数据。
关键词:管理信息系统;数据质量;数据预处理;数据挖掘;决策树;多维关联规则
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)04-0776-03
The Methods of Enhancing Data Quality in Management Information System
LI Ming
(Troop NO. 63908 of PLA, Shijiazhuang 050000, China)
Abstract: This paper introduces the methods of enhancing the data quality in management information system and scientifically classify the data of management information system from data quality angle.
Key words: management information system;data quality;data preprocessing;data mining;decision tree;multidimensional association rule
目前,管理信息系统被应用于各个领域,这些大大的加速了各行各业的现代化进程,但是,由于各种原因,使得管理信息系统内的数据质量无法得到保障,低劣的数据质量给精确化的管理和正确的决策带来了极大的危害,损失了社会效益和经济效益。该文就是为提高管理信息系统内数据质量,提出了相应应当采用的方法技术。
1 数据质量内涵
从数据质量对管理信息系统内数据分类如下:
图1
2 研究内容
管理信息系统内提高数据质量的研究内容包括:数据质量定量化评估、获取诊断规则、查找异常及错误数据、修正错误数据、填补不完整数据和剔除冗余信息等。
2.1 数据质量定量化评估
数据质量评估是提高数据质量的基础和必要前提,它能对管理信息系统的整体或部分数据的质量状况给出一个合理的评估,从而可以帮助数据用户了解应用系统的数据质量水平,并采取相应的处理过程来提高数据质量。
定量化评估数据质量,是掌握管理信息系统内数据质量的有效途径,只有定量化的评估指标才能让数据用户做到对数据质量心中有数。
2.2 获取诊断规则
对于管理信息系统中的异常及错误数据,查找它们是一个比较困难的工作。这就要求建立有效可行的诊断规则,按照诊断规则高效准确地查找数据中的异常和错误。
有很多获取诊断规则的方法技术,这些方法技术涉及数据挖掘、数理统计等。
2.3 查找异常及错误数据
在诊断规则基础上,按照一定的策略,查找异常及错误数据。查找时,要求对异常及错误数据的定位要准确,减少连带正确数据的几率,对于大数据量的信息,必须高效率查找。
查找异常及错误数据涉及查找策略的制定、高效算法的生成等。
2.4 修正错误数据
精确地修正错误数据是一项复杂而有难度的工作,采用的软件算法应当恰当而适用,如此,修正过的错误数据才能准确率高,整体提高管理信息系统内的数据质量。修正错误数据涉及软件算法的选择等。
2.5 填补不完整数据
对于管理信息系统内存在的不完整信息,首先,分析判断出其是否为不完整信息,由于对于某些特定的数据字段,其并没有必须填写的内容,所以,对此不能判定为不完整信息;其次,与修正错误数据相同,也应当采用相应的软件算法。
填补不完整信息涉及制定规则、设计算法等。
2.6 剔除冗余信息
冗余信息的产生是由于重复录入数据、多个数据源等原因造成的,在剔除冗余信息时,首先要分清两条记录信息是否是重复(冗余)的数据,其次剔除冗余信息。
剔除冗余信息涉及建立判别模型等。
3 方法技术
目前,有较多研究提高管理信息系统内数据质量的方法技术,在此,加以阐述。
3.1 分块多维关联规则算法
由于从不同属性对数据库进行分块,各分块中蕴含知识的可信度是不同的。因此,将不同可信度的数据混在一起进行挖掘,得到的知识效果不令人满意,为此,提出基于分块的多维关联规则挖掘方法。
数据分块的原则如下:
定义:[∀A(A是数据立方体),∃Ai,Aj,]使得[Ai]∩[Aj]=Φ且[Ai⊂A,Aj⊂A,] (i≠j,且 i,j=1,2,…,n),则称[Ai,Aj]是数据立方体A的分块。
应用多维关联规则挖掘Apriori_Cube算法对不同分块的数据集分别挖掘,得出相应的知识。
采用分块多维关联规则,可以获取诊断规则知识库。
3.2 决策树
形成决策树的算法:
1)以空缺或错误字段选择分类字段,以分类字段生成测试字段集合;
2)以测试字段集合,生成当前二维关系表(以此表中的字段值生成决策树),并将其设为当前决策树节点;
3)计算当前决策树节点各测试字段的信息增益;
4)选定当前决策树节点信息增益值最大的测试字段;
5)若当前决策树节点满足条件t之一,则将堆栈中的决策树节点弹出一个,并将此决策树节点设为当前节点,转3)。不满足条件,转下一步。如果堆栈空,转7);
条件t:
.分类字段值单一;
.选定的测试字段值单一;
.选定的测试字段最大信息增益是0;
6)生成当前决策树节点的子决策树,将子决策树内除最右节点外的其它节点压进堆栈,将子决策树最右节点设为当前节点,转3);
7)结束。
结束后,得到一棵以测试字段为节点的决策树,树的分支为相应节点测试字段的各种取值。
使用决策树,可以填补不完整数据、修正错误数据。
3.3 关键词段相似度计算模型
定义:对于任意的数据集,我们用S=(D,Z,W,V)来表示两条数据记录之间相似度,其中D为数据集,Z表示数据集上的关键词段集,W表示关键词段集中每个关键词段的权重,V表示每个关键词段值相似度,该值在0和1之间,如果完全相等,用1表示,完全不等,用0表示。[S=i=1nWi×Vii=1nWi],n表示关键词段集Z中有n个关键词段。
如果两条记录关键词段相等,设定V=1,如果关键词段不相等,设定V=0,如果关键词段相同字符位上有相等的字符,设定V=0.5;设定两条记录相似度下限为98%,即如果两条记录相似度S≥98%,则认为两条记录重复,如果相似度<98%,则认为不重复。
在判别重复记录前,应当将数据按关键词段排序。
3.4 神经网络与遗传算法
主要是采用前馈神经网络,一个神经网络输入赋予第一层(也称输入层),这些单元的输出结合相应的权重,同时馈给第二层(也称隐藏层)单元,隐藏层的带权输出又作为输入再馈给另一隐藏层,最后的隐藏层节点带权输出馈给输出单元,该层单元最终给出相应样本的预测输出。
在此,采用遗传算法训练神经网络,算法如下:
1)将网络各节点的权值、阈值排成一串,形成染色体。
2)取出一条染色体j,把其中的基因恢复成网络的权值等,把训练样本一一输入,计算出总误差E,由此计算出该染色体的适应度fj。
3)输入网络的结构:x-y-z。使用[-m,m]上均匀分布随机十进制小数初始化种群。给种群中的染色体设定选择概率。
4)将当前染色体恢复至网络模型中,输入训练样本,计算该染色体的总误差E、适应度fj,判别网络误差是否达到预定值或达到预定迭代次数,是则结束,否则继续。
5)对每个染色体,计算其累积概率,采用轮盘赌算法,产生一个[0,1]上均匀分布的随机数,若该随机数在前一轮累积概率和本轮累积概率之间,则选中该染色体作父染色体。
6)交叉:使用t次轮盘赌算法,获得t个父代染色体X1,X2,…,Xt,把它们组成对。
7)变异:以变异概率确定n个变异位置。将这些位置上的基因做变异操作,给原基因值加上[-1,1]间均匀分布的随机十进制小数,从而得到两个新子代染色体。
8)迭代使用5)-7)中选择、交叉、变异,不断产生新子代,直至新子代规模与父代相同,则获得新子代,转4)处。
使用遗传算法训练神经网络,可以修正试验数据中的异常数据。
3.5 对比分析
应用对比分析,将当年上报的商品信息,与上年上报的进行对比分析,从中查找可疑、错误数据。如:某年某成品仓库上报的信息中有数据如表1:
表1
[商品名称\&生产序\&生产年\&生产厂\&质量等级\&数量\&…\&…\&…\&…\&…\&…\&商品01\&2\&2002\&A\&新品\&200\&…\&…\&…\&…\&…\&…\&]
该成品仓库,上年上报的数据如表2:
表2
[商品名称\&生产序\&生产年\&生产厂\&质量等级\&数量\&…\&…\&…\&…\&…\&…\&商品01\&2\&2002\&A\&新品\&2000\&…\&…\&…\&…\&…\&…\&]
根据对比分析,商品01库存数量变化率是(2000-200)/2000×100%=90%,根据知识与经验,近些年,此类商品库存数量的变化率一般在10~20%,显而易见,其数量变化率明显异常,因此,这条数据记录作为可疑信息,要求验证核查。
3.6 分类覆盖优化规则查询
采用分类覆盖优化规则查询技术,该技术内涵如下:
诊断规则库中的每条规则所涵盖的范围不同,每条规则覆盖范围之间存在着不相交、相交和包含三种关系,如图2所示。
图2
在查找算法中,利用此三种关系可减少比较判断次数,提高算法效率,同时,亦可提高诊断规则定位错误的准确性。
1)不相交关系。此属规则关系中最简单的一种,不需进行任何转换。
2)相交关系。是指两条规则覆盖范围有交叉的内容。如果在任何条件下相交,可将规则进行转换,将两条规则交叉部分用第三条规则替代,转换对于错误定位是准确的,但由于增加了规则数量,在查找时将增加比较判断次数;如果在某些条件下相交,则应当在诊断时完成各种条件的分析判断。
3)包含关系。是指一条规则覆盖的范围完全包含了另一条规则的。如果在任何条件下成立,可用前一条规则代替后一条,以减少规则数量;如果在某些条件下成立,则在查找时分析判断各种条件,以判别是否用前条规则代替后条。该关系对提高诊断算法效率尤为重要。
4 结束语
本文探讨了管理信息系统内如何提高数据质量的方法技术,这些方法技术对于提高数据质量是行之有效的,已经在有关的实践中应用,有效地提高了相关管理信息系统内的数据质量,为开发精准的管理信息系统,并采用管理信息系统内高质量数据为决策等提供科学、有效的支持方案奠定了基础。
参考文献:
[1] 方幼林,杨冬青,唐世渭,等.数据仓库中数据质量控制研究[J].计算机工程与应用,2003(13):1-4.
[2] 杨辅祥,刘云超,段智华.数据清理综述[J].计算机应用,2002(3):3-5.
[3] 郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082.
[4] 李明,郑波.基于数据立方体分块的多维关联规则挖掘[J].计算机与现代化,2007(3):67-68.
[5] 李明,郑波.基于多维关联规则的决策树分类法[J].大众科技,2008(11):37-38.