一种基于分布数据的正域属性约简算法

2020-05-11 11:22赵满旭景运革
网络安全技术与应用 2020年5期
关键词:约简粗糙集信息系统

◆赵满旭 景运革

一种基于分布数据的正域属性约简算法

◆赵满旭 景运革

(运城学院数学与信息技术学院 山西 044000)

由于计算机网络及存储技术的迅猛提高,分布数据处理已经涉及很多领域,如何有效挖掘分布数据的相关知识是人工智能领域研究的一个热点。本文我们首先介绍了如何计算分布数据的等价关系及诱导矩阵的方法,设计了一种基于分布数据的约简算法,然后,给出一些例子来解释计算分布数据的正域的过程,最后,在机器学习网站下载了3个UCI数据集并进行了大量的实验,实验结果表明了该算法能够有效解决分布数据约简问题。

分布数据;正域;关系矩阵;属性约简

1 引言

由于计算机网络及存储技术的迅速提高,分布数据处理已经涉及很多领域,如何有效挖掘分布数据的相关知识是人工智能领域研究的一个热点。近十多年,用来处理分布数据的一些方法和技术已经运用到医疗技术评估[1]、资源评估[2]及营养评价[3]等各个领域。

如何有效地解决分布信息系统知识挖掘和知识发现等问题,一些学者已经在这方面做了很多研究工作。Liang等把一个大的信息系统分解成多个子信息系统,并分别求解多个子信息系统的约简,最后把每个子信息系统的约简融合起来,最后可获得大的信息系统的约简[4];Jing等从多粒度角度考虑,利用“分而治之”策略,针对分布信息系统对象动态变化时如何快速更新动态大数据约简的问题,提出了一种有效解决分布数据约简的算法[5];Huang等针对“多源数据集”动态变化问题,根据模糊信息粒度,提出了多源区间值数据融合的算法[6];Zitnik等提出了一个基于矩阵分解的数据融合方法[7];Li等把矩阵方法和“粗糙集”理论结合起来,给出了一种处理分布数据的方法,提出了一种分布数据“近似集”的计算方法[8];Cai等基于贝叶斯网络模型提出了一种分布式信息融合方法,并把该算法应用到地源热泵系统模型的故障检测中[9];Bandara等提出了一种基于分布式数据网络中多用户、多应用、多传感器有效数据的融合算法[10];Qian等介绍了一种悲观多粒度粗糙集模型融合的方案,给出了基于粗糙集模型“多源数据”的融合算法[11];Lin等把“粒计算理论”和证据理论相结合,给出了一些数据融合的性质,设计了多源异构数据的融合算法[12];Qian等针对大数据属性约简的问题,探讨决策表在不同粒度下的关联准则,提出基于“云计算”平台的属性约简算法[13]。根据上面分析,发现通过关系矩阵去求解分布数据的约简算法报道较少。

本文后面相关内容安排如下:在第部分,介绍粗糙集的相关定义;在第二部分,给出分布数据的相关概念及求解分布数据的等价关系矩阵、诱导矩阵及“正区域”的方法,并设计了分布数据的“正区域”属性约简方法,第三部分我们做了一些实验仿真,并对实验结果进行了分析和总结。最后本文做了总结,并指出将来研究的方向。

2 基础知识

这节主要介绍粗糙集的一些相关概念和知识[14-18]。

3 分布数据属性约简算法

3.1 分布数据的相关知识

3.2 分布信息系统正域约简算法

根据上述分布信息的定义及其定理,提出了分布信息系统的正域约简算法如下:

4 实验验证

4.1 实验环境和数据集

为了验证我们所提出的分布系统约简算法的可行性,在机器学习网站上分别下载了Cancer、Tic-tea-toe及Mushroom 3个数据集,数据集的具体描述如表1所示。另外,实验过程中的硬件配置:CPU:Intel 酷睿i5 6400,内存:8.0 GB。实验所使用的软件环境:程序代码设计语言为MATLAB 2010。个人计算机所安装的操作系统为:Windows 7.0。

表1 数据集描述

4.2 实验仿真结果

在计算分布信息系统属性约简的过程中,为了模拟分布信息系统,我们把表1中的每个数据集随机分成3个子信息系统,分别利用本文提出的分布信息系统约简算法去求解每个数据集的约简、约简的数目及约简的计算时间。计算结果如表2所示。

表2 UCI数据集属性约简结果

5 结束语

现实生活中,很多领域都涉及分布数据,如何处理分布数据的挖掘和知识发现是计算机科学领域亟须解决的一个热点问题。本文针对分布数据属性约简问题,给出了计算分布数据等价关系矩阵、诱导矩阵及“正区域”的方法,在此基础上设计了分布信息系统约简算法。另外,在机器学习网站上下载了3个UCI数据集,并用所提出的算法分别计算每个数据集的约简,实验结果表明了该算法能够有效解决分布信息系统约简问题。由于许多分布数据会随着时间变化而发生动态变化,未来的工作将进一步研究分布数据集中对象或属性变化的增量属性约简方法。

[1]M. H. Rafiei,H. Adeli,A novel unsupervised deep learning model for global and local health condition assessment of structures[J]. Engineering Structures 156(2018)598C607.

[2]K. Eurek,P. Sullivan,M. Gleason,D. Hettinger,D.Heimiller,A. Lopez,An improved global wind resource estimate for integrated assessment models[J]. Energy Economics 64(2017)552C567.

[3]J.da Silva Fink,E. D. de Mello,M. G. Beghetto,V.C. Luft,S. M. de Jezus Castro,P. D.de Mello,Nutritional Assessment Score:A newtool derived from Subjective Global Assessment for hospitalized adults[J]. Clinical Nutrition 37(2)(2018)706C711.

[4]Liang J.Y.,Wang F.,Dang C.,Qian Y.H. An efficient rough feature selection algorithm with a multi-granulationview[J]. International Journal of Approximate Reasoning,2012,53(6):912-926.

[5]Jing Y.G.,Li T.R.,Fujita H.,Yu Z.,Wang B. An incremental attribute reduction approach based on knowledge granularity with a multi-granulation[J]. Information Sciences,2017,411:23-38.

[6]Huang Y.Y.,Li T.R.,Luo C,Fujita H.,Horng S.j. Dynamic Fusion of Multi-source Interval-valued Data by Fuzzy Granulation[J]. IEEE Transactions on Fuzzy Systems,2018:1-15.

[7]Zitnik M.,Zupan B. Data fusion by matrix factorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):41-53.

[8]Li S.Y.,Hong Z.Y.,Li T.R.. Efficient Composing Rough Approximations for Distributed Data[J]. Knowledge-Based Systems,2019,182.

[9]Cai B.P.,Liu Y.H.,Fan Q.,Zhang Y.W.,Liu Z.K.,Yu S.L.,Ji R.J. Multi-source information fusion based fault diagnosis of ground-source heat pump using Bayesian network[J]. Applied Energy,2014,114:1-9.

[10]Bandara H.D.,Jayasumana A.P. Distributed,multi-user,multi-application,and multi-sensor data fusion over named data networks[J]. Computer Networks,2013,56(17):3235-3248.

[11]Qian Y.H.,Li S.Y.,Liang J.Y.,Shi Z.Z.,Wang F. Pessimistic rough set based decisions:A multigranulation fusion strategy[J]. Information Sciences,2014,264:196-210.

[12]Lin G.P.,Liang J.Y.,Qian Y.H. An information fusion approach by combining multigranulation rough sets and evidence theory[J]. Information Sciences,2015,314:184-199.

[13]Qian,J.,Lv P.,Yue X.D.,Liu C.H.,Jing Z. J. Hierarchical attribute reduction algorithms for big data using MapReduce[J]. Knowledge-Based Systems,2015,73:18-31. [14]Jing Y.G.,Li T.R.,Luo C.,Horng S.J.,Wang G.Y.,Yu Z. An incremental approach for attribute reduction basedon knowledge granularity[J]. Knowledge-Based Systems,2016,104:24-38.

[15]景运革,李天瑞. 一种基于关系矩阵的决策表正域约简算法[J]. 计算机科学,2013,40(11):261-264,286.

[16]刘少辉,盛秋戬,史忠植.一种新的快速计算正区域的方法[J].计算机研究与发展,2003,40(5):637-642..

[17]刘清. Rough set及Rough推理[M].北京:科学出版社,2001.

[18]闫鑫,景运革.矩阵增量属性约简算法[J]. 小型微型计算机系统,2018,39(6):1245-1249.

山西省应用基础研究计划项目(201801D121148);运城学院院级项目(YQ-2017028);运城学院院级项目(JG201733)

猜你喜欢
约简粗糙集信息系统
粗糙集与包络分析下舰船运行数据聚类算法
基于隶属函数的模糊覆盖粗糙集新模型
基于0-1规划的最小属性约简算法
基于排队论的信息系统装备维修保障效能分析
基于并行构件技术的医疗信息系统的设计与实现
面向特定类的三支概率属性约简算法
多粒度犹豫模糊粗糙集*
粗糙集的Mallow’s Cp选择算法*
直觉模糊序决策系统的部分一致约简*
基于区块链的通航维护信息系统研究