姜姗 任靖娟 高志宇
摘 要: 传统的数据库挖掘系统是基于粗略集合方法进行挖掘,该系统在面对庞大的数据量时,系统运行效率较差,为此设计基于聚类优化的大型网络数据库挖掘系统。搭建数据采集所需的传感器节点结构,选择CC3200作为主控芯片,在原有的电路中引入射频通信电路,实现数据的无线传输;在此基础上,对数据库中数据进行预处理,利用优化后的聚类算法和软件程序实现数据挖掘,至此系统设计完成。测试结果表明:与传统的数据库挖掘系统相比,基于聚类优化的大型网络数据库挖掘系统在处理庞大的数据量时,系统始终保持较高的运行效率,適合应用在大型网络数据库中。
关键词: 大型网络; 数据库挖掘系统; 聚类优化; 数据传输; 系统设计; 仿真测试
中图分类号: TN911?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2020)06?0175?03
Design of large network database mining system based on clustering optimization
JIANG Shan, REN Jingjuan, GAO Zhiyu
(School of Information Technology, Henan University of Traditional Chinese Medicine, Zhengzhou 450000, China)
Abstract: As for the traditional database mining system based on the rough set method has poor efficiency of system operation when facing huge amount of data, large network database mining system based on clustering optimization is designed. The sensor node structure required for data collection is built, CC3200 is selected as the main control chip, and the RF communication circuit is introduced into the original circuit to realize the wireless transmission of data. On this basis, the data in the database is preprocessed, and data mining is realized by means of the optimized clustering algorithm and software program, so that the system design is completed. The testing results show that, in comparison with the traditional database mining system, the large network database mining system based on clustering optimization keeps high efficiency when dealing with large amount of data, which is suitable for application in large network database.
Keywords: large networks; database mining system; clustering optimization; data transmission; system design; simulation test
0 引 言
随着信息技术的发展,人类已经进入大数据时代,对庞大的数据进行分析和处理需要利用数据库挖掘技术,这是一种随着大数据时代到来而产生的技术。数据库的挖掘是通过算法将具有潜在价值的、可利用的信息数据从庞大的数据中分析提炼出来的过程[1]。该技术综合了模式识别、搜索建模和人工智能等技术,进行归纳与推理,摸索出数据间存在的潜在关系,为信息数据的传递提供了良好的基础[2]。
数据库在不断的扩大,使数据的种类越来越多,复杂程度越来越大。那么对聚类算法也应有更高的要求,传统聚类算法已经很难满足实际要求,为此在传统聚类算法上进行优化,设计基于聚类优化的大型网络数据库挖掘系统,克服传统聚类算法中的缺点,实现对高维复杂数据的聚类。
1 大型网络数据库挖掘系统硬件设计
设计大型网络数据库挖掘系统,首先需要采集所需数据,做训练数据集,具有针对性的进行数据库挖掘[2]。数据采集利用无线传感器技术来实现,无线传感器一般由传感器节点、用户管理节点、汇聚节点、互联网以及被监测区域组成[3],如图1所示。将传感器节点布置在监测目标附近,方便感知监测目标的各项属性,监测到的信息通过汇聚节点接收的同时,用户终端接收到数据并进行分析,并且通过汇聚节点实现对传感器节点的控制与管理。
1.1 传感器节点结构设计
传感器节点是实现数据采集的核心,主要有传感器模块,处理器模块,无线通信模块以及电源模块组成,如图2所示。
在传感器节点中,传感器模块负责数据采集,该模块主要通过传感器感知各种信息,而将模拟参量转化为数字参量,方便处理器模块对数据进行处理的是ADC。而处理器模块主要使用来接收和存储数据。最后实现无线数据传输的是无线通信模块。电源模块提供稳定的电压,为系统提供能量,维持系统的正常运行。根据系统实际需求选择CC3200节点主控芯片。CC3200是目前应用范围最广,功能最强大控制芯片[4],其为用户开发提供运行频率为80 MHz高性能处理器等。
1.2 射频通信电路设计
傳感器节点以CC3200主控芯片为核心,配合外围电路实现数据采集,由于CC3200是一种单片无线微控制器,其外围电路包括电源电路、复位电路、晶振电路、WiFi射频模块电路以及接口电路[5]。主要实现无线传输的是CC3200芯片内部的射频产生射频信号,该信号进入2.4 GHz天线,通过天线向外传送无线信号。WiFi射频通信电路如图3所示。
设计WiFi射频信号电路,保证2.4 GHz射频信号在WiFi射频信号电路中具有良好的传输性能,并且在实现消除负载对射频信号的反射,使射频信号在传输过程中使信号源输出最大功率。
2 大型网络数据库挖掘系统软件设计
2.1 数据采集及预处理
大型网络数据库挖掘是一个复杂的过程,根据实际要求采集所需数据,采集到的数据被存储到数据库中。此时数据库中的数据未经过筛选,会存在很多噪音和没有用的离散点,所以需要先对其进行预处理,提高数据所具有的的特性,使数据在挖掘过程中聚类速度更快,结果更加优异[6]。在完成数据预处理后,根据数据特性的不同利用优化后的聚类算法进行聚类分析获得不同的聚类结果。
对数据进行数据清洗,利用分箱技术去除掉数据中的噪声数据和冗余数据,使用与给定元素类似的样本平均值填写空值。根据用户的设置对整个数据集重新排序,对可匹配的数据记录进行多次刷新,确定结果的准确性。对多个数据库运行环境中的异类数据进行合并,可为后续的聚类提供方便[7]。
2.2 优化聚类算法
若,则划分矩阵U和聚类中心C为就是最终的结果,反之重复以上步骤。假设存在一组含有10个样本的二维数据,将其分成3个簇,其分布如图4所示。
利用获得的聚类中心计算类间分离度,从而计算数据样本的特征权重[f]。对数据样本的特征的计算是基于最大分离原则的思想,也就是需要增大某一维的属性权重。一般情况下选择各维特征中最具代表性的,这样能够使其对划分的贡献尽可能的明显,降低对划分的干扰[9]。其特征权重的计算公式如下:
式中:[Zdistj]表示类间分离度;[ηj]表示平衡系数;r表示系数。构成权重的初始聚类中心矩阵类间分离度和平衡系数存在一定的关系,新的分离度是平衡系数和最初的聚类中心矩阵的分离度相乘的结果。
2.3 基于聚类优化的数据挖掘
通过优化后的聚类算法对数据进行分类,将数据保存在不同的数据仓库中,并获得其特征权重,根据实际需求利用不同的特征权重对数据进行挖掘。实现数据挖掘的部分代码如下所示。
{class Kmdiod()
get_data(self) //接收数据
centroids = self.,data[init_index,:] //初始化簇心
print(′开始迭代′);
target = []
stop = false //初始参数设定
while(not stop): //开始遍历数据
stop =true
points = [[can] for in can]
target = []
for sample in self.data; //计算离数据最近的簇心
target.append(level) //统计迭代完成后所有簇心
for s in range(self.cen) //寻找簇对应的欧氏距离最小的中心
n_distances = sum(distance) //统计簇中共有多少个中心
for(int i=0;i if(belong[i]){ cout< } 聚类算法将所有数据对象划分为多个聚类,同一聚类中的对象存在较高的相似值,不同的聚类对象的相似值较小[10]。利用数据样本的特征权重进行数据挖掘,将数据分到相似度最大的类中,实现基于聚类优化的数据挖掘。 3 仿真测试 对基于聚类优化的大型网络数据库挖掘系统进行测试,测试过程中利用不同的数据类型,以及数据量的变化,测试系统的运行效率,并利用传统的数据库挖掘系统作为测试对比对象,进行测试分析。 3.1 测试准备 测试过程中,需要准备三种不同类型的测试数据,并且设置数据量为2~18 GB,利用聚类算法进行数据挖掘。相关参数设置如表1所示。 利用Matlab软件进行仿真,通过基于聚类优化的大型网络数据库挖掘系统和传统的数据库挖掘系统进行挖掘,在系统与Oracle数据库交互过程中,手动配置Web文件,实现系统与数据库的连接。 为保证测试的可靠性,模拟的数据量为测试的典型值,不是重复值和随机值。利用两种系统对提供的数据量进行挖掘,分析挖掘结果,根据分析结果分析系统的运行效率。 3.2 测试结果及分析 在不同数据量下的仿真测试结果,绘制测试结果对比曲线,如图5所示。从图中可以看出,传统的数据库挖掘系统随着数据量的增加,系统的运行效率逐渐减小,特别是在数据量增加到10 GB之后,出现了明显的下降趋势。而基于聚类优化的大型网络数据库挖掘系统,随着数据量的增加,产生的波动较小,系统的运行效率基本没有受到太大的影响,始终保持比较稳定的状态。两者相比可以明显看出提出的基于聚类优化的数据库挖掘系统,在处理大量数据时,依然能保持高效处理,适合应用在实际项目中。 4 结 语 设计基于聚类优化的大型网络数据库挖掘系统,针对聚类初始中心进行优化,引用权重特征,利用优化后的聚类算法和软件程序完成数据挖掘数据挖掘的应用范围十分广阔,如科研领域和商业领域,而数据挖掘系统在实际应用中的发展,具有一定的现实意义。 参考文献 [1] 肖宗水,孟令童,孔兰菊,等.基于数据库日志关联规则挖掘的业务流程优化[J].计算机集成制造系统,2017,23(5):993?999. [2] 王晓妮,段群,韩建刚.基于云计算的数据挖掘系统设计与实现[J].计算机技术与发展,2019,14(3):178?182. [3] 张沛朋,魏楠.基于数据挖掘技术的个性化移动推荐系统设计研究[J].西安文理学院学报(自然科学版),2017,20(2):41?45. [4] 王永胜,李晖,陈梅,等.VISDMiner:一个交互式数据挖掘过程可视化系统[J].计算机与现代化,2018(6):76?82. [5] 侯亮,王新栋,高倩,等.基于Hadoop的农业大数据挖掘系统构建[J].农业图书情报学刊,2018(7):21?23. [6] 李洪奇,张艳丽,杨景海,等.特征聚类在油田测试方案优化中的研究[J].计算机工程与应用,2017,53(21):214?218. [7] 张恒,李世其,刘世平,等.一种聚类优化的传感器布置方法研究[J].振动与冲击,2017,36(14):61?65. [8] 陈志雄.基于hadoop平台的分布式数据挖掘系统的设计探讨[J].数字技术与应用,2017(1):179?179. [9] 程慧,李建芬,付龙,等.基于95598大数据挖掘的系統设计及研究[J].贵州电力技术,2017,20(9):17?19. [10] 梁双,周丽华,杨培忠.基于聚类分析分库策略的社交网络数据库查询性能与数据迁移[J].计算机应用,2017,37(3):673?679.