潘文秀
关键词: 微分方程; 大数据; 分类系统; 微分分类; 数学模型; 数据采集
中图分类号: TN99?34 文献标识码: A 文章编号: 1004?373X(2019)04?0027?04
Design of big data classification system based on differential equation
PAN Wenxiu
(School of Science, Qinzhou University, Qinzhou 535011, China)
Abstract: The differential classification mathematical model is not used for big data classification in the big data classification system based on orthogonal decomposition, which causes the problem of low classification accuracy. Therefore, a big data classification system based on the differential equation is designed. The hardware of the system mainly includes a data collector and a storage module. The data collector is composed of a chip and a single chip microcomputer. The collected data is transmitted to the network processor for processing by means of the network interface. The storage module is used for storing all the data in the system, which is divided into the application layer, functional layer, semantic layer, design layer and data layer. In the software part of the system, the differential classification mathematical model is constructed by establishing the differential equation with second?order time delay and the constraint conditions for specification set of the differential classification mathematical model. The big data classification codes are designed according to the differential classification mathematical model, so as to realize big data classification. The experimental results show that the designed system has a big data classification accuracy rate of as high as 95%, a memory occupancy rate of only 21%~32%, and a high classification performance.
Keywords: differential equation; big data; classification system; differential classification; mathematical model; data acquisition
随着网络技术的快速发展和大范围应用,网络中的数据量大幅增加,过量散乱的数据增加了用户使用网络信息的难度[1]。因此,需要设计一种大数据分类系统,帮助用户在大量网络数据中快速有效地获取所需信息[2]。
目前,网络大数据分类系统有很多,相关学者取得了较好的成果。文献[3]设计基于Web数据的大数据分类系统,该系统的存储模块未采用层次结构,系统内存占用率高。文献[4]设计基于正交分解的大数据分类系统,其未运用微分分类数学模型,系统大数据分类准确率低。针对上述系统的弊端,设计基于微分方程的大数据分类系统,采用软、硬件结合的方式对该系统的总体结构设计进行描述,运用微分方程对大数据分类系统软件部分进行改进[5],提高大数据分类准确率。
1.1 数据采集器设计
系统硬件中的数据采集器由芯片CP2210和C8147单片机组成,实现网络大数据采集,通过网络接口将采集的数据传送给网络处理器[6],数据采集器硬件结构图如图1所示。
从图1可以看出,数据采集器电源发出6 V电压,通过单片机REGIN引脚传送到单片机电压调节器上,将电压调节到单片机工作所需的4 V电压,并将剩余的2 V电压通过VDD引脚发送给其余部件使用。单片机通过P3,P4端和其他I/O引脚进行信息交换。从网络中获取的信号经过信号调整器,由单片机P25引脚到达A/D转换器,A/D转换器将信号转化为对应的数据,由此完成网络数据的采集。
1.2 存储模块设计
存储模块是大数据分类系统中的核心,用于储存系统中的所有数据。构建存储模块前需明确系统需求,再通过语义层将任务映射给不同种类的分析模型和挖掘模型,并运用系统内的数据得到最终解[7]。本文依据层次模型法和群体协作智能聚类层次模型,将大数据分类系统存储模块划分为应用层、功能层、语义层、设计层和数据层。具体结构如图2所示。
图中,应用层为大数据分类系统存储模块的顶层,该层能够进行问题的描述、区分以及任务分配;功能层是应用层的支持结构,包含相关的功能代码,功能层是大数据在数据存储模块中与用户进行交互的桥梁;语义层实现设计层的数据模型到功能层业务的转化,将设计层的数据模型转化为业务术语进行描述;设计层基于系统需求,运用信息包图设置分类内容,通过数据模型可视化描述分类数据,实时响应大数据分类系统用户检索需求;数据层通过系统控制事件的方式对大数据进行组织,数据层对系统源数据进行访问,完成源数据的提取、整合等操作,其存储被设计为可供查询的关系数据库结构。
1.3 微分分类数学模型
为实现大数据分类,系统软件采用微分方程进行数据分类处理,在Bochner?Riesz空间里建立具有二阶时滞的微分方程[8]:
[x(u)=Bx(u)+Cx(u-e(u))] (1)
式中:[e(u)]为二阶时滞微分方程特征解稳定状态[x(u)]下的时滞项;B,C为二阶时滞微分方程参数。二阶时滞微分方程在界限稳定平衡点[eQi(u)eu=Ui(u)QUQi+Li(u)QLQi]的特征向量表达为:
[φ1(e1(u))=φ+e1(u)Q(X1+X2+X3)-1QU+ (u1-e1(u))[QX-11QU+L(X2+X3)-1LU]] (2)
式中:[Li(u)]和[Ui(u)]分别用于描述参量u在界限边界最低点以及最高点的稳定状态;[QLQi]以及[QUQi]分别表示边界最低以及最高均衡点;[φ]表示二阶时滞微分方程特征解的特征向量。
在[Q0(x01,x02)]点对存在二阶时滞微分方程的稳定解进行Lyapunove泛函处理,根据优化理论得出新的几何区域,通过构建适当的李雅普诺夫泛函加入辅助积分矩阵[9],得到二阶时滞微分方程的稳定解为:
在双界限条件的稳定约束下,把原点相邻区域[M(0)]的解向量作为初始条件,得出存在二阶时滞微分方程稳定解的参量为:
[νn=[Vn+11 Qn+11 0 0 0]U] (4)
式中,与[ν1]的平均特征泛函相同,根据二阶时滞微分项的周期性独立波解,采用稳定解向量作为大数据分类的聚类中心矢量[10],进行微分分类数学模型的构建。
1.4 大数据采集程序
为实现系统硬件中数据采集器对大数据的采集,设计相关逻辑代码如下:
//采集功能
Common affiliation tehean DapperKonlacatin
{common web dapperBy Befy()
{Link web = dapper(done);
//采集网络数据
while (web** i <15)
{
web = dapper(done);
i++;}
return web;
//返回客户端
Common affiliation customer
Common affiliation data tehean done;
}}
1.5 大数据分类程序
为了实现系统网络处理器中的大数据分类,根据微分分类数学模型设计相关大数据分类代码。对网络大数据进行分类,依据数据归属状态进行类别划分,给网络数据处理器提供逻辑判别的依据,设计代码如下:
//分类对象
Common affiliation data
{Witemind Deep datanum;
Witemind Deep dataFinder;
Witemind set dataInter;
Witemind circle yeak
Witemind circle ping}
if (concent have no "mind")
//將相同数据归属状态的数据划分为一类
for(data list)
if(data does not belong to the data list)
for(confirm the keyword list)
if(it is)
continue;
else
为验证基于微分方程的大数据分类系统的有效性进行实验,实验所用数据来自网络信息库,系统运行需要2台计算机,系统硬件配置为:Intel Rean?core 3 GHz处理器,32 GB内存。
2.1 参数设置
实验所用数据类型分别为:经济学数据、工业经济数据、贸易经济数据、交通运输经济数据等大数据,将它们编号分别为K1,K2,K3,K4等;数据大小分别为1 742,1 685,1 693,1 824等。
2.2 大数据分类效果分析
依据上述实验数据参数,对本文系统、基于Web数据的大数据分类系统以及基于正交分解的大数据分类系统的大数据分类性能进行对比实验,实验采用三个系统对实验大数据进行分类处理,三个系统所得大数据分类结果分别如表1~表3所示。
由表1可知,基于Web数据系统在5次测试中,随着实验次数的增多,大数据分类的准确率和大数据分类预测值未明显升高,且系统数据召回率一直处于90%左右。由表2可知,基于正交分解系统在5次测试中,大数据分类的准确率未超过90%,系统数据召回率同样一直处于90%左右,大数据分类预测值较低。由表3可知,本文系统的大数据分类准确率一直高于95%,且分类准确率随着实验次数的增加而升高,本文系统数据召回率高达99%,大数据预测值较高。由表1~表3的实验数据可以看出,本文系统进行大数据分类的准确率和系统数据召回率都明显高于另外两个分类系统。
为了进一步验证本文系统的性能,对不同系统CPU占用率和内存占用率情况进行对比,结果如表4所示。
由表4可知,本文系统的CPU占用率范围为55%~67%,内存占用率范围为21%~32%;而基于Web数据系统的CPU占用率范围为65%~82%,内存占用率范围为38%~49%;而基于正交分解系统的CPU占用率范围为68%~85%,内存占用率范围为41%~51%。因此,本文系统的资源占用率明显低于另外两个系统,验证了本文系统有较好的性能。
本文系统与另外两个对比系统在内存消耗和分类速度上也有较大区别,三个系统内存消耗对比如图3所示,三个系统分类速度对比如图4所示。
由图3可以看出,本文系统的内存消耗最高为1 000 KB,相比于另外两个系统的最高消耗2 500 KB,1 900 KB明显较低;由图4可以看出,本文系统的分类速度在50 s达到最高,为240 KB/s,另外两个系统的最高分类速度分别为180 KB/s,110 KB/s。
由以上数据可以得出,本文系统的资源占用率低,内存消耗较小,同时系统数据库的内存较大;本文系统不仅提升了大数据分类的准确率,还减少了数据分类所需时间,具有较高的大数据分类性能。
本文设计基于微分方程的大数据分类系统,采用软硬件结合的方式对系统整体构造进行设计。首先分析了系统硬件构造,主要包括数据收集器、网络处理器、网络接口和存储模块;软件设计中,采用数学模型对大数据进行分类,并给出数据采集和大数据分类的关键代码。实验结果表明,所设计的系统在进行大数据分类时,分类准确率为95%,同时系统资源消耗低,具有很好的分类性能。
参考文献
[1] 袁芬,徐从富.基于机会协作的农业物联网大数据处理系统设计[J].计算机应用,2014,34(7):2136?2139.
YUAN Fen, XU Congfu. Big data processing system based on opportunistic cooperation for agricultural Internet of Things [J]. Journal of computer applications, 2014, 34(7): 2136?2139.
[2] 王永坤,罗萱,金耀辉.基于私有云和物理机的混合型大数据平台设计及实现[J].计算机工程与科学,2018,40(2):191?199.
WANG Yongkun, LUO Xuan, JIN Yaohui. A hybrid big data platform based on private cloud VMs and bare metals [J]. Computer engineering & science, 2018, 40(2): 191?199.
[3] 段青玲,魏芳芳,张磊,等.基于Web数据的农业网络信息自動采集与分类系统[J].农业工程学报,2016,32(12):172?178.
DUAN Qingling, WEI Fangfang, ZHANG Lei, et al. Automatic acquisition and classification system for agricultural network information based on Web data [J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(12): 172?178.
[4] 向小佳,赵晓芳,刘洋,等.一种正交分解大数据处理系统设计方法及实现[J].计算机研究与发展,2017,54(5):1097?1108.
XIANG Xiaojia, ZHAO Xiaofang, LIU Yang, et al. A design method and implementation of orthogonal decomposition based big data processing system [J]. Journal of computer research and development, 2017, 54(5): 1097?1108.
[5] 魏萍,丁卯,左信,等.基于微分方程对称的分布参数系统稳态控制[J].自动化学报,2014,40(10):2163?2170.
WEI Ping, DING Mao, ZUO Xin, et al. Steady?state control for distributed parameter systems by symmetry of differential equations [J]. Acta Automatica Sinica, 2014, 40(10): 2163?2170.
[6] 曾胜.重大危险源动态智能监测监控大数据平台框架设计[J].中国安全科学学报,2014,24(11):166?171.
ZENG Sheng. Framework design of large data platform for monitoring and controlling major hazards dynamically and intelligently [J]. China safety science journal, 2014, 24(11): 166?171.
[7] 李雨童,姚登举,李哲,等.基于R的医学大数据挖掘系统研究[J].哈尔滨理工大学学报,2016,21(2):38?43.
LI Yutong, YAO Dengju, LI Zhe, et al. Research on data mining system for big data in medical field based on R platform [J]. Journal of Harbin University of Science and Technology, 2016, 21(2): 38?43.
[8] 陈学斌,王师,董岩岩.面向大数据的并行分类混合算法研究[J].微电子学与计算机,2016,33(4):138?140.
CHEN Xuebin, WANG Shi, DONG Yanyan. Research on parallel classification hybrid algorithm for big data [J]. Microelectronics & computer, 2016, 33(4): 138?140.
[9] 胡为艳,艾民,周光彬,等.基于大数据的信令监测系统的设计与实现[J].电视技术,2016,40(1):95?101.
HU Weiyan, AI Min, ZHOU Guangbin, et al. Design and implementation of big data based signaling monitoring system [J]. Video engineering, 2016, 40(1): 95?101.
[10] 王丹,张广,陈锋,等.智能检伤分类系统的设计与研究[J].军事医学,2015,39(9):651?655.
WANG Dan, ZHANG Guang, CHEN Feng, et al. Design and research of intelligent system for triage [J]. Military medical sciences, 2015, 39(9): 651?655.