基于迁移学习的并行化大数据流传输系统设计

2020-09-23 08:06庞崇高陆玉发

现代电子技术 2020年18期

庞崇高陆玉发

摘要：传统系统在并行化大数据流组件不变情况下的吞吐量会随着并发数增多而减少，影响数据流传输效率。为了解决这一问题，提出基于迁移学习的并行化大数据流传输系统。系统硬件由FPGA 核心控制器、XC7K325T?2FFG 900芯片、DCM时钟组成，用于实时传输数据流。系统软件是在STORM平台上引入迁移学习算法。软、硬件结合，完成基于迁移学习的并行化大数据流传输系统设计。实验分别测试了两个系统在并行化大数据流组件不变情况下的吞吐量。将并行化大数据流分类组件设置为（5.5），（5.6），（5.7），（5.8），从实验结果可知，所设计的系统吞吐量会随着并发数、线程增多，呈上升趋势，能够有效提升并行化大数据流传输效率。

关键词：并行化大数据流; 数据流传输; 系统设计; 迁移学习算法; 吞吐量测试; 数据矩阵

中图分类号： TN919?34; TP421 文献标识码： A 文章编号： 1004?373X（2020）18?0040?03

Abstract： As the throughput of the traditional system could decrease with the increase of the concurrent amount under the circumstance that the parallel big data stream component is unchanged， which will affect the transmission efficiency of data stream， a parallel big data stream transmission system based on transfer learning is proposed. The system hardware is composed of FPGA core controller， XC7K325T?2FFG900 chip and DCM clock， which is used to transmit data stream in real time. The system software can realize the introduction of transfer learning algorithm on the STORM platform. The design of the parallel big data stream transmission system based on transfer learning is completed in combination of the software and the hardware. In the experiment， the throughputs of the two systems under the circumstance that the parallel big data flow components are unchanged are tested. The parallel big data stream classification components are set to （5.5），（5.6），（5.7） and （5.8）. It can be seen from the experimental results that the throughput of the designed system can be on the rise with the increase of the concurrent amount and threads， which can effectively improve the transmission efficiency of parallel big data stream.

Keywords： parallel big data stream; data stream transmission; system design; transfer learning algorithm; throughput testing; data matrix

0 引言

传统的并行化大数据流传输系统运用图形处理单元强大的计算能力，协助CPU处理大数据流，虽然可以高效处理完成复杂的计算[1]，但会降低数据流实时传输的限制约束。为了更好地处理并行大数据流，提出基于迁移学习的并行化大数据流传输系统。在本次硬件结构设计中，主要在以Xilinx FPGA产品为主的结构下设计大数据流传输总线。软件在STORM平台上，引入迁移学习算法，实现并行化大数据流传输。

1 硬件结构设计

基于迁移学习的并行化大数据流传输系统中的各个功能系统是通过 FPGA 核心控制器上传信息的。经过数据采集系统调节后，获取信息[2]。再利用XC7K325T?2FFG 900 芯片将采样的信号上传系统。待处理后，通过DDR3 SDRAM實现大容量数据缓存。图1为并行化大数据流传输系统硬件架构。

图1中的FPGA 核心控制器实现了并行化大数据流的传输。采用多通道 LVDS传输连接方式，利用迁移学习法预测分析在未来时间点上的并行化大数据流值。具体传输过程：首先，要分段大数据流，分析所有段的聚类，再输出一定数量簇中心，将这部分数据流归到系统的第一层，接着聚类分析此层的簇中心点。获取的簇中心点要归结到下一层。

经过迭代计算求出最优解。再构造数据矩阵，用行或者列索引作为标识符。最后，比较相关系数数据集与设定的阈值。若满足条件，即可使用基本窗口模型，将数据流传输到滑动窗口，计算分析数据矩阵特征值，实现实时传输数据流的目的[3]。

图1中的XC7K325T?2FFG 900 芯片是系统硬件的核心，负责将指定的单条数据流和多条数据流传输出去。低频率的并串电路是由数字电路构成。运用VHDL功能仿真和器件编程就能很快找到所需的数据流。但是当电路频率提高时，VHDL编写出的逻辑电路是无法满足设计需求的。为此，选用高速运算放大器将差分转化为单频率信号[4]。再通过4位寄存器，输入到数据选择当中，完成输出。

当数据流通过DCM时钟信号PCLKI锁存到4位寄存器中时，就会被当作FIFO写入DCM时钟。PCLKO是FIFO寄存器的读取DCM时钟，是用于加载数据选择器中的数据流。FIFO能够识别DCM时钟在单位间隔内的变化。当读写DCM时钟接入相同的FIFO寄存器地址时，RESET信号至少要达到4UI，为了消除这种情况，就需要复位FIFO。待复位后，宽动态范围的FIFO会重新开始工作[5]。当数据流从FIFO中读出时，要输入到数据选择器中，并转换为并行化大数据流输出。

由此，完成基于迁移学习的并行化大数据流传输系统硬件结构的设计。

2 软件功能设计

在STORM平台上部署基于迁移学习算法实现并行化大数据流传输。通过归一化处理得到标准化样本，再通过减法聚类算法确定初始聚类中心[6]。经过迁移学习算法进一步迭代后，就可以得到较优的聚类中心。聚类样本是归一化后的标准样本，需要通过FCM处理，将所得的较优的聚类中心作为迁移学习算法的输入聚类中心，再进行聚类，实现样本数据的故障诊断[7]。

在STORM平台中，Bolt是数据处理的基本单元，Bolt组件间具有灵活的订阅关系[8]。为实现相关特征下向量数据的并行故障诊断，要处理元组件中发送的元组。

传输过程：首先，处理数据。将处理过程封装在PreBolt组件中，经过标准化处理后的聚类样本可以加快聚类的收敛速度，降低迭代次数[9]。其次，在STORM平台中部署迁移算法处理并行化大数据流。同第一步，将迁移算法封装在SubBolt组件中[10]。SubBolt组件接收到的数据来源于PreBolt组件传递的元组。在元组中的数据为PreBolt组件的数据集，为标准化待聚类样本。这些样本需要参加后续的聚类诊断处理，按照编号进行最终的汇总[11]。最后，实现迁移学习算法引入。为避免后续迁移学习算法陷入局部最优，将得到的初始聚类中心封装为一个元组，传递给下游组件，即K?meansblot。在聚类的过程中，需要将上游传来的聚类中心作为初始聚类中心[12]。通过迭代计算后，不断更新得到最优的聚类中心。将此类聚类中心封装给下游组件Fcmblot。Fcmblot是系统软件的主体部分，在组件内实现迁移学习算法，通过模糊隶属度确定标准化待测样本的类别[13]。Fcmblot与上游K?meansblot组件是相结合的整体。总体聚类效果相比单一的Fcmblot组件更好，具有较强的鲁棒能力[14]。

由此，完成基于迁移学习的并行化大数据流传输系统的软件设计。

3 实验分析

3.1 实验环境

为验证所提的并行化大数据流传输系统的可行性，设置仿真实验。在实验室搭建STORM平台，共有5台服务器组成物理集群。服务器之间用千兆交换机相互连接。将虚拟软件Xenserver安装到每台服务器。在上述环境下，虚拟出9个节点，每个节点分配2个CPU核心。在这9个虚拟机上，都安装传统系统和本次设计的系统。虚拟机1为主控节点。虚拟机2～9为工作节点，如表1所示。

先部署与系统有关的外部环境，再部署STORM框架。STORM安装版本为STORM 1.0.1。在每个工作节点都要分配4个Worker Slot，节点之间可以通过交换机连接。

3.2 实验搭建过程

1）分别在主控节点和工作节点安装STORM，安装STORM后的系统比较依赖外部资源。

2）在主控节点和工作节点上，下载STORM发布版本。

3）修改STORM配置文件。

4）使用脚本启动STORM后台进程。

安装STORM后，会比较依赖外部环境，所以要先创建安装目录，下载JDK文件，解压到该目录。配置Java路径，而Zero下载编译后，直接安装。为确保JZMQ正常工作，需要Java变量对应，因为系统版本不同，需要安装不同的组件。

为了检测传统系统和基于迁移学习的并行化大数据流传输系统在并行化大数据流组件不变情况下的吞吐量，将并行化大数据流分类组件设置为（5.5），（5.6），（5.7），（5.8）。表2和表3为所提系统与传统系统在并行化大数据流组件不变情况下的吞吐量。

在组件不变的情况下，使用所建系统的吞吐量会随着分类组件并行度的增加呈上升趋势。这是因为新增线程数据量增加导致的。而使用传统系统的吞吐量在不断减少。随着并发数的增多，每个线程所获取的资源也在逐渐减少。由此可知，文章所建立的基于迁移学习的并行化大数据流传输系统所设置的组件并行度可以有效提高大數据流传输效率。

4 结语

针对传统系统存在的问题，提出基于迁移学习的并行化大数据流传输系统设计。系统的硬件设计由FPGA 核心控制器、XC7K325T?2FFG900 芯片、DCM时钟组成，软件是在STORM平台下引入迁移学习算法。完成系统设计。最后通过实验验证，所提系统具有一定可行性。

参考文献

[1] 任俊，胡晓峰，李宁.基于SDA与SVR混合模型的迁移学习预测算法[J].计算机科学，2018，45（1）：280?284.

[2] 衡冬冬，唐玉华，易晓东，等.并行原型系统上BFS算法设计实现与测试分析[J].计算机工程与科学，2017，39（1）：27?34.

[3] 曾瑛，李星南，刘新展.电力通信大数据并行化聚类算法研究[J].电子技术应用，2018，44（5）：1?4.

[4] 夏为丙，杨朝明，张志文.多路高速串口并行传输系统设计[J].仪表技术与传感器，2018（2）：97?100.

[5] 王林童，赵腾，张焰，等.基于Hadoop的风力发电监测大数据存储优化及并行查询方法[J].电测与仪表，2018，55（11）：1?6.

[6] 朱永利，李莉，宋亚奇，等.ODPS平台下的电力设备监测大数据存储与并行处理方法[J].电工技术学报，2017，32（9）：199?210.

[7] 金宇.基于云计算环境的大数据兼容性存储系统设计[J].现代电子技术，2019，42（1）：24?27.

[8] 朱嘉舟，邵培南，陈景.影像数据分布并行计算处理平台体系架构研究[J].计算机工程，2017，43（5）：60?66.

[9] 徐源，程潜善，李阳，等.基于大数据聚类的电力系统中长期负荷预测[J].电力系统及其自动化学报，2017，29（8）：43?48.

[10] 梁胤程，袁媛，杨峰.基于Hadoop的探地雷达数据并行处理方法研究[J].系统仿真学报，2017，29（1）：120?128.

[11] 季一木，张永潘，郎贤波，等.面向流数据的决策树分类算法并行化[J].计算机研究与发展，2017，54（9）：1945?1957.

[12] 宋中喆，裴东兴，杨少博.基于USB3.0接口的高速數据传输系统设计[J].现代电子技术，2017，40（4）：159?162.

[13] 杜兴林，经小川，梁光成，等.基于FPGA的多通道高可靠高速单向传输系统设计[J].计算机应用，2017，37（S2）：6?10.

[14] 徐志刚.基于嵌入式的火灾检测系统设计[J].现代电子技术，2017，40（10）：168?171.

[15] 李莉，朱永利，宋亚奇.泄漏电流数据的Spark?KNN并行模式识别方法[J].系统仿真学报，2018，30（4）：1473?1481.