莫 理,柳本林,张树保,罗 勇,刘代国
(1.西部检修试验分公司自动化检修部,贵州 兴义 562400;2.西部检修试验分公司生产技术部,贵州 兴义 562400)
高扩展性的水电厂光纤测温系统能够处理海量数据流,高效分析水电厂光纤测温数据,为水电厂光纤供电提供指导。
文献[1]将系统可扩展性的优化问题转换为全局通信开销优化问题;利用迭代求解算法,实现系统并行扩展性。该方法的剖分结果不准确,导致系统并行扩展性较差。文献[2]采用IP 溯源技术建立具有高扩展性的求解架构,动态确定溯源轻量。该方法未有效设计系统服务模块,导致系统问题扩展性较差。基于以上理论,设计基于分布式K-means 算法的水电厂光纤测温系统。根据实际可扩展加速比,优化系统可扩展性,提高水电厂的供电经济效益。
1.1.1 计算系统通信可扩展加速比
系统执行程序时产生的通信开销称为真实情况[3]。假设程序执行的所有通信开销为0,将其称作理想情况。程序在真实情况和理想情况下的执行时间如图1 所示。
图1 系统程序的执行
设系统各个程序进程为i=1,2,…,a,理想执行时间为pi,真实执行时间为li,则系统程序的真实执行时间Pa、理想执行时间La的计算公式为:
通信开销,是系统程序由于通信而增加的开销[4]。定义通信开销因子f为:
系统的实际加速比E为:
式中,S为系统程序串行版本的执行时间[5]。当系统规模增大时,实际加速比出现上确界。利用通信墙,定义E值上确界。当系统存在通信墙时,判定系统通信不可扩展;当系统不存在通信墙时,判定其可扩展。结合金钱加速比和实际加速比,得到通信可扩展加速比A为:
式中,c1为系统一个处理单元的金钱开销,ci为i个系统处理单元的并行机金钱开销[6]。由式(4)可知,使用频率高的处理器,能增加系统处理单元数量,从而加快链路和路由器的运行速度,扩大网络规模。至此完成系统通信可扩展加速比的计算。
1.1.2 计算系统能耗可扩展加速比
当系统规模增长时,仅将有效工作产生的能量消耗,视作负载均衡的理想系统能耗[7]。将系统实际运行的能量消耗,视作系统实际情况的能耗。能量消耗随系统规模增长的变化情况如图2 所示。
图2 能耗随系统规模增长的变化
设系统节点有效计算能耗为g1,网络有效通信能耗为g2,网络资源能耗为g3,节点空转能耗为g4,其中g1不随系统规模的增长而改变,则系统n个节点的理想能耗Mn、实际能耗Rn的计算公式为:
系统能耗因子b的表达式为:
设系统节点为j=1,2,…,n,系统能耗实际加速比u的计算公式为:
其中,Rj为系统在j个节点上运行产生的能量消耗,T1、Tj分别为系统在一个节点、j个节点上完成水电厂光纤测温工作量所需要的时间[8]。分析性能增长与能耗增长的内在关系,利用能耗性能率度量额外能量消耗对光纤测温系统计算性能的影响程度[9]。系统能耗可扩展加速比Z为:
其中,V为系统能耗性能率[10]。通过系统能耗可扩展加速比Z,体现系统有效计算能耗与并行引入额外总能耗之间的变化关系[11]。至此完成系统可扩展性模型的构建。
利用协同过滤系统可扩展性模型优化系统可扩展性。在模型中输入水电厂光纤测温的历史数据,不断扩大数据规模,通过分布式K-means 算法计算水电厂光纤测温数据的相似度[12]。定义测温数据的样本集合Q为:
其中,xm=(xm1,xm2,…,xmd) 为第m项数据 的d个不同属性,U为数据集合的样本容量[13]。分布式Kmeans 算法的聚类中心B为:
其中,Ge为第e个簇类中心点,K为簇类个数[14]。计算模型样本集合中,任意两个数据xm和Ge之间的欧氏距离J(xm,Ge)为:
欧氏距离J(xm,Ge)越小,样本数据的相似度越高[15]。
根据模型样本集合的聚类数量,划分系统并行计算的任务数目,聚合相似度高的样本数据放在同一个任务中。分散模型的样本数据集,并行处理多个任务[16]。将分散的数据集块存储在系统的多个节点上,使系统通过元数据节点交互数据,每个小数据集都可以并行操作,处理水电厂光纤测温数据,实现系统的分布式扩展。至此完成基于分布式K-means 算法的系统可扩展性优化,实现基于分布式K-means算法的水电厂光纤测温系统可扩展性优化方法设计。
将该文设计方法与文献[1]、文献[2]所提方法进行对比实验,验证三组方法优化系统可扩展性的有效性。
水电厂光纤测温系统实验环境包含两个环境,分别为分布式运行环境和串行运行环境。分布式环境采用Hadoop 框架配置,版本为Cloudera Hadoop;串行环境采用普通PC 机。实验平台为多个节点组成 的Cluster,节点由18GB RAM 和2.98G 8 核Intel Xeom X9870 CPU 组成。系统搭建Hadoop 节点集群,集群通信基于MPI 库实现。系统数据集选择某水电厂测温的开放数据集,该数据集提供多种规模数据集,将数据集写入HDFS 中。实验环境如表1 所示[17]。
表1 实验环境配置
Hadoop 节点集群使用VMware 虚拟机,在PC 机上虚拟出15台主机,命名为Master、Slavel1-Slavel14,模拟网络可容纳的节点数量,节点IP 地址分布如表2 所示。
表2 Hadoop集群节点IP地址
2.2.1 系统并行可扩展性实验结果
固定系统测试的数据集规模,改变系统测温程序的并行度,测试分布式运行环境和串行运行环境中各个并行度下的通信执行时间。通信时间占比越低,表示并行扩展性越好,实验对比结果如图3所示。
图3 系统通信时间占比实验结果
由图3 可知,设计方法的通信时间占比,明显低于文献[1]、文献[2]所提方法,并行扩展性优化效果更好。
2.2.2 系统问题可扩展性实验结果
固定系统测温程序的并行度,改变系统测试的数据集规模,测试分布式运行环境和串行运行环境中,各个问题规模下的总执行时间。总执行时间占比越低,表示系统问题扩展性越好,实验对比结果如图4 所示。
图4 系统总执行时间占比实验结果
由图4 可知,设计方法的总执行时间占比,要明显低于文献[1]、文献[2]所提方法的总执行时间占比,问题扩展性优化效果更好。
2.2.3 系统响应时间对比结果
改变集群节点数量,采用450 GB 数据集,测试分布式环境和串行环境中的系统响应时间,实验对比结果如表3 所示。
表3 系统响应时间实验结果
由表3 可知,节点数目增加时,系统响应时间随之减少。在分布式运行环境中,设计方法优化后,系统平均响应时间为151 s,响应时间最低。在串行运行环境中,设计方法响应时间为306 s,响应时间最短,提高了系统处理大规模数据的响应效率。
文中研究优化了水电厂光纤测温系统可扩展性,充分利用分布式K-means 算法的技术优势,提高了系统并行扩展性和问题扩展性的优化效果。但该研究仍存在一定不足,未来可以结合协同过滤推荐算法,缓解水电厂大数据稀疏性,进一步减少计算资源的浪费。