相坤 杨建设
摘要:以流数据为核心主线,通过研究相关系列的流处理技术,如流采集、流存储、流计算及流安全等,形成一套先进的分布式流数据处理体系。通过引用自适应编码、时分复用及效用均值等先进技术,提升系统的处理效率和预测精准度。面对未来广而大的电网应用场景,能够从容面对庞大数据流的冲击,并且在复杂的多源异构的数据业务接入时,能够协同处理和精准计算,为未来电网顺利融合发展提供数据安稳传输的可靠保障。
关键词:多源异构;大数据;分布式流
中图分类号:TP391文献标志码:A文章编号:1008-1739(2018)23-68-4
0引言
广域智能电网将涵盖多态能源发电、长短距离灵活输电、稳定可靠变电及态势感知配用电等多个环节的全景实时系统,支撑智能电网安全、自愈、绿色的基础是电网中采集的数据,经过合理的数据处理联动系统,准确掌握电网运行情况,数据信息与广域电网相伴而生、同伴而行[1]。
电力数据处理联动系统是一个数据全寿命周期管理的平台,从数据的产生、录入、采集、存储、计算挖掘及安全应用系列管理流程,每一个步骤都应选择合适的流处理算法或手段来增强数据传动的效率。例如在流采集方式选择时,应采用并发式采集方法,增加数据的并发量,通过强融合技术将跨业务数据编码分类,删除冗余部分,很大程度上压缩了数据容量。流存储是处理高效的关键,选择合适的存储器部署方式,可压缩存储服务器规模,提升数据调用及访问速度。流数据挖掘是流处理的难点,计算分析结果直接影响业务系统运行的智能性和先进性,流安全是数据运行系统的保障,新业务和网络的增加都会引入不安全因素,网络不法分子会通过信息攻击手段盗取有用数据信息,而造成系统不稳定运行,因此需利用监控、态势感知、报警及阻断等综合手段进行非法隔离[2]。
1大数据流处理系统
数据流是不断到达的数据元所构成的无限数据集,与传统静态数据相比,数据流具有无限性、时序性、噪声性及规模不可预知性等特点,并且数据之间有一定的关联性,数据流的特性会给处理过程带来好处和挑战[3]。
分布流處理系统是一个很复杂的过程,它由多个子系统组成,需要不同的子系统之间相互分工、共同协作。一个完整的流式数据处理系统由4部分组成:①数据采集系统:用于收集、汇总原始数据;②数据存储子系统:一方面,在一些场景中需要将海量的原始数据保存较长时间,供后续数据分析及防止系统故障导致的数据丢失;另一方面,原始数据被处理之后,部分数据会被立刻交付给应用系统进行服务程序,也有部分是需要共享或者长期保存的,将处理后的结果存储到可靠介质中;③数据计算:主要完成对数据的深度分析,寻找其关联性,从而预测下一时间段出现的可能性或者寻找数据运行规律,计算算法系统会不断扩容新分析算法放大到计算模型库中;④数据安全管理:对系统数据全寿命周期过程的创建、存储、访问、传输、销毁及回复等过程进行安全控制。
电网中存在的流数据占数据信息的绝大部分份额,针对流数据的不可控性,通过系列手段对其进行压缩、智能处理,将数据充分融合到业务服务中,通过数据作为用户的行为指导,提升电网的运行经济性及社会服务水平。
2数据架构层次分析
随着全球能源互联网及北电南送等概念的提出,特高压技术支撑着长距离的输电场景的实现,智能电网已经不仅仅是表明狭义范围内的电网智能化概念,更添加了广域场景。在这种泛在的应用环境下,将会发生数据流的量崩,不同渠道的流式数据汇聚、交互、融合将会产生更加奇特的功能[4-5]。
流式数据应用是由数据采集、清洗、融合、分析及展示多环节所形成的有机整体,针对广域多源数据构建适应其特征的流数据分析架构,在每一层次中优选算法进行数据分解、聚合和推导,量身定制的数据处理平台更加适合未来电力系统发展趋势,流数据处理分层架构如图1所示。
从图1中看到数据流处理框架分层明晰,数据源将不再局限于某个区域或某一类数据,而是将全球电网数据形成融合的大型数据资源池,不同国度、不同区域、不同业务系统的数据格式是各异的,数据流以一定的速度进入采集系统,通过区域代理的形式映射到数据采集区,再利用适配器将数据代理前端标识统一转换,并按照一定的规约统一编码,庞大的数据通过有序采集分类后,进一步压缩数据,删除部分冗余的重复数据,形成有效可利用的数据资源池,将流数据能够长期保存还需通过下一步的流存储步骤。
根据流式文件形式的不同,分为文件型、数据型、关联型和即时消息型,采集好的分类数据通过流数据抽取到不同类型的数据库,数据库内部通过压缩将数据长期保存,并可按需随时调用。管理数据的目的第一是知晓系统运行状态,第二是预测未来运行状况,完成第一目标调用查看方式即可,完成第二目标则需要流挖掘的方式,在系统内部会存取各种数据流计算模型及模型调用程序,分析业务计算需求,调用驱动程序就能开启算法运行,从而得到应用系统想要的预测结果。
由于数据是裸露在共享与全球大电网下,因此安全性是至关重要的,需通过各种安全手段实时监控数据流经过的每一个步骤,并根据每个环节的特点自适应开启相应安全防护手段,一旦出现危机则立即报警,利用联调互助手段,在最短时间内响应故障请求。
3分布式流协同处理技术
3.1分布式数据流融合采集
数据采集最终目的是实现在保证数据准确性的前提下,将广域数据清洗融合后存入HDFS中。目前已有的采集方式虽能实现数据简单的融合,并没有清洗冗余重复的数据,并且数据在通道传输过程中缺少监控手段来保障数据的可靠性,适配器和代理不是一一对应关系。针对已有的问题,对采集方法进行改进,完善数据流采集性能。继承分散收集和集中处理的思想,打破多个系统之间的割裂封闭状态,形成统一数据模型,整合多系统数据,并在原有平台资源动态支撑的基础上,完成高级应用分析功能,如图2所示。
数据流的来源范围很广,甚至遍布全球电网业务系統,每一个业务子系统数据都利用一个数据代理做数据映射,并通过统一的编码和合适的适配器进行数据格式统一后,进入对应的传输通道,通道内启用自动排序功能,数据按从大到小的顺序排列,并部署监控探针,防止数据的丢失和噪声干扰。电网业务系统间的数据会存在很大部分的数据重复,通过清洗过程,将重复的部分自动删除后,仍然选择分布式采集的方式进入HDFS数据库存储。
3.2数据流存储技术
流存储区别于静态数据或文件存储,数据流具有时序性,因此只能按照时间顺序先到先存的机制访问存储器。本文利用时分复用的思想,将时间划分为很短的时间间隔,每个时隙里传输一类短数据集,加快了存储速率,也压缩了通信开销。流存储器的带宽不需太大,但接口速率尽量保持最大,时分复用流存储原理如图3所示。
时分复用存储算法是借取了无线通信中数据传输的思想,流数据具有时序性,但不同业务系统数据流传输的速率是不同的,把时间划分为很小的时隙,对于不同传输周期的数据流,在某些时隙上是不传输数据的,充分利用空闲的时隙,自适应的见缝插针,达到满帧时按序排列进入数据库存储,这种存储方式充分利用流数据的特性,开拓了时间维度的新方法,解决了大量数据流快速存储的问题。
3.3智能流计算技术
数据被实时地收集和汇总形成数据流,为了尽快得到实时应用系统需要的数据结果,需要数据分析系统能完成对原始数据的处理。在大数据环境下,单台服务器很难满足短时间内大量的数据计算要求,且考虑到业务和数据的增长,这些都要求数据分析系统具有良好的扩展性。
由于广域智能电网中所包含的数据领域非常广,如需对数据预测精准分析,需要一个涵盖面积大的计算模型池,通过驱动引擎调用的方式激活算法执行过程,从而得到最优结果。本文采用的是效用最大的驱动调用算法,首先将根据算法模型性质分类,计算每个算法的效用值,将同一类算法圈起来,并计算能效平均值,并按从大到小顺序排序。当驱动接收到计算需求的广播信息后,判断需求属于哪种计算类,然后调用效用值最大的驱动,最后执行对应的算法,采用这种方式不但能精准地选择最优算法,而且提升了选择效率,具体算法过程如图4所示。
3.4数据流防攻击处理技术
数据的安全管理需贯穿大数据全寿命周期的每个环节,在数据执行传输、存储、访问和调用等操作时,尤其软件执行过程,很容易受到信息安全攻击,须通过数据运行周期安全管理的方法进行管理。
①多源数据采集:通过Flume进行多源日志数据采集,采集方式包括文本、syslog等。
②数据聚合与异步处理:采用kafka对设备事件信息、实时状态信息及网络流量数据进行收集聚合,事件信息、状态信息和网络流量都可以视为一种流数据,作为一种分布式消息处理系统,kafka工作在发布或订阅方式下,非常适合同时处理日志和网络流量,利用kafka的异步消息处理功能能够解决日志数据与网络流量间不同速率的匹配问题。
③数据挖掘、分析、计算功能:采用Storm的流式计算功能,对采集的日志数据进行实时或者准实时的分析,分析的内容主要包括关联分析取证、攻击溯及操作分析审计等功能,这是系统的核心,计算的结果直接输出到HBase进行存储。
④分析结果展示功能:展示的内容包括数据生命周期证据链、审计结果展示界面、统计分析报表功能、告警响应功能及设备联动功能等。
4实验结果
为了验证流数据处理系统的可行性和有效性,通过从某公司信息化系统调用1 000个连续数据,形成数据流在实验室进行系统平台验证。平台采用Matlab7仿真软件实施时,每一个步骤的效率提升率及系统整体预测精准度进行计算,如表1所示。
从上表可以明显看出,本文提出的算法在处理效率和预测精准度方面都有所提升,通过实验验证了算法的可行性,下一步可应用于线上系统,为实际应用带来便捷性和智能性。
5结束语
随着信息化技术深入到电网领域,电网各业务系统突增大量的数据信息。目前由于数据量的庞大及数据管理手段的缺陷,缺少一个统一的平台对所有数据进行管理,现阶段仅仅是融合部分业务子系统进行了应用,各子系统之间仍然存在信息孤岛现象。因此本文的广域性的大数据平台更加符合未来数据发展需求,但从实验阶段的验证结果看还不能完全满足电网数据的性能要求,因此在技术深度和算法广度上还需要进一步的探索和突破。
参考文献
[1] Gibbons P B,Matias Y.New Sampling-based Summary Statistics for Improving Approximate Query Answers[J]. ACM SIGMOD Record,1998,27(2):331-342.
[2] Greenwald M,Khanna,S.Space-efficient Online Computation of Quantile Summaries[J].ACM SIGMOD Record,2001,30(2):58-66.
[3] Condie T,Conway N,Alvaro P,et al.Mapreduce online[J]. Nsdi,2009,156(4):647-667.
[4] Wang H, Fan W, Yu P S, et al. Mining Concept-Drifting Data Streams Using Ensemble Classifi-ers[J].Kdd,2003:226-235
[5] BarbaráD.Requirements for Clustering Data Streams[J]. ACM sIGKDD Explorations Newsletter,2002,3(2):23-27.