田亚平 聂新明
摘 要:传统数据挖掘技术更关注解决模型学习问题,与底层的数据管理衔接不紧。但当面对包含客户服务中心信息系统的语音数据、设备在线监测系统中的视频数据和图像数据等能源互联网大数据时,数据迁移成本极高、完全内存计算容易导致空间不足,因此,亟须对传统的数据挖掘技术进行重新设计,使之适应能源大数据社会化商务系统是一个多源异构复杂系统,这也是能源社会化商务战略的发展趋势。
关键词:数据挖掘 能源 互联网 大数据 社会化
随着互联网发展迅速,进入了双向互动的 Web2.0 和移动互联网时代,每个个体既是信息的消费者,也是信息的生产者,实现了异种设备的即插即用,具备自组织、 自愈等功能,产生众多的新业态和商业新模式,成为当前最活跃的创新创业之土壤。能源互联网紧密耦合信息网络、天然气网络、交通网络等复杂网络,充分有效地利用分布式可再生能源满足用户多样化能源需求的一种新型能源体系结构[1]。
一、能源互联网大数据的研究现状
能源互联网要求企业运用大数据技术对设备状态、电能负载等数据进行分析挖掘与预测, 开展精准调度、故障判断和预测性维护,提高能源利用效率和安全稳定运行水平,因此,深入理解和运用大数据技术成为了为能源互联网发展保驾护航的重要载体。
1.数据存储与管理
关系数据模型经过数十年的积淀和发展,擅长结构化数据的处理,事务语义保证机制完善,但遇到扩展能力的困难。反之,NoSQL数据模型扩展能力好、能很好支持异构数据及其分析,却缺乏事务语义保证。在能源互联网实践分析型应用中,既要用到结构化数据、又要用到半/无结构化数据,比如,在社会化能源消费的情境推荐技术需要从社会关系网络中挖掘情境信息,结合结构化商务交易数据生成推荐[2],因此,在能源大数据领域关系数据模型和 NoSQL 数据模型的融合成为必然发展趋势。总之,目前关系数据模型和 NoSQL 数据模型呈现出相互借鉴和启发、逐步走向融合的发展趋势,即:关系数据模型试图改进其扩展能力和异构数据支持能力,而 NoSQL 数据模型试图增强其事务语义保证能力。
2. 计算模型的发展现状
MapReduce 模型优势在于简单易用、灵活性高、独立于云数据库系统、容错能力强。但是,MapReduce 经常被描述成为一种ETL(Extract-Transform-Load)工具,其缺点也非常明显,比如,缺乏高层语言支持、缺乏数据模式、数据流不灵活、调度和I/O效率低等[4]。很多计算过程难以用 Map 和 Reduce 函数刻画,如迭代计算和图处理[5],因为 MapReduce 需要启动多轮Map和 Reduce 任务,额外开销极大。 HaLoop和Twister被提出改进 MapReduce 在迭代计算上的性能,但仍然不能很好地解决 MapReduce 由数据流单一导致的不擅长处理迭代计算和图处理的问题。于是 BSP(Bulkynchronous Parallel model)模型被引入到云计算中,多种基于 BSP的系统被研制出,如Yahoo!的Graph和开源的Hama。 BSP 在迭代计算、子任务间依赖性强、实时性要求高的应用上更有优势。但是,BSP 将数据都存储在内存,数据处理规模受到极大制约;同时,BSP 模型中各任务之间的消息通信也是难以消除的效率瓶颈, 且缺乏完善的容错管理机制。
二、研究能源互联网的意义
融合社会网络的能源互联网社会化商务应用环境比传统电力市场电子商务更为复杂,更迫切需要借助面向大数据的商务智能技术,才能有效实现一系列智能化精确信息管理。 而几乎所有的基于数据挖掘、处理和分析的商务智能技术无不与底层多源异构大数据存储、管理和分析密切相关。 本项目面向能源互联网社会化商务这一新兴应用之需求, 对大数据存储和管理及适应大数据计算的数据挖掘、 分析、处理两个层面的若干关键技术问题展开攻关,形成自主知识产权,为能源互联网社会化电子商务产业发展提供技术先导。进一步地,通过实施多源异构大数据分析平台的工程化建设, 并在分布式新能源企业进行示范应用。
三、结语
综上所述,融合社会网络的能源互联网数据索引分析平台,比一般意义上的电力市场的电子商务更为复杂, 更迫切需要借助面向普通用户的大数据的商务智能技术, 才能有效实现一系列智能化智慧能源大数据管理应用,包括:①能够表征能源互联网的参与者--人的特征的数据;②反应能源生产、配送的数据;③反应能源消费、交易和调控的投资决策支撑数据;④对能源互联网有影响的社会经济环境数据。几乎所有的基于数据挖掘、处理和分析的商务智能技术无不与底层多源异构大数据存储、管理和分析密切相关。大数据的深入应用在面向能源互联网社会化商务这一新兴应用之需求,对能源大数据存储和管理及适应大数据计算的数据挖掘、分析、处理两个层面的若干关键技术问题展开攻关,进一步地,实施多源异构大数据分析平台的工程化建设,并在地方能源企业进行示范应用,非常有价值和意义。
参考文献
[1]杰里米·里夫金.第三次工业革命[M].张体伟,孙毅宁.译.北京:中信出版社,2012.
[2] Adomavicius G., and Alexander T. Context-aware recommended systems. Recommended Systems Handbook, 2011, pp:217-253.
[3] Lee K H, Lee Y J, Chai H, et al. Parallel data processing with MapReduce: a survey[J]. ACM SIGMOD Record, 2012, 40(4): 11-20.
[4] Olson C, Reed B, Srivastava U, et al. Pig latin: a not-so-foreign language for data processing[C]. Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1099-1110.
[5] Bu Y, Howe B, Balazinska M,et al. HaLoop: Eff cent iterative data processing on large clusters[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 285-296.