导读
海量、异构和混杂大数据的广泛存在与爆炸式增长给信息传输、存储、计算以及面向各种应用的数据处理技术提出了前所未有的挑战。如何突破传统研究方法的思维定式,研究和发展革命性的、可满足时代需求的大数据传输、存储、计算和处理的新方法和新技术,是当前全球研究热点。2014年前后,国家自然科学基金委员会支持了一批大数据重点项目,产生了一批研究成果。本刊将分两期在“研究”栏目专门刊登这批项目中的部分代表性成果。本期分享大数据基础理论与方法方面的成果,下期重点关注大数据应用与分析方面的成果。
《大数据时代的简约计算》尝试从数据复杂度的角度进行突破,围绕大数据时间、空间、关联复杂性的度量和约简展开,希望探索出符合当前实时海量流式数据处理的新的算法复杂性理论基本思想和算法设计基本框架,寻找从时间、空间和特征关联3方面约简数据和处理数据的算法。粒计算作为智能信息处理领域中大规模复杂问题求解的有效方法,探索大数据分析的粒计算理论与方法有望为应对这些挑战提供新的思路和策略。《面向大数据的粒计算理论与方法研究进展》对大数据的特征选择与信息粒化、多粒度模式发现与融合以及复杂决策任务的多粒度/跨粒度高效推理等进行了梳理和剖析。两篇论文从不同层面对大数据科学基础理论和基本方法论的形成做出了贡献。
当前分布式系统由于其可扩展、高可靠和低成本等特性已成为大数据平台的常规选择。《分布式协商:建立稳固分布式大数据系统的基石》探讨了各种不同的分布式协商协议及其在副本状态机中的应用以及在实际系统中如何使用分布式协商来保证系统的可靠性,可帮助开发者在理解分布式协商的基础上完成可靠大数据系统的构建。多元数据的融合是大数据研究的重要问题,也给程序设计带来了新问题,基于消息驱动框架的软件开发是大数据应用系统的重要模式之一。《大数据应用系统的消息驱动架构》基于面向实体、消息驱动的开发架构,设计并实现了该架构中的消息管理。《突发大数据在存储辅助光电路交换网络中的传输》研究在电路交换网络的节点上引入存储对传输突发业务的影响。通过引入存储,在突发时段暂存“时延不敏感”的业务数据并错峰传输,提高链路利用率,并降低业务阻塞率,有效提高网络传输能力。分布式协商协议的设计、消息驱动架构的实现和突发大数据传输问题的解决为大数据系统提供了良好的技术支撑。
基于大数据的效能评估是复杂系统的基础性研究问题。《基于仿真大数据的效能评估指标体系构建方法》提出了一种基于仿真大数据采用超网特征参数和ANP相结合构建指标体系的方法;并通过应用案例,给出了网络化评估指标体系的构建流程,建立了具体的指标体系,对指标之间的关联性进行了深度挖掘,为复杂系统效能评估提供了一种可靠的理论依据。
客座编辑
武永卫,男,博士,清华大学计算机科学与技术系教授。
刘克,男,博士,国家自然科学基金委员会信息科学部二处(计算机学科)处长。