主题论坛:大数据系统
5月25日下午,“大数据系统”主题论坛在贵阳金阳万丽酒店3F贵阳大厅2举行,论坛主席为中国计算机学会大数据专家委员会秘书长、中国科学院计算技术研究所副总工兼所长助理程学旗研究员,主持人为中国科学院计算技术研究所靳小龙副研究员。会场座无虚席,现场观众反响热烈。程学旗研究员表示,“大数据系统”论坛主要从两方面来进行讨论交流:一方面是如何使用大数据关键词,另一方面是如何把数据存储好,管理好,使用好。
“大数据系统”主题论坛会场
程学旗研究员在会上做了“大数据引擎与分析系统”的精彩报告。程学旗研究员认为,大数据已从概念理解阶段到了价值挖掘阶段,需要大数据引擎来推动其发展。大数据引擎是数据从自然的分布存在到价值业务空间的心脏,分很多方面,包括数据的存储管理、数据的分布式计算以及对数据价值的挖掘等。
程学旗研究员表示,大数据的商业价值是企业的核心价值,对它的认识要从大数据分析流水线来看,不能孤立在某个点上。挖掘数据的价值,体量、精准度、时效性都是关键因素,未来大数据要与“快数据”结合起来,因为数据的商业价值会随数据分析时间增长而降低。在时效性上,流式数据处理具有优势,应以其为核心追求数据商业价值的最大化。同时,他表示,大数据的深度分析、分布式计算框架、异质数据的管理将是大数据生态追求的3个方向。
程学旗研究员接受采访
清华大学计算机科学与技术系教授陈文光在论坛上作了题为“大数据分析平台——从扩展性到性能”的精彩演讲。陈文光教授说,设计大数据分析系统最关注的两个因素是性能和扩展性,而现有系统中,这两个因素是一对矛盾体,提高性能的时候必然减少容错性。这是错误的。可以使用更少的节点和更短的运行时间来完成同样的大数据分析任务,未完成容错需求甚至可以采用开销更大的容错技术,但即使这样,用于容错的时间仍然要比现有系统小很多。我们应该追求比较好的性能和一定能力的容错,以性能优先来设计大数据系统,尽量使用较少的节点,可以通过有序访问节点进行控制、尽量减少写入硬盘、设计结构优化等多种方式来实现,这是未来大数据所需要的。陈文光教授表示他们在做的系统就是基于这些思想,并已经初步通过测试进行了验证。
中国移动苏州研发中心总经理助理兼CTO钱岭在“大数据系统”主题论坛结合中国移动所做的对大数据系统整合的实践,作了精彩演讲。
钱岭表示,运营商是数据资源优势拥有者之一,拥有“数据金矿”的运营商如何挖掘数据价值是其面临挑战。运营商希望建立一个企业级的大数据平台来满足通用的、定期的以及远期的需求。这样的企业大数据平台的功能要把资源、服务、数据、应用和用户统一关联起来,并提供统一的应用开发和运行环境。
现有运营商运营系统存在种类繁多、相互孤立、数据分散在各个维度、建设成本高、管理开销大、安全风险高等问题。要整合这些系统建立大数据平台,首先要统筹考虑管理、业务重构和平台技术实现3方面的要求。其次针对数据源分散管理,需要解决4个问题,第一是企业管理问题,即解决体系架构调整的问题;第二是数据质量管理问题;第三是数据变现的管理问题;第四是数据安全的管理问题。再次是实现运营优化,通过建立技术体系,把平台管理、应用开发、商品解耦结合起来,明确技术体系架构,包括技术体系的基础来源,是自主研发还是采购,是集成还是开源等。
中国科学院计算技术研究所研究员陈世敏在“大数据系统”主题论坛作了题为“非易失存储的大数据管理系统优化”的精彩演讲。
陈世敏研究员表示,flash的发展主要朝两个方向。一个是增加存储单位可存储比特数。另一个是以三维体表达更高的秘钥,目前其发展受到了向下扩展难的制约。新一代NVM技术因此产生,其中发展最成熟的具有代表性的技术是PCM,另一个是STT-RAM(自旋扭矩转换存储器)。它们的共性是不存储电荷,而是改变单元的电阻,最终结果是非易失的,是可字节寻址的,而且访问速度接近DRAM。所以在系统中,NVM可能会用于DRAM的替代和扩展。对内存出现故障的系统也可以提供非易失的存储,进行快速的恢复。当NVM系统真正替代DRAM系统时,它将会给存储系统带来崭新的变化,在现实中产生巨大的作用。
陈世敏研究员接受采访
柏睿数据总裁兼CTO刘睿民在“大数据系统”主题论坛作了题为“基于流数据库及内存分析建立物联网数据应用”的演讲。刘睿民认为,流处理成为热门话题,是因为大数据的价值最大化实现基于数据的鲜活性,而流处理能够实现实时的数据分析处理。SQL数据库具有很多分布式的优化策略,在实时分析的流处理下,可以通过SQL来做表达,SQL的扩展性应对实时大数据的分析是非常有优势的。
通过SQL建立IoT应用,无论是不同的传感器还是建立模型,都可以通过ROW处理持续不断地查询、分析,不过必须要保证时效性,为此甚至需要重新审视忽视的细节。
刘睿民总裁接受采访