记者:目前大数据主要在哪些业务上得到应用?
连晋波:数据在许多产业已使用了多年, 如金融业制定投资策略、网上交易平台在已经建立的分析基础上推荐引擎、航空和保险行业使用分析来制定定价优化模型、保险公司用于分析开发风险评估模型、零售和投资领域、网络行为分析等等。
EMC公司赞助了人类所面临的大数据项目是一个全球性大众媒体项目,专注于人类的新的实时收集、分析、印证和海量数据的可视化能力。该项目设有超过200个大数据是如何改变我们的生活的故事。
记者:您认为大数据在媒体行业可以有何作为?
连晋波:大数据技术在媒体行业将大有作为,特别是全媒体时代。 除我们熟识的媒体数据管理、内容分发等外,通过庞大的受众,可以广泛应用到如 用户行为分析、舆情分析、社会热点分析和预测等等,通过大数据分析,新闻传播、内容推送将更有针对性,更精准,这些都是具有重大的政治和经济意义。
另外,通过大数据技术,将帮助传统媒体客户增强竞争力和快速转型。
记者:技术上,引入大数据需要在系统架构上解决哪几个方面的关键问题?
连晋波:大数据时代需要新的架构,主要在4个方面:
◎ 首先,建立一个向外扩展(Scale-out)的存储基础设施,轻松管理PB级别的数据,如Isilon集群存储系统,可以轻松管理单一文件系统达到20PB、实现100GB/s的吞吐能力。同时处理结构化数据和非结构化数据的大规模并行处理平台。◎ 这里包含了并行处理大数据和处理快数据的能力。在Pivotal架构中Greenplum和Gemfire分别承担了类似的功能。◎ 大数据要求一种新的学科: 数据科学。传统的BI专注于现有的数据管理和报告,目的是监控和管理企业内部。而新的数据科学应用先进的分析工具和算法来生成预测的见解和新的产品创新。◎ 敏捷的分析应用。大数据应用与以往不同,主要为移动设备访问和社交网络设计;必须使用新的框架灵活快速建立应用;部署于云计算和虚拟化环境。
记者:海量信息分析平台(greenplum)具有哪些特点?
连晋波:公司的Greenplum产品 通过提供可转变组织数据使用方式的完整技术和服务平台,推动着大数据分析的未来发展。目前已经整合加入Pivotal框架中。◎ Greenplum Database:利用行业领先的大规模并行处理 (MPP)数据库,该数据库旨在支持新一代大数据仓库存储和分析,并且能够存储和分析PB级别的数据。 ◎ Greenplum HD:实现创新,例如实时数据交互、更高的可靠性以及更简单 Hadoop 部署和使用。 ◎ Greenplum Data Computing Appliance:通过业内第一款完整大数据分析平台的革命性模块化体系结构,将无共享的MPP关系数据库与企业级Apache Hadoop结合在一起。 ◎ Greenplum MR: Greenplum推出的MapR Apache Hadoop M5版本产品包提供了高性能 Hadoop平台。■