众所周知,数据只有流动起来才能产生价值……企业的数据可以总结为两个方面,第一个方面被称之为“企业内循环”,主要涉及到所从事的工作有助于加速企业提高经营效率,完成开源节流;另一方面叫做“企业外循环”,可以理解为通过企业产品让用户形成互动,进而产生海量数据。“如果将整个企业的外循环与内循环有机结合起来,就形成了企业的数据循环的一个体系。”红象云腾创始人童小军对《中国信息化周报》记者表示。
循环、优化、流转一气呵成
具体来说,对于数据分析的基本理念可以理解为“循环、优化、流转”,这是来自对于数据统计分析的一个理解。童小军说:“我觉得一个企业可以被看作一个生命体,具有自调整能力,将下层的产品统计、运维测试等统筹起来实现了一个在测的内循环,这是来自互联网公司的内循环。在外部,我们的产品与用户形成了企业的外循环。例如如果要优化产品,我们会记录用户数、活跃度等,这些数据会源源不断地更新到我们的产品中,或者我们的系统如果给一个用户发出一个搜索引擎或者一个需求,这时候企业给他们一个适时推荐,这个也可以称之为外循环。”
同样类似的案例在企业的质量管理中也存在,例如我们经常提到的戴明环等,其中也提到了循环质量优化的观点;还有一个自动控制领域也涉及到闭环控制理论。
在我们的理解中,其实大数据所起到的作用在反馈这个层面,只有整个的大数据体系形成闭环的模式才能更好地服务企业。
“我们所理解的智能应该是一种结构,很简单地被认为是一种闭环的反馈结构,而这种结构本身具备了一系列的制度。我们企业数据循环系统可以释放整个数据的想象力,关键大数据系统要打开关于数据的释放响应空间。其中数据循环、持续优化,高速流转,系统稳定、开源开放等都是客户所提出的需求。”童小军补充道。
如今大家经常提起大数据Hadoop,分别涉及到化整为零、分片存储、移动计算、分片处理。因为分片存储以及化整为零的技术,每台机器都可以用,这样就形成了移动计算分块处理。因为数据分散的动能,就可以将其移动到机器的本地化处理,所以整个系统会表现得非常高效。
另外本地化处理与并行可以极大地解决IO问题,带宽问题以及计算问题,在集中式机构时就会面临这样的问题。因为作为集中式架构根本性的一个性能缺陷在于无法移动计算,就需要把数据从集中式的存储拖拽到拥有计算的资源中进行再次计算,从而产生了一个IO瓶颈、带宽瓶颈以及磁盘瓶颈等。
童小军在分析大数据Hadoop时说:“通过对分布式计算的移动计算、化整为零等体系的全面了解,逐渐形成了一整套基于开源的系统,这是我们以前基于gedis架构的系统。我们可以看到Hadoop生态圈就像原始森林一样,从底层的Hadoop等出发,我们可以把它总结成几个层面。
首先是平台层,其次是结构层、计算层、展现层以及管理层。其实开源大数据到底是大数据推动了Hadoop发展,还是Hadoop推动了大数据发展并没有一致的绝对性,其中都是互相推动的过程。我们可以看到整个Hadoop生态圈已经庞大,其实开源本身也产生了标准的力量,对大数据标准产生带来了助力。”
极致性能 生态化才是王牌
商务方面,红象云腾提出了生态化的战略,其中+Hadoop是公司提出的观点,目标是服务更多的集成商,成为生态一部分。以“+Hadoop”为核心形成整个生态圈,进而达到服务器、各种中间键以及相应的多角度、全方位服务。
在大数据领域,通过软硬件一体化,企业更需要打造极致的性能,红象云腾在这方面有很多合作伙伴,第一个是红旗,另一个是中太服务器,组成了红色数据高铁的红象。“这个项目我们完成了将近几万亿数据的快速检索,当然这里还有其他的核心作用,我们叫做china Redoop,红象的超级数据,形成了整个优化的产品站、128线程,红象云腾今后的目标是对更多的CPU进行更进一步的加速,进而形成打造极致的性能。”童小军展望生态化战略时表示。
企业通过与硬件厂商的合作,可以提炼成一个库,叫做Hadoop处理加速库,同时加速库也可以提炼为一个观点,叫做HPU。
其关键的作用主要是实现在Hadoop框架下多种项目的加速,例如EC、SORT等都可以通过这个方式来完成加速。其中涉及几个性能指标,通过与Java、X86、IBM相比,提速将近有30倍以上。
童小军认为在加速库的角度,红象云腾早已进行了极致的分析,目前通过全面合作的策略,已与两款国内的大数据软件,分别是YDB和kylin完成合作,哪怕是在kylin检索上千亿数据也是可以完成的。这个打破了Hadoop在高速检索速度慢的怪圈,原因在于这其中所有的数据库并不是直接拷贝到硬盘上。
应用案例 不胜枚举
说到数据循环的成功案例,也是不胜枚举。例如,联想电商,这套系统其实非常符合数据循环系统的理念。在联想主要包含两套循环,一个是内循环,一个是外循环。特别的是,内循环已经优化到分钟级,在进行关键业务的广告投放时,或者进行关键活动的决策时,都依赖这个系统,另外在稳定性,系统稳定性检测也依赖这个系统。
另外,中国航天如今已经有5个PB的上线,这也是红象云腾提供的机房整套建设,一百多个节点的部署情况的展现。整个平台性能指标主要在IO密度上需要卫星的数据传输过来,通过Hadoop可以做什么呢?对于简单的做图,以前第一期投入就需要八千多万,这套系统投入才两千多万,而且数据提速到十几分钟就可以得到,效率大大提升。
另外,目前红象云腾正在跟踪包含交通部门、公安部门等在内的相关数据,其中涉及大量数据分析场景。例如公安部门有一整套关于快速结合算法,快速计算同行和同住人员以及大情报的数据分析架构收效显著。
对于“大数据+交通”的理解,核心的需求是这样的。审计交通部门需要路面的数据,以及GPS信息数据甚至包括桥梁数据。
在这个过程中需要检测某些大型车辆是否进入安全区,对于桥梁的承载载重问题,是否需要设置车辆靠近时进行报警,提示是否需要进入该区,或者已经进入危险区域等。
另外基于桥梁的数据,桥梁的各种各样传感器,包括温度传感器、压力传感器来识别这个桥梁是不是正常等情况,这其实是一种创新。
面对未来的大数据发展以及企业数据循环,童小军说:“我们在设想将虚拟世界中的某些尝试拉入现实世界,在大数据平台上是不是可以增加虚拟因素?将以前用的三维、多维引擎植入数据中,形成对大数据系统的三维后台式模拟。这也是我们提出来的一套关于大数据的基础架构,更是基于内循环、外循环、高速数据交换的理念。”
在人才的战略部署方面,红象云腾有一个极致人才战略,叫做“百校千企”。具体内容是面向一百所高校提供大数据的课程以及平台,同时面向Hadoop,面向有关企业提供大数据人才,并做到运营开放实验室。借此希望把开源技术、开放技术推向更多的大数据系统,进而完成各种方面的加速工作。