文/本刊记者 卢敏 刘学
大数据的概念听起来很美好,似乎利用大数据的大门在不久的将来就会打来。但是一切并没有这么简单。
大数据真正起作用的地方并非在于如何对其进行存储,而是如何好好对其进行利用。其实用户需要一种实时分析大量原始数据的方式,然后在有需求的时候从中挖出有价值的部分。
现在看来这个任务并不简单。
“大数据时代的来临已经毋庸置疑。”山西移动业务支撑系统部统计分析室经理王峰肯定地说,“从数据量上来说,我们已经进入了ZB时代。”
作为国内第一家进行数据仓库和BI系统建设的电信运营商,山西移动从2001年就开始进行其经营分析系统的规划。从2002年系统上线到现在已经是近10年的时间。对于数据量的急速增长、市场形势的瞬息万变、用户群体的复杂变化,这10年来,经营分析系统在山西移动的业务过程中到底扮演了怎样的角色?对于大数据时代的来临,它发生了哪些变化?就这些问题,王峰给出了答案。
对大数据时代的到来,用户数量众多的电信运营商感觉尤为深刻。山西移动每天流入经营分析系统的数据量大约为300GB,庞大的数据量带来了巨大的潜在价值和决策能力。谈到大数据时代的数据分析,王峰认为,山西移动的片区精细化管理就已经体现了大数据分析的特性。
王峰以北京为例来说明片区管理的大数据特性。片区管理是地理纬度上的客户分块,例如北京包括东城区、西城区、海淀区等。而每个区又可以向下细分,比如西城区可以细化到金融街区,最后细化到移动基站的一个扇面区域。如果一个用户在昌平入网,却经常在金融街区通话,就要把用户定位成一个金融街用户。每一个细化的片区由一个片区经理管辖,金融街的片区经理就要对定义成金融街的客户进行服务,例如问候短信或新产品通知。片区经理不仅要对现有客户进行服务,还要对潜在客户进行挖掘。山西移动要求片区经理对自己管辖区域内的每一栋写字楼的每一家企业进行记录并录入片区化支持系统。根据掌握的多种数据,对用户进行精细化分类和深度挖掘,进而进行相关的营销活动,这种线上线下的共同合作,体现的正是大数据分析的特点。
山西移动的经营分析系统作用于营销层面主要包含两个核心应用。一个是核心客户保有。核心客户是指用户UP值贡献高、漫游行为较多,有重要影响的高价值客户。如果某个核心客户在一段时间内的主叫时长出现了显著的下降,统计分析部就会在核心客户保有的应用上发现这个用户,认定该核心客户有发展为普通客户的可能,并且把与之相关的客户明细提供给相关的市场营销部门,由营销部门对其实施保有措施。另一个应用是离网用户关怀,与核心客户保有应用相比,该应用是更针对离网客户的预警。
对于海量数据的保有,山西移动的策略是数据与应用同在。一个应用上线有自己的生命周期,应用由哪个部门提出、应用的主要功能、开发人员、何时上线、预计使用期限等信息都会被记录在生命周期管理系统中。当应用达到使用期限,根据实际效果如果没有必要进行生命周期的延长,应用下线时就将相关的数据评估为无效,进行清理。
虽然在外部用户层面,客户很难感知到经营分析系统的存在,但山西移动正通过它进行着各种各样的营销活动,从而为用户提供更精确的服务。而在山西移动内部,经营分析系统的内部客户对数据的满意度得到了非常大的提升,管理层和业务部门在决策上获得了更好的支撑。
未来属于将数据转化为产品的公司。作为电信运营商,山西移动有着先天的优势可以掌握海量的有效数据。面对大数据时代的来临,多角度深层次的数据分析也正在成为山西移动统计分析部门支持决策的重要手段。
用户在越来越大的数据量下不堪重负
ESG在2011年曾就企业所面临的数据整合难题进行了调研,结果发现,数据量的庞大规模是企业所面临的第二大难题,位列首位的则是数据整合的进程耗时过长。
目前,各厂商正在密切关注着大数据所带来的机会,并通过推出新产品或收购等举措把握这一重要机会,从而创造更多利润。比如IT厂商巨头IBM和EMC,这两家都收购了非常类似的厂商来实现技术的整合。EMC所收购的Isilon公司,其集群NAS产品就属于横向扩展(Scale-out)存储,而该技术的优势正是处理非机构化数据。并且其后来又收购的Greenplum,则用来补充针对数据库类的大数据的解决方案。IBM收购的Netezza也是类似于Greenplum的技术,充分考虑到了现在的存储趋势。
虽然这看起来是一种有用的举措,但是厂商仅将焦点关注于某款产品解决某种问题的话,显然是不够的。其实最终用户根本不在意自身采用的到底是谁家的产品和技术,而在意的是这些产品和技术是否能够赋予自身一个很好的IT支撑能力。在这样的情况下,存储提供的服务和技术就需要解决这些问题,才可以更贴近于客户,更好地服务于客户。所以对于厂商而言,他们不仅要注重解决“大数据”的需求,也要注重数据整合平台的创新,从而在当今以服务为导向的IT模式中提供企业所需的高性能、灵活性和终端用户的功能。ESG中国区总经理兼高级分析师王丛表示,大数据这一领域将会有一些新的技术不断地推出,在未来的12个月或是24个月,预计会不断涌现能处理大型非结构化数据的技术。
目前在“大数据”这一大趋势下,北美的厂商已经走在了前列,而中国的厂商目前还在着重考虑怎么生产存储和硬件,而没考虑到以解决方案的形式向用户进行推介。EMC或IBM收购这些公司的目的是去整合他们的整个解决方案,能够让它在IT上是透明的,进一步靠近存储、靠近数据。中国厂商目前也在尝试走这条路,但起步相对要晚,还需要花费一段时间去学习这些已经在这个变革过程中取得成功且走在前面的厂商。对于厂商而言,花太多时间去看哪家有哪些产品已经不是那么重要了,他们需要注重的是了解技术趋势和市场动态。
集群NAS会是市场的一个主流,传统的NAS有一定的局限性。其实集群NAS是挤占了NAS和SAN的市场空间。据ESG统计,NAS占全球存储市场的20%左右,中国的NAS只占了不到8%的中国存储市场。另一方面,中国的SAN又是一个极端,SAN占全球存储市场的42%~46%,中国的SAN占中国存储市场的60%。
NAS应该是有空间的,但其所占的市场份额却没有增长力度;SAN的技术已经显得不那么尽如人意了,但其市场趋势还是持续上扬。这是因为数据中心还处于建设过程中,而另一部分则因为这两种技术之间还没有找到一个很好的平衡点。
总之,大数据对结构化数据或是数据库来讲,对BI的管理能力都非常重要。大数据对非结构化数据来讲,尤其是对服务媒体行业,是能提高效率降低整个IT成本的一个比较好的举措。对于中国厂商而言,随着大数据量的猛增,集群NAS在中国市场空间将得到非常快速的增长,这将是中国用户的福音,也将是中国厂商的一个大机遇,区别就在于是否能够很好的把握。
大数据的概念和云计算一样,不是新近出现的。但是它又如一阵风,悄悄进入到各大会议和论坛中,进入人们的视线。过去大数据单指体积庞大,现在以更全面的眼光来看,大数据更加多样化、速度接近实时,不仅包括非结构化数据,而且还有结构化数据。
在众多企业用户眼中,理想的大数据数据管理和分析平台应该像电灯开关一样简单、可靠和直接,能够快速处理人们几乎无法想象的工作量。这也是IBM Netezza致力于为用户提供的。在IBM Netezza亚太区市场营销总经理Timothy Young看来,大数据为公司带来的不应该是挑战,相反应该是机遇,他笑着表示,“我们只怕数据不够大,数据量越大,就越能从中提取出用户有价值信息。”不要忘了,IBM通过“沃森”超级问答系统让我们窥见到大数据分析的未来。沃森也是工作负载优化系统的终极范例,它通过分析非结构化数据能够在几秒钟内找到问题答案。
业界专家曾表示,“一体机”是实现大数据的最优异的方式之一,一体机能将主机、存储整合在一个标准的工业机柜里,预装操作系统、数据库,同时预装相关的工具软件。Netezza作为一体机概念的提出者,优势并非来自最强劲最昂贵的IT组件,而是将合适的组件组装起来并将性能发挥到极致——这恰恰为众多具有大数据分析需求的企业提供了崭新的机遇。甲骨文CEO Larry Ellison曾这样表示:“Netezza是Exadata的灵感来源之一。”
“对于企业而言,产品的优劣有很多衡量方式。IBM 软件集团大中华区Netezza 销售总监肖冰与记者分享了IBM的‘4S’标准,即Speed(速度)、Simple(简单)、Scalability(可扩充性)和Smart(智能)——设备管理和分析数据的速度是用户首要需求;让行业用户更容易掌握设备的操作,决定产品能否被广泛应用;优秀的可扩充性,保证了处理数据量增长的需求;架构方式布局灵活,更是产品稳定高效运行的决定性因素——正是这四个标准决定了公司的市场竞争力和领导力。独特架构直击“大数据”
在精要的“4S”标准之上,是产品独特的系统架构设计模式:其大规模并行处理(MPP)流将多核CPU与FPGA加速流技术引擎(FASTTM)结合,能够提供连那些非常昂贵的系统都无法匹配甚至接近的性能——这些独特的技术使得Netezza在当前“一体机”市场中处于领先。
IT圈内的人都知道,一个好的系统架构设计,在很大程度上决定了这款产品的成败,对于处理大数据来说,这个原则显得尤其重要。因此当对一个大型数据集进行操作时,除非绝对需要,否则不轻易移动数据。Netezza将这一原则发挥至极致,利用现场可编程逻辑门阵列(FPGA)组件尽早的将多余的数据从数据流中过滤掉,以减少其对硬盘空间的占用,并将下游组件如CPU、内存和网络从多余的数据处理中解放出来,从而使系统性能有了根本性的显著提高。
最后,肖冰与记者分享了Netezza的架构特点,它结合了SMP(对称多处理)和MPP(大规模并行处理)的优点,建立了一个能以极快的速度分析PB量级数据的设备。该架构中的每一个组件,包括处理器、FPGA、内存和网络连接都经过了精心的挑选和优化,在硬盘物理条件许可的情况下,以最低的成本和能耗快速地处理数据。它通过软件协调这些组件以流水线的方式对数据进行并发操作,从而充分获取和利用每个MPP的节点上最大吞吐量。除了将性能提高几个数量级以外,这个平衡的架构还能够为超过1000的并发处理流提供线性可扩展性,以及非常低的总体拥有成本。
在Timothy Young看来,大数据为公司带来的不应该是挑战,相反应该是机遇。
人们谈及“大数据”有两层含义:一个是数据总量大,普通企业的数据总量也可以进入PB级;而另一个含义是指数据类型复杂,除了传统的结构化数据之外,更大量的数据类型是邮件、博客、微博等。
对数据库而言,这些都似乎不是什么好事,因为这意味着对数据库的处理能力提出了更高的要求。
Joydeep Das看来,大数据时代,应该是专项的数据库,解决专项的问题。
不管是不是在云的环境下,数据库永远都要解决两个问题:一个是怎样快速地把数据吸收进来,然后把它变成数据库;另外一个问题是怎样把数据库里面的数据分析出来,读出来,把结果返回库里。
究其本质,以上二者要解决的是一个问题,即如何快速地将数据在需要的时候进行存取。以Sybase IQ为例,在数据快速入库这个方面,近年来已有诸多改进。比如增加了多种数据表加载的方式,通过一些复制服务器,能随时把数据复制到IQ里面来的机制,这些实际缩短了数据从产生到进入数据库的时间。
除了有从数据库里面读取数据的方式以外,还有根据流数去进行分析判断结果的一个方式,比如CEP。这个方式并不要求数据已经持久化了才可以去做分析,它是随着数据的流动,可以随时地做分析。它解决了用户的问题,缩短了时间。
列式数据库在数据分析、海量存储、BI这三个领域有自己独到的优势,已经得到了业内专家的认可。传统行式数据库在大数据领域“受阻”有目共睹,列式数据库代表了大数据领域很多新的技术方向。这个新的方向是和传统的数据库非常不同,但是用户却经常被一些传统数据库衡量指标来要求。
举例来说,比如果农在山上每天采果子,他们的目的是要把这些果子运出来卖掉。传统的方式是修了路,把果子从山上一点点运下来,然后卖出去。现在他们的果子多了,想更快的卖出去的话,他们想的方法是怎么样把路拓宽,或者车怎么样开得快。所以果农的新问题是,“告诉我旋转的半径是多少”、“你开的最小的拐弯半径是多少”。现在给他提供一个方案就是,不需要车,而是用一个索道,把果子从上面直接滑到山下面。所以用户提供给厂商的指标,很可能是毫无意义的。
具体到技术层面,随机读取对OLTP数据库来说很重要,为什么?是因为这是它查找数据的方式。从行式数据库数据的摆放方式就可以知道,它的摆放是按行来放的,一行里面只有一个收入数据。用户如果要对所有人的收入进行分析归类,就必须在全磁盘查找。
所以Random Seek对行式数据库来说非常重要。但是对列式数据库来说,这个词并不重要。因为所有的收入都放在一起了,是sequential read顺序读。“其实所有硬盘的顺序都差不多,只有Random Seek读才会有差别,7200转和15000转可能会差一倍,现在最高速的也就是2万转,但谁会用2万转的盘呢?没多少人用,因为它的能耗非常大,而且稳定性非常低。但是Random Seek或者随机读这个速度来突破数据仓库的效率的话,对Sybase来说,这是一个错误的路线。我们有更好的方式,把数据合理的摆放,通过顺序读这样一个非常优秀且低廉就是顺序读的技术,用户便可以成倍、成十倍的提高这个分析读”,Sybase公司分析产品管理部总监Joydeep Das说。
在Joydeep 看来,大数据时代,应该是专项的数据库,解决专项的问题。”比如Sybase ASE,用来解决OLTP这样的一些事务性的数据的应用是非常适合的。我们还有一个小型的数据库,叫Sybase SQL Anywhere,用来解决一些嵌入式的应用,比如可能嵌入在一些ATM机,可能嵌入在一些导弹里,或者在一些硬件设备里面。它的应用场景其实也非常广,但是它解决的是一类移动或者是比较小型的应用。最后就是Sybase IQ,就是列式数据库,它解决的是一些专门的用于分析领域的应用。”
这并不意味着传统的数据库是一个过时的技术,只是不同数据库有不同的专用领域。
传统的行式数据库,设计初衷就是为了解决几行数据的一些实时或并发的操作。而现在的数据仓库或分析领域,往往遇到的是在集列上,需要触及很多很多行,是完全不同的应用场景。在这样的应用场景里面,行式数据库却是非常不好用,它没有办法像列式数据库这样,只在几列上面非常高效的去把分析完成。这是这两类技术之间的一个很大的差别。
据介绍,Sybase IQ 15.3,其设计正是为了满足企业不断增长的多样化的分析需求。相比于传统的“行式存储”的关系型数据库,它在进行分析查询时,传统的关系型数据库需要缓慢地读取整个表的每一行,这种读取方式通常会阻塞I/O通道、内存和磁盘,而它仅需读取查询所需的列,其垂直分区策略不仅能够支持大量的用户、大规模数据,还可以提交对商业信息的高速访问,其速度可达到传统的关系型数据库的百倍甚至千倍。
另外,它所采用的Multiplex技术,充分利用了单个服务器(节点)在执行特定功能时可进行磁盘存储共享并通用的优势。也就是说,存储是共享的、压缩的、列分区存储的,它们通过一条高速的光纤通道与Multiplex架构中的所有服务器节点互联。这些服务器节点既可以作为数据读节点也可以作为写节点(或者两者都是)运行,支持所有连接到共享数据源的并发的数据加载和查询。这一技术使得它可以在大量的使用场景中游刃有余,比如快速的并行分析和报表,同时支持高速的实时数据加载、批量数据集成任务、即席客户端加载和查询等等。
对于大数据有很多看法。基于从客户那里了解的工作负载要求,NetApp的看法是,将大数据分为三大类,即:大分析(Big Analytics),帮助获得洞见。高带宽(Big Bandwidth),帮助走得更快。大内容(Big Content),不丢失任何信息。
目前很多试图应对大数据挑战的IT经理们把更多注意力都放在了信息的量上,而忽视了信息管理的其他方面,对此,NetApp大中华区系统技术及专业服务部总监何英华表示,不论在传统数据中心建设,还是在先进的“云计算”数据中心架构设计中,我国大中型企事业单位用户和一些领先的集成商,对数据使用、数据存储和数据管理工作等诸多方面的关注,早已远远超出了单纯的“存储容量、存储介质”甚至“存储访问协议”的范畴。
举例来说,何英华团队中的咨询顾问专家多次表示,早在8~9年前,当PATA磁盘刚刚在企业存储系统市场展露头角的时候就已经发现,在与那些高水平的用户进行交流时,他们最为关注的不是PATA,或者随后出现的SATA本身。换句话说,除了ATA介质所带来的单盘高密度存储特性,用户最为关注的反而是附加在大容量存储系统上面的一系列存储优化功能,如:RAID-DP、DeDup、FlexClone等技术上。这个发现恰好对“数据量”和“管理、使用”在关注程度上的差异提供了一个十分明显的对比。刚才提到的这些技术,也正是“大数据”概念下,实现“数据分析”、“优化数据带宽”、“理顺数据组织方式”的前提和基础。客观地讲,随着“大数据”概念的提出,越来越多的IT管理者对“数据分析”、“数据带宽”、“内容合理组织”等话题的关注,不是“忽如一夜春风来”,而恰恰是由来已久了。他们对绝对数据量的关注,已经逐渐退居到从属地位了。
何英华:用户对绝对数据量的关注,已经逐渐退居到从属地位了。
当提到“大数据”概念的时候,有两个值得思考的问题:当性能不再是关键需求时,存储容量对公司究竟有多重要?这两个有分歧的要求能在同一市场、解决方案和设备中共存吗?何英华的发现是,当今的环境下,尤其是“云计算”、“大数据”等概念层出不穷的特定“语境”下,稳定/可靠性、性能、容量/高密度容量、多手段数据保护仍然是几乎每一个客户所关注的。虽然他们各自关注的重点不同,但是把这些要素放到一起,它们之间并不是有分歧的,或者说,它们彼此应该是互为因果、互为支撑的。比如说,没有长期的历史数据积累,也就无从谈到客观、准确的数据分析预测;没有准确、迅速的数据挖掘过程,也就无从谈到有效、到位的决策辅助支撑。在日益复杂的应用要求下,将不同的要素加以合理摆放、分别解决,十分重要。
何英华笑着谈到了一家中国顶级在线数据服务商的CIO,他曾经这样对NetApp的销售和技术人员说——“面对纷繁复杂的业务需求,进而需要翻译成恰当的技术需求时,不妨用一种简便又不简单的方法来处理,那就是,先求‘最大公约数’,再求‘最小公倍数’,给出适当安全余量,明确步骤,加以实现”。
事实上,“云计算”、“大数据”的核心需求发端于在线服务和互联网行业,它们“开放”、“共享”、“快捷”的行业特性,不仅改写了技术发展的进程,也定义了很多技术发展的趋势。当然,在传统的电信、金融服务领域,对这些用户而言,毋庸置疑,摆在他们面前的,是大量的数据、大量的设备、大量的管理维护工作量,但是不意味着“性能、稳定/可靠性、多手段数据保护”等要素不重要。用户应该采用一系列的技术手段、定制一系列的管理规程,来规范各个要素的相互关系,或者说,做到“平衡”,一种有所侧重的“平衡”。
“大数据”系统的部署过程确实是一个发现问题、解决问题的过程,对不同的用户,不同的应用,NetApp都有成型的不同的解决方案集供他们参考。
在大数据部署的过程中,何英华和他的团队发现常见的问题往往有:
对现有业务条件和未来业务目标定位模糊,热议但缺乏审视,就好像中国IT行业几乎一夜之间都在谈论“云计算”,都在谈论SaaS、软件即服务一样。中国有句话,放在这里可能不是特别贴切,不过这句话说“老吾老以及人之老”,“幼吾幼以及人之幼”,说得是尊老爱幼之道,对数据中心建设而言呢?应该也是,先建设好自己的数据中心,再去给别人提供数据中心外包服务。或者说,以良好的基础,提供适度的服务。否则,“云计算”、“大数据”的建设可能流于形式。
参考国外先进案例时,疏忽于适用性检查。NetApp的用户中不乏搜索、线上视频、线上音乐等行业的领军企业。这些用户也很乐意向他们学习、取经,这都是好事。不过有时大家容易关注光鲜亮丽的方面,疏于比较彼此之间的差异。
关注概念本身、技术选项本身大于关注“平衡”的全局等。有这些问题,本身是正常的。因为这个时代决定了用户的很多动向都是带有“试验”性质的。我们的建议是明确定义自己的需求,以开放的心态多与同行、厂商、集成商、行业专家进行探讨,共同分析问题、解决问题。
进入“大数据”时代,出现了不少新兴的数据挖掘技术,使得对数据财富的储存、处理和分析变得比以往任何时候都更便宜、更快速了。只要有了超级计算环境,那么大数据技术就能被众多的企业所用,从而改变很多行业经营业务的的方式。
目前很多试图应对大数据挑战的IT经理们把更多注意力都放在了数据的量上,谈到大数据,数据量固然是重要且必要,但不是唯一必要的条件,在信息管理及流程管理等方面也是不容忽视的,。未来的数据将呈指数级增长,如果过度地将重心放在数据量问题上了,大数据的权重给得太高,可能导致决策短视,阻碍企业信息架构扩张以满足不断变化的业务需要。
对于“大挑战”,业内专家表示,可以从三个层面来看待,首先从技术方面来说,大数据的存储和分析是没有问题的,服务器的性能可以满足数据装载、加工、提炼和分析的要求。第二个挑战,多结构化的数据是需要有人才来了解新类型的数据,而人才的培养和训练机制对每一个业者及企业都是一个挑战。一般来说,多结构化数据不可能经过一次提炼就得到结果,可能需要周而复始重复针对数据做出一连串提炼加工,才能分析出来有用的信息,让企业使用并产生价值,也就是说,分析的工具是要能被重复使用,好像是主程序呼叫子程序,在主程序将不同的参数传给子程序,就可以得到所所需要的结果。所以合适的工具是加速人才培育的一种方法。最大的挑战是要分析哪一类的数据?做什么样的提炼?提炼出的信息如何产生业务的价值,产生业务价值以后怎么样导入到整个企业的流程管理层面。大数据面临着大挑战,不过,如果企业可以解决这些问题,并且从中吸取经验,那这些大挑战就是机遇。
云计算和大数据是当前两个相伴而生的重要趋势。企业的IT环境越来越庞大,IT系统的管理和维护越来越复杂,企业IT投资的70%以上都用于IT系统本身的管理和维护,只有不到30%的投资用在了企业的业务发展上。云计算技术可以实现I T资源的自动化管理和配置,降低IT管理的复杂性,提高资源利用效率。对IT企业来说,需要按照云计算技术的特点转变业务模式,以服务的方式提供IT技术。
“云计算和大数据不是对立的,因为云计算是一个使用的模式,为企业提供了一些便利性和使用方面的经济实惠,因为是按需服务。”Teradata天睿公司大中华区产品技术及业务支持副总经理张锦沧表示,“一个很大的企业,本身就有非常多的数据,他们的数据是建在自己的一个平台,也是一个云的计算,是没有被外部人使用的。不一定是大数据就一定要在云计算上面做建制和实施的,是可以有选择性的。云计算使大量数据集中,对中小企业的使用来讲,除了使用个体的公司自己的数据之外,还可以跨产业或者是跨公司进行宏观的分析。”Teradata天睿公司的另一个专业:企业数据仓库解决方案,它是集合企业内不同业务部门的数据,来达成单一视图, 现在企业数据仓库也可以和大数据分析整合,让企业的分析视角更广、更全面。
云计算的大趋势已毋庸置疑,而正当它被企业逐渐认识和部署的时候,业界领袖们又将目光瞄向了下一个目标——大数据。现在,是IT创新者重新思考的时候了,通过云计算与大数据的碰撞,最终会为企业带来多少“价值”,从而获得更多隐藏在大数据中的机会。
张锦沧:对IT企业来说,需要按照云计算技术的特点转变业务模式,以服务的方式提供IT技术。
不久前,Facebook宣布其用户量目前已超过7.5亿,每天的分享次数达40亿。这是一个非常巨大的数据。
根据IDC的预测,从2009年到2020年,数据总量将增长44倍,达到35ZB。在海量的数据面前,对于以数据为中心的企业而言,数据的质量至关重要。
不久前,世界电信产业界富有权威性的中立咨询顾问公司Ovum公布了一份题为“优化企业应用:数据连接”的最新研究报告指出:“无论应用平台的架构有多么精良,或开发团队的效率有多高,在基础数据及其管理策略存在缺陷的情况下,所有为改进应用管理和交付所做的努力都将是徒劳无功的。”准确地指明了数据蔓延和劣质数据是导致不良应用程序管理和性能的罪魁祸首,直指低劣的数据与实施或运行应用程序的初衷“背道而驰”。
简单来说,没有良好的数据,没有更加良好的数据管理策略,用于业务应用的投资将随着应用组合在企业内的增长和扩展而日渐缩水。对于期望在扩大的企业范围内利用交易数据和和社交媒体数据的企业来说,实施一个大数据集成平台是当务之急。这意味着各组织机构必须有效地管理数据生命周期的每个阶段,运用信息生命周期管理、数据质量、数据服务、主数据管理和其它规则与技术,以便优化性能并提高其业务应用组合的投资回报率。
Informatica公司主席兼首席执行官Sohaib Abbasi指出:云计算、社交计算和移动计算这些特大趋势目前已相互交汇,在接下来的五年当中,计算机行业将因此而发生改变。而这些趋势也正在把数据集成提升为最重要的战略性技术之一。
这些趋势决定着最重要的业务需要。全球化要求企业现代化以保持竞争力;行业整合要求在合并后能成功地集成;增长需要以客户为中心和灵活性;运营效率要求优化业务流程,包括外包;治理则需要相应的企业风险和合规项目。
所有这些业务需要都要求IT部门提供关键数据。但IT部门却常常提供不了这些数据,因为数据搁置在多个系统中,包括部署在内部的系统和云系统。毫无疑问,数据是决定这些业务变革是成功还是失败的关键。这就促使很多垂直行业领域和世界各地的企业都渴望成为以数据为中心的企业,而数据集成则比以往都来得更现实、更优先、更紧迫。
在过去40年中,关系型技术架构是为了管理结构化交易数据而优化的。而现在出现了一种新的架构,是用来管理大数据的(包括社交互动数据)。这个新的架构就是Hadoop。对于大社交数据而言,只有Hadoop的并行处理才能提供尚可接受的性能。要全部释放社交媒体的好处,其挑战就是要能把关系型交易和社交互动这两个环境集成起来。
正是清楚认识到数据集成在“大数据”时代的机遇重重,今年6月,Informatica成功地推出了创新的Informatica 9.1 for Big Data,这是专门为大数据而构建的统一数据集成平台。这个平台的开发目标非常明确,这就是将海量数据带来的挑战转化为重大机遇。软件在大数据集成的三个方面提供了创新和全新功能:
与海量交易数据的连接。9.1版本提供的一个全新关系/数据仓库设备包可将该连接扩展到专为大数据定制的解决方案。不仅如此,它通过与OLTP和在线分析处理(OLAP)数据存储的本地连接,提供了对高流量的交易数据的访问,最大可达拍字节。
与海量交互数据的连接。借助于产品所提供的与新型社交媒体的连接器,访问如 Facebook、Twitter、LinkedIn 和其它媒体等新数据源。将数据收集范围扩大到企业所在行业的新兴价值数据集,包括设备和传感器、CDR、海量图像文件。
海量数据处理。Informatica 9.1提供了新连接功能,可让I T部门将来自任何来源的数据输入Hadoop,同时从Hadoop中抽取数据发送给任何目标。此外,该连接还允许对Hadoop中的数据应用Informatica数据质量、数量探查和其它技术。对于在Hadoop系统内外合并交易和交互数据的企业来说,这些功能提供了全新的可能性。