沈建苗
由于副本数据管理(CDM)和数据库虚拟化设备(DVA)之类的数据虚拟化解决方案,数据克隆技术取得了显著进展。这类技术在过去4年迅速得到了采用。《财富》500强中有100家企业采用了数据虚拟化技术。这些采用者发现,存储需求大幅降低,开发项目时间大幅缩短,这归功于数据虚拟化技术能够在短短几分钟内生成数据副本,几乎没有任何存储开销:不是拷贝数据,而是共享初始数据副本,同时为每个副本单独存储变化的数据,允许每个副本进行读写访问。
为何副本数据管理(CDM)和数据虚拟化对企业来说很重要?因为数据虚拟化解决方案缓解了生产数据副本造成的数据散乱现象。
由于应用程序开发、质量保证、用户验收、生产环境支持、报告和备份,企业通常为每个生产数据源生成8到10个副本。因此,一个5 TB的生产数据库会形成40TB到50TB的下游副本,而一家《财富》500强企业可能会有1000多个生产数据库生成PB级的副本数据。有效管理副本数据所需的存储量大得惊人。而数据虚拟化消除了所有的冗余数据副本,同时、而且更为重要的是缩短了生成副本所需的时间,这就缩短了应用程序开发时间、质量保证时间和恢复时间。
如今,只有少数几家公司致力于这个领域,更多的公司在进入这个市场,因而很难辨别厂商营销炒作的真伪。
在概念证明(POC)阶段,先要搞清楚哪些问题?可以通过哪些测试来证明?
POC之前先搞清楚这五大问题
1.支持我的环境?
第一个也是最明显的目标是,找到一款很容易与贵公司的基础设施、数据源和应用程序架构栈整合起来的解决方案。这包括内部部署环境以及可扩展到远程环境或云环境。你还应该确保自己不被只支持单一源环境的解决方案牢牢锁定。你是否需要不止一种类型的数据库,比如Oracle、SQL Server、Sybase或MySQL等?是否需要支持某应用程序,比如Oracle EBS或SAP?是否需要多个主机操作系统,比如Linux、AIX、HP/UX、Solaris和Windows?该解决方案是需要专门硬件,还是可以在现有的系统资源上运行?
2.拥有必需的功能?
该解决方案是否拥有特定的内置功能,以满足预期的业务目标和要求,比如
■加快应用程序的发布周期
■是否有特定的接口和功能来支持应用程序开发人员
■确保数据的隐私性和安全性
■包括屏蔽、审计和监管链
■加快集成测试
■该解决方案是否支持快速质量保证环境和专门侧重质量保证的功能,比如破坏性测试所需的回滚(恢复原状)。
■将数据迁移到云环境
■该解决方案是否支持云计算基础设施?该解决方案是否支持从内部数据源复制到云数据源,反之亦然?
■改进备份和灾难恢复策略
■该解决方案是否支持长远和精细的恢复点目标(RPO)和快速的恢复时间目标(RTO)?
3.可扩展到新的使用场合
该解决方案通过在整个公司带来其他应用场合,从而降低总体拥有成本、提供更高的投资回报率方面做得多好。比如,如果我的虚拟化数据与生产数据同步,以便用于集成测试这一应用场合,那么现在我能屏蔽该数据,将它迁移到公有云,让分析团队能够对相同的数据集执行商业智能分析吗?
4.推荐相关客户
该厂商有没有与我企业规模和业务需求相似的客户?我是否要帮助厂商开拓新领地、因而经历发展初期的困难,还是说厂商已经有金融、零售、制造、政府、高科技及其他行业垂直领域的领军企业如今在使用其解决方案?
5.根据证明阶段简易又快速
该厂商是否愿意在实际的POC过程中向我展示所有这些功能?对方是否能够在现场POC过程中做到所有的销售和营销宣传名副其实,并有定义明确的成功标准?
POC过程中运行的五大测试
1.时间点配置
根据确切的时间点配置环境。用什么方法找到确切的时间点?该解决方案让我可以具体根据分钟、秒钟或事务来配置数据环境有多容易?最终用户(比如开发人员或业务分析人员)只要按一下按钮就可以完成配置,还是说需要自定义脚本和多个人员(比如存储管理员、数据库管理员和系统管理员)才能完成?
2.环境的重置、分支和回滚
鉴于我已经配置好了父环境(生产环境的副本),我想做一些变化,配置该环境的分支(即子环境)。对子环境做一些变化后,现在我想让子环境恢复到1个小时或6个小时之前。这如何完成?最后,我想把这两个环境都重置到原来状态。
3.用最新数据更新父环境和子环境
我已建立了许多父环境,又从这些父环境另外建立了许多子环境。有什么方法将最新数据从生产环境迁移到父环境和子环境?这个过程可以由开发人员或分析人员来完成吗?要是有影Ⅱ向的话,会对生产数据有何影响?
4.根据同一时间点配置多个源环境
我有多个使用场合(商业智能、集成和灾难恢复等),我需要根据某一个时间点来对齐和配置多个不同的数据源。(比如说,根据当地时间下午5点对齐我的所有源数据集)。这该如何实现?
5.自动化,自助服务,审计功能
我能通过自助服务式GUI控制台来执行上述所有任务吗?GUI的界面是否足够直观,以便为开发人员、分析人员和数据所有者提供自助服务?CLI用起来多可靠?有没有一整套可充分利用REST的API以便与开发运营(DevOps)工具集成起来?最后,所有这些任务是否记录下来,为访问我数据的活动提供记录源?
总之,头号心得就是,应该确保厂商在POC阶段向你证明其解决方案和功能特性。数据虚拟化解决方案有望大幅提升数据敏捷性和数据中心的利用率一一这种提升幅度是自十年前VMware普及服务器虚拟化以来所未曾见过的。由于这个原因,很快会有许多厂商追逐这股潮流,声称其解决方案提供本文概述的所有功能。你想看一看哪家是真正有实力的厂商,可能很简单,只要让它们证明一下。