Steven J. Vaughan-Nichols 陈琳华
如今,几乎每个人都在使用云计算。Flexera的《2020年云状态报告》称,98%的企业至少在使用一种公有云或私有云。另外2%的企业仍正在使用Windows XP。调查显示,在企业向云端迁移的原因中,排名首位的是为了节省资金。
如果只是将IT基础设施简单地由“自建数据中心”模式转换为公有云模式并不省钱。Gartner杰出副总裁分析师David Smith称:“云计算的一个很大误区是它们可以省钱。我们只能说有时确实如此,但前提是用户认真地分析了自身的情况。”
大部分企业可能并没有这样做。网络安全公司Coalfire发现,尽管大多数企业希望借助云迁移来节省资金,但是实际上,只有36%的受访者表示实现了节省成本的目标。Coalfire将这种结果归咎于缺乏计划性。只有不到一半的受访者在规划阶段进行了云准备状态评估,这导致云部署不达标的风险大增。
Gartner预测,2020年云服务支出将达到2664亿美元,增长17%。需要指出的是,Gartner是在新冠疫情爆发之前做出的这一预测结果。ParkMyCloud首席执行官Jay Chapel认为,在今年的云支出中,176亿美元会被完全浪费掉。
这可是一笔不小的开支。由于新冠疫情导致IT预算被大幅削减,即便是大型公司也无法承受这种浪费。以下是一些如何避免云资源浪费的方法。
几乎所有云用户都面临资源闲置的问题。这些虚拟机虽然处于开机状态,但是却无事可做。通常在开发、展示、测试或质保工作完成之后,这些实例就变成了非生产资源被闲置了。
据ParkMyCloud统计,闲置云资源在2020年浪费的资金将达到110亿美元。那么用户的业务损失是多少呢?ParkMyCloud的客户发现,他们的计算支出中约有44%是非生产资源。大多数非生产资源只在每天8小时工作时间(每周40小时工作时间)内被使用,无需7×24小时全天候运行。这意味着在每天的其他时段内(每周128小时,闲置时间占全周时间的76%),这些资源都是处于闲置状态的。
企业可以做的事情是提醒IT团队在离开之前清理他们的云工作区,但是这还远远不够。企业可以使用AWS中的监视工具,以帮助识别被浪费的计算实例和块存储。有了监控数据,用户可以快速识别出被浪费掉的资源并采取补救措施。
还有一种更主动的方法,那就是使用AWS Instance Scheduler、Azure Automation、Google Cloud Scheduler和ParkMyCloud之类的工具。這些工具可以帮助用户识别闲置资源,并在产生费用之前关闭它们。
另一种常见的资源浪费方式是过度配置基础设施。许多企业之所以愿意为从不使用的资源付费,深层次的原因在于企业想确保自己在需要这些资源的时候能够有得用。这种心态就像我们大量购买设备只为了以备不时之需一样。
据估计,40%的实例规模至少比实际工作负载所需的要大一倍。如果将实例规模缩小一倍,那么成本就会降低一半,缩小两倍可以节省75%。
尽管为了追求速度和敏捷性才将应用程序迁移到了云端,但是为了防止出现性能问题,许多企业都为应用程序超额配置了资源。虽然“基础设施即代码”可以轻松地实现资源扩展,但是用户很难知道自己应该在何处进行优化,以及怎样配置实例才能满足实际性能需求。
这个问题看似简单,但是实际上并非如此。当用户开始使用云环境时基本上都会勾选立即“可适时调整规模”选项。但是由于无法分析资源消耗情况,也无法进行费用分摊,因此这一选项实际上毫无意义。云应用程序对性能和容量的需求会随时间而变化,这不可避免地会导致资源未充分利用和闲置。
用户应当使用云服务提供商的最佳实践。但是需要注意的是,适时调整是一个持续不断的过程,其需要可以减少过度配置的相关策略和边界设置,能够细化到部门使用情况的资源标记,以及对CPU、内存和I/O的监控。只有这样才能真正有效果。
那么,用户如何正确设置规模才能避免因过度配置导致的资金浪费呢?用户首先要监视云计算的使用,对数据进行分析,然后再测试各种规模的实例,并从中找到最合适的实例。Densify、SolarWinds Virtualization Manager和Veeam ONE等云资源管理工具可以提供这方面的帮助。
用户应当清理云端上的软件,而不是进行监视和镜像调整。利用云原生能力的重构应用程序可以有效降低成本。常见的误区是用户只能重构自己编写的应用程序。实际上,大多数应用程序和软件厂商都允许自动部署和与基于标准的PaaS解决方案进行整合。对于用户的定制化应用程序,优化资源的最有效办法是使用无服务器架构。通过这种办法,用户只需要支付实际使用的费用,不需要按月支付物理服务器或虚拟服务器的费用。这样用户可以大幅降低成本,尤其是在考虑到人工成本和硬件成本之后。
云计算的优势之一是用户可以根据需要增减资源。每个用户都想订购最新产品吗?没问题,云服务随时可以提供所需要的计算资源。今天没人在你的网站购物?那么你可以减少虚拟机(VM),这样就可以不用付费了。如果工作负载长期处于稳定状态,那么用户可以通过预留实例来节省大量支出。
如果用户选择亚马逊Amazon Web Services(AWS)Reserved Instances、微软Azure Reserved VM Instances或谷歌的Google Cloud Committed Use Discounts,并签订1~3年的虚拟机使用合同,那么用户提前支付费用时可以享受巨大的折扣。无论用户使用与否,这些预付费的虚拟机均一起处于可用状态。
一些云供应商还提供了可以计算出这些保留镜像能够为用户节约多少资金的工具。例如,VMware的CloudHealth可帮助用户从第三方视角查看节省的费用。
正确使用保留镜像可以节省大量成本。云计算的灵活性对于任何需要快速部署或扩展的场景来说极为有价值,但是灵活性也是有成本的。不过,有些情况下,云计算灵活性的成本是可以避免的。能够评估自身需求的企业可以通过合理的资源投入和使用规划来大幅节约资金。
为确保云计算支出不会超过应有的水平,企业应花时间收集当前和近期的预测需求。要想获得正确的产品和功能集,企业应与其云供应商一起推动这一过程。这一点至关重要。
用户要首先回答的问题是,自己愿意承担多大风险以及对云增长的期望值。是保留80%的资源,还是20%?这个问题完全取决于用户想要多大的灵活性以及愿意承担多大的风险。如果用户能够确定自己大致需要多少资源,以及今后三年的资源使用量,那么在2023年之前他们可以为今后的工作量预留70%的虚拟机。企业的云需求是否会迅速增长?如果是,那么用户最好以合同的形式将10%的实例固定下来。
企业在向云计算迁移时遇到的主要问题是,他们用原来的数据中心思维在规划公有云或混合云。
尽管私有云也是建立在用户自有的硬件之上,但是用户在规划云服务时应该打破原来的IT基础设施经验的束缚。
企业在向云端迁移时犯的一个重大错误是,他们仍像继续运行裸金属服务器那样进行调配。几十年来,用户一直在努力确保自己的资源远远超过高峰时所需要的资源。尽管云服务可以根据需要及时调整,但是用户几十年形成的老观念仍然没有发生改变,最终他们不得不为没有使用的资源买单。
如果用户在云管理方面采用與本地服务器架构相同的标准和控制方法,并部署外部设施,那么这样不仅会带来云计算费用,还可能产生第三方许可证费用和软件费用。在设计阶段,了解自己的主要目标至关重要。这样使得用户能够适当地利用原生属性和云基础设施降低许可证费用和软件成本。
如果企业还是在关注每台服务器的成本或在不同位置运行服务器的成本,那么他们还没有形成头部思维。他们应该只为能带来业务价值的功能付费。如果企业仅简单地将其本地服务器迁移至云端,那么这只是相当于从一家设备供应商换成另一家而已。
要节省资金,用户必须先要在部署之前搞清楚云和传统IT基础设施的不同之处。有了这些知识,用户还要找出哪些工作真正需要云服务资源,而不是一股脑地将服务器和应用程序都迁移至云端。
以本地数据中心的部署方法来实施云应用程序管理是不会减少开支的,并且还可能会造成更多的开支。为了快速实现云应用程序部署,将服务器和应用程序一股脑地都迁移至云端的企业并不在少数。虽然这种方法也不是不可以,但是对云迁移进行评估可以确保成本得到优化。
如果用户选择私有云,那么灵活的支付方式非常重要,尤其是在当前的疫情时期。企业在保持充足的资金储备的同时,让IT系统保持敏捷性和竞争力也非常重要。当用户向云迁移时,他们应该考虑部署带有消费模式的技术,以便只支付使用产品的费用。由于业务环境正在迅速变化,如果有短期低息的支付方案,降低总拥有成本的好办法是对贷款采购云基础设施和现金采购进行比较。
用户的云服务由谁负责可不是一个简单的问题,这实际上非常复杂。每个公有云平台计量资源的方法都不一样,因此用户很难每月跟踪他们的云预算,进而导致出现费用超支或资源未被充分利用的情况。云治理对于许多大型企业来说也并非易事,因为这其中既要考虑资源利用率和成本管理,又要考虑安全性和合规性。尽管如此,要想解决这一问题,关键还是要抓住可见性。公有云平台中的应用程序和工作负载的可见性以及用户对成本和云支出费用的洞察力可以帮助用户控制自己的环境,并防止事情进一步恶化。
大多数企业在这方面做得并不好。在当前的疫情期间,为了让员工能够远程办公,大多数企业都不得不加大云服务的使用量,这导致几乎所有的人都在浪费大量资金,但是他们自己却对此一无所知。最近的研究显示,只有30%的企业认为自己在云服务使用量和成本方面的管理是成功的。
在技术方面,云治理并没有什么捷径可言。尽管所有的云服务提供商都提供了相关的工具,但是对于企业而言,明确职责和角色才是本质。除了资产、财务和供应商管理必须通力合作,架构师和工程师也需密切协作,以便随时处理可能出现的成本激增情况。
由于资本支出控制、对数据中心的物理访问等手段已无法再防范影子IT,因此IT部门将面临更加严峻的挑战。企业中的所有员工都可以购买一个虚拟数据中心,并且这个数据中心的规模可以无限大。无论是否向云端迁移,企业都有必要建立起一个高效的治理模式,以便在账务、运维和安全风险出现之前快速发现和阻止影子IT。
虽然管理职责最终是落在人员头上,而不是技术上,但是成本透明性和干净的财务数据是必需的,只有这样管理人员才能发现节省支出和成本的机会。由于公有云提供商会提供大量有价值的账单数据,因此企业需要制定将这些数据与包括标签在内其他的元数据关联在一起的策略,以便于高效地使用这些信息。只有管理团队牢牢掌控住资源,企业才能有效地管理云计算成本。
云计算成本的管理并非易事,这里面既有开发人员需要解决的技术问题,也有需要DevOps管理专家处理的系统管理问题。企业的高层也要对此负起责任,不要认为这些都是IT部门的事情。
云计算涉及到各个方面。只有所有的员工都能够正确使用云计算,企业才有望实现削减IT成本的目标。
本文作者Steven J.Vaughan-Nichols早在上世纪七十年代,CP/M-80操作系统还是前沿技术,300bps还算很快的网络连接时,就已经开始撰写科技与商业文章了。
原文网址
https://www.idginsiderpro.com/article/3569769/5-ways-to-avoid-cloud-waste.html