2014让人防不胜防的云宕机:AWS为何宕机最少?

2015-03-11 |  作者:Beth Pariseau,Trevor Jones |  来源:TechTarget中国

摘要今年的云断电数据表示,越来越多的成熟公有云可以更好的避免云断电发生,但还是有些出乎意料的情况出现。

云断电难免发生,但对于象AWS这样的主流厂商来说,并不常见。看看Azure、Google、Rackspace和其他IaaS供应商在2014年的表现。

今年的云断电数据表示,越来越多的成熟公有云可以更好的避免云断电发生,但还是有些出乎意料的情况出现。

云厂商不断的在他们的平台上倾注大量的资金和策略以增加可靠性。扣除那些低端的公有云,运行时间已经大为改善,但有一个主要的例外,一家位于波士顿的云咨询公司云技术合作伙伴的高级副总裁David Linthicum说到。

“虽然公有云供应商扩张的很快,他们似乎在经营他们的业务上也变得越来越聪明,可能除了微软以外,因为微软还是犯了些很愚蠢的错误,”Linthicum说道。

在众多大型公有云厂商之中,Amazon EC2在过去一年保持了最长的运行时间,在全球所有区域内总共只停机了2.43小时,据CloudHarmony指出。CloudHarmony是一家位于加州Laguna Beach的公司,负责第三方独立的监控云厂商运行时间。

微软Azure,在11月18日有过众所皆知的跨区域大断电,在众多大型厂商之中有着最长的,接近40小时的计算服务断电时间,根据CloudHarmony的说法。

“有些服务已经运行了较长的时间并且比其他的服务更稳定一点,这是因为它们已度过了粗糙和不稳定的阶段,解决了比其他服务更多的问题,” CloudHarmony的创始人Jason Read说道。

运行时间的改善多半归功于经验,额外的数据中心用作故障转移,更多的自动化,更好的内部沟通和更快发现导致断电的规律的能力,Linthicum说道。

供应商们花费大量的金钱来维护他们的服务并变得更积极主动,因为一连串的断电事件将成为企业购买云服务时考虑总体拥有成本的首要因素。

AWS表现最佳

根据他们的合作伙伴表示,亚马逊Web服务(AWS)在之前几年有过备受瞩目的断电事件,但在今年,这方面却完全无声无息。

“我们有过一些服务影响及一些缓慢的状况,但就我所知我们没有一个客户有遇到停机的情形,”一家位于华盛顿州Liberty Lake的云咨询公司,Amazon的合作伙伴,2nd Watch的CTO Kris Bliesner说道。

这家公司原本计划开发一个可以替他们顾客在断电时作为早期预警系统的应用。但这个计划现在已经在他们的开发列表上优先级降到最低,Bliesner说道。

“我们只是不再看到那么多断电了,”Bliesner说。

某种程度上,这很可能是因为AWS已经发展出设计大规模并高度可靠的基础架构的能力,并度过了成长过程的痛苦时期,那些现在正影响着其他那些不太成熟的云供应商,Bliesner说道。

这正是从AWS副总裁兼杰出工程师James Hamilton那里传达出的讯息之一。Hamilton在今年的re:Invent大会上展示了Amazon的大规模创新。

Amazon已经开始设计他们自己的网络,存储和服务器设备,而这使他们的成本下降并增强了可靠性,Hamilton说道。

“企业总是对网络设备供应商提出许多复杂的要求,而供应商则将所有这些复杂的要求汇总成数千万行的无法维护的代码(+关注网络世界),而那就是我们最终得到的东西,”Hamilton在他的演讲中说道。“我们不用所有的那一整套东西。。。为什么我们的设备比较可靠的原因是因为我们没有选择去解决那么困难的问题。”

Amazon对于每周不断加强他们的基础架构监测指标是近乎“信仰性”的,而这也加强了他们的可靠性,Hamilton说道。AWS的可用区(AZ)系统将多个数据中心连接至数个AZ里面,而这些AZ为了保持高可用性都有同步镜像处理。例如关系数据库服务(RDS)的服务都有提供多AZ复制的功能,增加了数据被重复冗余存储地点的数量。

AWS的客户也从经验中学到关于要创建更有弹性的应用。当RDS被第一次推出,26%的客户使用了多AZ复制的功能。这个数字现在已经增加到了40%,而目标是增加到70%,据Hamilton说。

在AWS云系统中的新数据库,例如Aurora,则提供了更强的弹性。这个弹性源于AWS对于数据库底层的存储引擎的重构,而这个引擎存在于Aurora内部与主数据库完全隔离,这样在错误时便能够很快速的恢复。Aurora也会将数据复制三次,在AZ间创建六份拷贝。

Amazon的数据中心设计也经过不断改良来提供最佳的可靠性,根据Hamilton的说法。数据中心最多可存放5万到8万个服务器。

“我们可以很轻松的构建更大的数据中心,但是……越大就越有风险,万一出了什么问题,损失将会是巨大的,”Hamilton说。

因为AWS从经验中学到如何在它们规模化的同时优化可用性,那些较晚涉足基础架构即服务(IaaS)市场的AWS竞争者们可能还是会遇上过去Amazon常发生的那些众所周知的断电事件,根据Bliesner的看法。

“在某种程度上来说,如果Azure或Google想要竞争,他们就必须要做出可扩展性的飞跃,而客户是否会在那个扩展的过程中面临更高的断电风险呢?”他说道。“我的猜测是会。”

但是,Amazon在一个领域上是落后于Google云的。Google云存储发生过八次断电,总时长为14.23分钟,而Amazon的S3发生过22次断电,总时长2.66小时,根据CloudHarmony的说法。

相关文章