亚马逊云科技高可靠性秘密武器:基础设施到技术架构的韧性之道

作为全球领先的云计算服务提供商,亚马逊云科技通过其高度可靠的基础设施和技术架构,为客户提供强大而灵活的计算、存储和数据库服务、AI等服务。屹立行业之巅,亚马逊云科技为何能引领云计算行业十几年,其秘密武器是打造的从基础设施到技术架构再到运营机制全链路韧性技术。

在近期亚马逊云科技媒体沟通会上,亚马逊云科技大中华区解决方案架构总经理代闻详细阐述了韧性技术背后的逻辑和思考。

如何打造高可靠的云服务

亚马逊云科技在2006年开创性地发布了第一款云服务,时至今日,亚马逊云科技提供了超过 240 种功能全面的服务。

代闻首先披露了一组数据,“亚马逊云科技去年每天稳定启动的Amazon EC2实例超过1亿,每秒 API请求数高达100万亿。正是因为做对了很多事情,才有今天全球数百万客户的选择和信任。”这在云计算行业可谓是首屈一指。

在代闻看来这些事故背后的风险包括:

基础设施层——括数据中心、主机、机架、网络故障,或自然灾害导致的损坏

架构设计层——数据状态、应用程序状态异常、依赖项失效等

运营机制层——由运维操作、代码部署、配置错误等引起的故障

想要构建高度可靠的云服务,必须要解决以上三个重点问题,

秘密武器:基础设施韧性、韧性技术架构和卓越的运营机制

在基础设施韧性方面,亚马逊云科技的基础设施分为区域、可用区(通常相距100公里)、多个或单个超大数据中心等多个层级。每个可用区的数据中心都有独立的电力、制冷和物理安全设施。

当一个可用区发生电力中断,自然灾害时,区域内其他可用区不会受到任何影响, 安全距离既能防止相关故障,又能实现毫秒级延迟的同步复制。

在可用区内部,可用区之间,区域和区域之间,均铺设光纤线路两两互联,实现高速数据传输的同时任一连接是冗余的,实现了高可用、低延迟的可用区网络设计。

在韧性技术架构方面,亚马逊云科技总结云服务自身韧性的四大要素:区域隔离,多可用区;控制面和数据面独立;单元架构;随机分片。

区域隔离,多可用区的目的是实现控制故障发生时对客户的影响范围。控制面和数据面独立能够确保云服务的数据平面能够独立于控制平面的状态持续稳定运行,且能够独立扩展互不影响。单元架构设计确保当发生故障时,只有该单元受影响,而不会导致整个系统瘫痪,无论硬件、网络、电力系统还是代码,都将影响最小化,进一步提高整个应用和系统的可用性。

为确保云服务的韧性,卓越的运营和机制至关重要,也是亚马逊云科技的差异化优势之一,亚马逊云科技的运营机制总结为4个模块:服务责任模型、运营就绪审查、持续安全部署、纠错流程。服务责任模型确保各项服务的良好运营,能够随叫随到。运营就绪审查提供了服务发布和更新相关的标准化流程。持续安全部署能够在保持服务连续性的实现安全的自动化部署。纠错流程能够了解错误发生的根本原因,同时成功的纠错记录还将成为运营就绪审查标准流程的一部分,确保问题不会再次发生。

授人以渔:帮助客户构建端到端的韧性

在与客户和内部团队展开多年合作的基础上,亚马逊云科技为韧性构建工程总结归纳为4大经验:

  1. 系统韧性的提高是持续的过程,而不是一次性的努力;

  2. 在业务需求、可靠性、成本、系统复杂度之间取得均衡;

  3. 以标准软件开发生命周期为蓝本,可轻松整合到企业现有流程中;

  4. 从业务、技术与持续运营等多个维度来帮助企业提高系统韧性。

基于经验分解,亚马逊云科技开发了韧性系统建设生命周期框架, 该框架包含五个关键阶段, 包括设定目标、设计及实施、验证和测试、持续运营、实施各种运营最佳实践、响应和改进。并强调韧性是一个持续的生命周期,需要不断重复五个阶段,以应对不断变化的环境和需求。

亚马逊云科技希望客户能够采用同样的单元架构方法论,来最小化自身应用的爆炸半径,提高可用性。亚马逊云科技90%以上的服务来源于用户需求。在韧性系统建设生命周期框架的五个阶段,亚马逊云科技都提供了多种服务和工具:如Amazon Resilience Analysis Framework、Amazon Aurora、Amazon DynamoDB、Amazon Aurora Global Database、Amazon Fault Injection Simulator(FIS)、Amazon Resilience Hub、Amazon Application Recovery Controller等。

系统的可观测性和故障自动化处理

针对199IT提出的“如何持续提高系统的可观测性和自动化”这一问题,代闻表示,一个关键点是API。一个云服务平台没有 API 或者 API 不健全,自动化是没有办法做到。

亚马逊云科技在全球云计算行业做了非常好的示范带头作用, API 是怎么写,API 的细颗粒度以及安全等前置考虑都实现得非常好。要做自动化和可观测性,你一定需要把应用和这个基础架构里面的数据能够拿出来,能够看,能够做分析。

另外一个关键点是亚马逊云科技对云原生服务支持已经足够好,并提供了一系列的云原生服务,像 Amazon Aurora global Database 能够自动跨区域数据复制;Amazon Lambda无服务器运算,客户只需要关心它的代码运营环境,底层高可用弹性都是自动实现。GenAI领域,用户在Amazon Bedrock中做推理的时候,不用做很多的基础运维工作,亚马逊云科技比较好地平滑地给客户提供一个可扩展环境。一些新的云原生的服务在不断地推出,这将会大大简化自动化流程,并降低可观测性的难度和复杂度。

细微处见真章,云计算行业需要务实、为客户负责、对安全可靠的前置通盘预判,从基础设施到技术架构到运营机制,亚马逊云科技对韧性技术的打造,是赢得客户青睐和信任的秘密武器。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部