近期 AWS 发生了一场持续近十五小时的区域性故障,官方复盘报告披露了事件全貌,我们也推荐一篇中文翻译与点评博客。故障的起点是 DynamoDB DNS 管理系统中一个潜伏已久的竞态条件缺陷,两个执行器在处理方案更新时出现冲突,最终导致区域端点的 DNS 记录被错误清空。更糟糕的是,这个问题触发了 EC2 租约系统的拥塞崩溃和 NLB 健康检查的连锁反应。
点评:本次故障分析较为客观,但仍然用户对公有云设施产生担忧。例如从发现 DNS 问题到修复用了近三小时,EC2 团队面对拥塞崩溃犹豫了一百分钟才决定重启,对于企业级用户来说仍是难以接受的结果。