2025年11月18日11:20 UTC起,Cloudflare发生全球性大规模中断,根源为内部数据库权限变更导致Bot Management的特征文件异常翻倍,触发边缘路由/代理软件的大小限制而崩溃,与攻击无关;核心流量于14:30 UTC基本恢复。
关键时间线(UTC)
- 11:20 故障开始,全球边缘节点陆续出现5xx错误与流量中断。
- 初期误判为超大规模DDoS,后定位为特征文件异常。
- 14:30 阻断坏文件传播、回滚至稳定版本,核心流量恢复;后续几小时完成剩余节点与服务的恢复。
根因与连锁反应
- 权限变更:对ClickHouse数据库集群的权限调整,导致生成Bot Management特征文件时产生大量重复条目,文件体积翻倍。
- 传播与超限:坏文件被自动分发至全球边缘节点;核心代理/路由软件加载时触发硬编码大小/内存限制,进程崩溃、无法转发流量。
- 误判与排查:早期因故障表现与DDoS相似而误判,后通过阻断坏文件传播、回滚至稳定版本解决。
影响与修复
- 影响范围:CDN、Bot Management、Turnstile、Workers KV、Access等核心服务,用户侧多见5xx错误与访问失败。
- 修复措施:阻断坏文件下发、回滚至稳定版本、重启受影响节点;后续将加强权限变更的灰度与校验、优化特征文件生成与分发的熔断/限流、提升监控与告警的覆盖率与准确性。
comment 评论区
star_outline 咱快来抢个沙发吧!