慕浩的Blog

慕浩的Blog



关于Cloudflare崩溃事件

ccll · 2025-11-19 · 1浏览 · 全部


2025年11月18日11:20 UTC起,Cloudflare发生全球性大规模中断,根源为内部数据库权限变更导致Bot Management的特征文件异常翻倍,触发边缘路由/代理软件的大小限制而崩溃,与攻击无关;核心流量于14:30 UTC基本恢复。


关键时间线(UTC)

  • 11:20 故障开始,全球边缘节点陆续出现5xx错误与流量中断。
  • 初期误判为超大规模DDoS,后定位为特征文件异常。
  • 14:30 阻断坏文件传播、回滚至稳定版本,核心流量恢复;后续几小时完成剩余节点与服务的恢复。

根因与连锁反应

  1. 权限变更:对ClickHouse数据库集群的权限调整,导致生成Bot Management特征文件时产生大量重复条目,文件体积翻倍。
  2. 传播与超限:坏文件被自动分发至全球边缘节点;核心代理/路由软件加载时触发硬编码大小/内存限制,进程崩溃、无法转发流量。
  3. 误判与排查:早期因故障表现与DDoS相似而误判,后通过阻断坏文件传播、回滚至稳定版本解决。

影响与修复

  • 影响范围:CDN、Bot Management、Turnstile、Workers KV、Access等核心服务,用户侧多见5xx错误与访问失败。
  • 修复措施:阻断坏文件下发、回滚至稳定版本、重启受影响节点;后续将加强权限变更的灰度与校验、优化特征文件生成与分发的熔断/限流、提升监控与告警的覆盖率与准确性。


©

comment 评论区

添加新评论

face表情



  • ©2025 bilibili.com

textsms
内容不能为空
昵称不能为空
email
邮件地址格式错误
web
beach_access
验证码不能为空
keyboard发表评论


star_outline 咱快来抢个沙发吧!




©2025 慕浩的Blog

Theme Romanticism2.2 by Akashi
Powered by Typecho