北京时间 2025 年 6 月 12 日傍晚至次日凌晨,谷歌旗下的 Google Cloud Platform(GCP) 发生了一起严重的服务中断事件。此次宕机波及多个地区和数十种核心服务,包括 Google Workspace 应用、Cloudflare、Spotify、Instagram、TikTok、Facebook、OpenAI 和 Steam 等均受到影响,持续时间超过 8 小时。

这是近年来 GCP 最严重的一次系统故障之一。
宕机时间线回顾
根据谷歌官方状态页面的信息,本次事故始于:
- UTC 时间 6 月 12 日 17:58(北京时间 6 月 13 日 01:58)
- 恢复完成于:
- UTC 时间 6 月 12 日 23:00(北京时间 6 月 13 日 07:00)
但据部分用户反馈及第三方报告,一些区域的服务恢复延迟到了:
- PDT 时间 6 月 12 日 10:51 至 18:18(北京时间 6 月 13 日 01:51 至 10:18)
整个事件持续时间长达 超过 8 小时,对全球多个行业造成广泛影响。
问题根源:API 管理平台异常
谷歌事后发布官方声明指出,此次宕机的根本原因在于其 API 管理平台出现了“无效数据更新”,导致大量外部 API 请求被拒绝。
具体而言:
- 一次自动化配额更新操作引入了错误数据;
- 缺乏有效的测试和容错机制,未能及时检测并阻止问题扩散;
- us-central1 区域的配额策略数据库因此超载,成为恢复最慢的部分。
尽管大多数服务在两小时内逐步恢复,但部分关键区域仍需更长时间处理。
受影响范围:从 Google 自身到全球依赖者
此次宕机不仅影响谷歌自家服务,如:
- Gmail
- Google Calendar
- Google Docs / Drive
- Google Meet
- Google Chat
还波及大量使用 GCP 的第三方企业和服务平台,包括:
- Spotify
- TikTok
- OpenAI
- Discord
- Snapchat
- NPM
- Firebase Studio
- Cloudflare(通过 Workers KV 键值存储)
其中,Cloudflare 在宕机发生约 20 分钟后也出现服务异常。最初只是身份验证系统故障,随后多个功能陆续瘫痪。
Cloudflare 在事后报告中虽未直接点名,但在媒体追问下确认:“所依赖的第三方云服务商”正是谷歌。
Cloudflare 的应对与反思
Cloudflare 表示,此次事件并非由安全漏洞或数据泄露引发,也未造成用户数据丢失。问题出在其 Workers KV 存储系统,该系统部分依赖于 GCP 提供的底层基础设施。
为防止类似事件再次发生,Cloudflare 已宣布将逐步把 KV 核心存储迁移至自有对象存储系统 R2,以降低对外部云平台的依赖。
云时代下的系统风险
此次 GCP 大规模宕机再次提醒我们,在高度依赖云计算的时代,即使是科技巨头的核心系统也可能因一处配置错误而引发连锁反应,影响全球数百万用户和成千上万的企业。
对于企业和开发者而言,选择云服务时不仅要关注性能与成本,还需重视系统的冗余设计和跨平台容灾能力。
未来,如何构建更具弹性的多云架构,将是保障服务稳定运行的重要课题。
评论