2024 年 4 月 8 日 15 点 23 分,腾讯云团队收到告警信息,云 API 服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。
经过故障定位发现,客户登录不上控制台正是由云 API 异常所导致。
云 API 是云上统一的开放接口集合,客户可以通过 API 以编程方式管理和操控云端资源,云控制台通过组合云 API 提供交互式的网页功能。
故障发生后,依赖云 API 提供产品能力的部分公有云服务,也因为云 API 的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。
此次故障一共持续了近 87 分钟,期间共有 1957 个客户报障。
从客户的视角来看,云服务大概可以分为数据面和控制面,数据面承载客户自身的业务,控制面负责操作云上不同产品。
比如目前使用最广泛的 IaaS 服务基本上都是以直接面向数据面为主,控制面仅在客户购买或需要对资源层面进行调整操作时会涉及。此次发生故障的控制台和云 API 是对控制面的影响。



问题复盘
整个处理过程如下:

改进措施