腾讯云披露近日相关故障详情,系云API异常导致

日前腾讯云方面发布相关报告,披露了4月8日服务大范围故障的原因及细节。据腾讯云方面透露,4月8日15点23分收到告警信息,显示云API服务处于异常状态,随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。经过故障定位后发现,客户登录不上控制台是由于云API异常所导致。


据了解,腾讯云此次故障共持续近87分钟,期间共有1957个客户报障。故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。

腾讯云披露4月8日故障详情及原因,系云API异常导致

据悉,此次故障的具体原因是云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题,即本次API升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体API使用异常。


在相关报告中显示,故障发生后,腾讯云团队按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启API后台服务,但此时因为承载API服务的容器平台也依赖API服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使API服务重启,完成整个故障恢复。


对此腾讯云方面表示,综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来其将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力等方面快速进行改进和完善,以减少故障的影响范围和影响时长。


以提升系统韧性为例,腾讯云方面将定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间;优化服务部署架构,通过分层架构、代码审查和监控等手段, 避免API服务中潜在的循环依赖问题;提供API服务逃生通道,当故障发生时,可供调用方快速切换。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看