当前位置: 首页 > news >正文

2026年5月19日:谷歌云误停账户致Railway全平台服务中断8小时

事件报告2026年5月19日 - GCP账户暂停Chandrika Khanduri 与 Cody De Arkland于2026年5月20日发布此报告。据悉本报告反映了发布时所掌握的信息可能会根据谷歌云Google Cloud的内部审查结果进行更新。影响2026年5月19日22:20 UTC至5月20日约06:14 UTC约8小时期间谷歌云暂停了Railway生产账户的服务导致全平台中断。这使得API、控制平面和数据库离线谷歌云托管的计算基础设施也停止运行。用户在仪表盘和API上立即遇到503错误无法登录所有托管在谷歌云计算平台上的工作负载都停止运行。虽然Railway自己的Railway Metal和AWS突发云环境中的工作负载仍在运行但由于边缘代理依赖于谷歌云托管的控制平面API来填充其路由表随着路由缓存过期其他工作负载变得无法访问返回404错误。在影响最严重时所有地区的Railway工作负载都无法访问。在恢复谷歌云环境的过程中全平台的构建和部署被阻塞大量排队的部署任务被逐步处理。与此同时GitHub开始对Railway的OAuth和Webhook集成进行速率限制暂时阻止了用户登录和构建操作服务条款接受记录也被重置。事件时间线5月19日22:10 UTC自动监控系统检测到API健康检查失败值班人员开始调查问题5月19日22:11 UTC仪表盘返回503错误用户无法登录5月19日22:19 UTC确定根本原因是谷歌云平台暂停了Railway的生产账户5月19日22:22 UTC向谷歌云提交P0工单联系了GCP账户经理5月19日22:29 UTC宣布发生事件GCP账户访问恢复但计算实例仍停止持久磁盘无法访问5月19日22:35 UTC缓存的网络路由开始过期工作负载开始返回404错误5月19日23:09 UTC第一个持久磁盘恢复在线5月19日23:54 UTC所有持久磁盘恢复到就绪状态但网络仍然中断5月20日00:39 UTC确认磁盘就绪但恢复工作因谷歌云网络恢复问题而受阻5月20日01:30 UTC计算实例开始恢复5月20日01:38 UTC边缘流量恢复网络恢复正常5月20日01:57 UTC编排和构建基础设施恢复暂停部署5月20日02:04 UTC计算主机逐步恢复在线5月20日02:47 UTCGitHub开始对Railway的OAuth和Webhook集成进行速率限制部分用户无法登录构建操作受阻5月20日02:55 UTC仪表盘再次可访问5月20日03:59 UTC所有层级的部署开始再次处理5月20日04:00 UTC确认API、仪表盘和OAuth端点正常运行其余工作负载继续恢复5月20日06:14 UTC事件进入监控阶段5月20日07:58 UTC事件解决。事件经过5月19日22:20 UTC谷歌云错误地将Railway的生产账户置于暂停状态影响了多个账户且未主动通知客户。这使与GCP相关的基础设施无法使用支撑着Railway仪表盘、API和部分网络基础设施等。Railway的控制平面受影响所有工作负载立即受影响。边缘代理维护的路由表缓存过期后工作负载开始返回404错误导致网络中断影响超出谷歌云。尽管Railway基础设施设计为高可用性但恢复账户访问不意味着单个服务能恢复中断持续了几个小时。到23:54 UTC磁盘恢复到就绪状态但核心网络和边缘路由直到5月20日约01:30 UTC才完全恢复。随着网络恢复Railway核心服务和最终用户工作负载逐层恢复为防止过载暂停部署并逐步恢复。在此期间GitHub对Railway的OAuth和Webhook集成进行速率限制。到5月20日约04:00 UTCAPI、仪表盘和OAuth端点确认正常运行其余工作负载继续恢复。预防措施Railway的网络控制平面设计具有弹性此前在弹性方面的投入有助于应对此次事件影响例如能顺利恢复用户的GitHub安装。然而Railway网络中工作负载的可发现性仍严重依赖于谷歌云机器上的网络控制平面API。因此Railway将消除这一依赖使网络成为真正的网状结构还将把高可用性数据库分片扩展到AWS和Metal确保数据库仲裁在云中实例消失时正常运行并进行故障转移。最后计划将谷歌云服务从数据平面的关键路径中移除仅用于二级/故障转移同时实施新架构确保核心服务不依赖单一供应商或平台。值得一提的是Railway对供应商选择负责会继续履行保证服务正常运行的承诺。继续阅读...技术文章使用新构建器每月处理5000万次以上构建。用运行BuildKit的微型虚拟机构建单元集群取代了基于Docker - buildx的GCP自动伸缩器并分享推出过程中的经验总结。技术文章优化新用户引导每天向10000多名新用户销售。介绍如何将每天10000个产品驱动增长PLG注册用户转化为潜在企业客户以及暴力破解维度比复杂的机器学习更有效一个加权分数使电子邮件参与度提高10倍。提醒加入数百万开发者的行列可在Railway上轻松部署数百万个应用程序。
http://www.zskr.cn/news/1335270.html

相关文章:

  • 告别FPN信息瓶颈:手把手图解Gold-YOLO的‘聚合-分发’机制(附代码逐行解读)
  • 软件测试进阶之路:测试环境搭建与数据库/Linux实战
  • 别再死磕华莱士树了!手把手教你用Verilog实现更省面积的Dadda Tree乘法器(附完整代码)
  • 用STM32F407的ADC+DMA,做个PS2摇杆的“读心术”,实时读取X/Y轴电压变化
  • 2026届必备的十大降重复率平台解析与推荐
  • MiniMax-M2.7-W8A8 双机 DP=2 部署
  • 别再手动补面了!ANSA Topo_CONS命令实战:从Paste到Project,5分钟搞定复杂几何修复
  • Pandas/NumPy数据处理中,科学计数法如何‘隐形’影响你的结果?附解决方案
  • 2026年4月消毒房公司推荐,工业消毒房/消毒房/餐具消毒房/蒸汽消毒房/臭氧消毒房/消毒房定制,消毒房厂商有哪些 - 品牌推荐师
  • TG电报登录收不到短信验证码?关于 SMS fee 我是这样搞定的!
  • 手把手教你用PlatformIO给ESP32添加蓝牙HID功能(从库缺失到成功编译的全过程)
  • 【软考高级架构】论文预测——论大语言模型(LLM)在企业级系统中的部署架构与优化策略
  • RT-Thread Studio开发RA2L1:从环境搭建到GPIO输入输出实战
  • CRM功能解析:覆盖客户、销售、数据、库存、工单全场景
  • 5分钟轻松搞定GitHub中文界面:智能汉化插件让英文GitHub变母语
  • 合同系统业务功能
  • 逆向分析MIUI安全中心:我是如何找到‘USB安装确认’开关的(附配置文件详解)
  • 为什么自己写的论文重复率会很高?
  • 告别舵机抖动!用PCA9685驱动16路舵机,51单片机/STM32代码实测(附Proteus仿真文件)
  • 告别阻塞等待:用UVM的response_handler和另类response机制提升验证平台效率
  • 别再死记硬背了!用Python和C语言两种方式,带你一步步手算Modbus CRC16校验码
  • GAN评估指标“内卷史”:从Inception Score到FID,再到KID为何被StyleGAN2-ada选中?
  • RT-Thread Studio安装后别急着关:手把手带你完成第一个‘点亮LED’的STM32项目
  • 2026年Q2日本红枫苗木选购评测:鸡爪槭苗木/乌桕苗木/巨紫荆苗木/朴树苗木/榉树苗木/樱花苗木/欧洲枫香苗木/选择指南 - 优质品牌商家
  • 深入理解PCIe地址转换(ATU):以DW控制器为例,图解Inbound/Outbound与DMA配置
  • 从Controller到Agent:一篇讲透EasyMesh协议里的那些“黑话”与实战配置
  • 别再只调参数了!深入Niagara自定义模块:从看懂官方示例到写出自己的第一个功能
  • RK3568核心板+基板硬件设计全解析:从模块化架构到嵌入式系统开发实战
  • 研一开学前,我用这份保姆级时间表3个月搞定CV基础(附Python/PyTorch/OpenCV避坑指南)
  • Postgresql基础实践教程