Azure 告警体系优化实践

Azure 告警体系优化实践

背景

在云原生架构中,告警系统是保障服务稳定性的关键。然而,不合理的告警阈值会导致两个极端问题:

  • 阈值过低:频繁告警,造成告警疲劳
  • 阈值过高:无法及时发现问题

本文记录一次全面的 Azure 告警优化实践,涵盖 Container Apps、AI Foundry、API Management 等服务。

优化原则

  1. 基于实际数据:分析历史指标,设置合理阈值
  2. 区分业务场景:高流量和低流量服务采用不同阈值
  3. 避免误报:排除正常操作(如部署重启)触发的告警
  4. 分层告警:区分警告和严重级别

Container Apps 告警优化

1. CPU 告警

问题:CPU 告警阈值 85%,但实际是短暂突发,平均 CPU 仅 14%。

2小时数据分析: - 平均 CPU: 14% - 最大 CPU: 100% - 超过 85% 次数: 5 次 (42%)

优化:阈值从 85% 调整为95%