【趣解】可靠性工程:让系统稳定运行的学问

【趣解】可靠性工程:让系统稳定运行的学问

【趣解】可靠性工程:让系统稳定运行的学问

开篇:99.9%够不够?

你的系统可用性是99.9%。

听起来很厉害?算算一年允许的宕机时间:

365 × 24 × 60 × 0.1% = 525.6 分钟 ≈ 8.76 小时

一年宕机将近9小时。

对于银行、电商来说,9小时宕机 = 上千万损失。

可靠性工程就是研究怎么让系统"少出事、出事了能快速恢复"的学问。

什么是可靠性?

可靠性 = 系统在规定条件下和规定时间内完成规定功能的能力

三个"规定":

  • 规定条件:温度、湿度、负载等
  • 规定时间:多长时间不出问题
  • 规定功能:要完成什么任务

可靠性 vs 可用性

概念定义公式
可靠性不出故障的概率R(t)
可用性能用的时间比例MTBF/(MTBF+MTTR)