K8s NFS 存储最佳实践 — 阿里云 NAS 挂载规范与故障防御

K8s NFS 存储最佳实践 — 阿里云 NAS 挂载规范与故障防御

背景

2026-06-30 实际故障:某 K8s Node 整机卡死,ls/df都无法执行。根因是禅道 Pod 删除后 NFS 挂载残留 + hard 模式无限重试,导致所有触碰该路径的进程进入 D 状态(不可中断睡眠)。

核心教训:NFS 的hard模式 + K8s 手动挂载 = 定时炸弹。


一、绝对红线

#红线原因
1❌ 禁止在 K8s Node 的/etc/fstab手动写 NFS 挂载K8s 用 PV/PVC 管理,fstab 残留不会被自动清理
2❌ 禁止使用hard模式(NFS 默认)NAS 不可达时整机卡死
3❌ 禁止nfs defaultsdefaults=hard,必须显式指定soft