【AI运维】服务器与虚拟化基础【20260622003篇】

【AI运维】服务器与虚拟化基础【20260622003篇】

文章目录

  • 模块二:Kubernetes 与云原生 AI 平台
      • 📚 模块导论:为什么 Kubernetes 是 AI 的“操作系统”?
      • 第一部分:K8s 核心基础篇(云原生入场券)
      • 第二部分:GPU 调度与设备管理篇(核心技能)
      • 第三部分:AI 工作流平台篇(企业级实战)
      • 第四部分:监控、日志与故障排查篇(稳定性保障)
      • 第五部分:综合项目篇(简历亮点)
      • 🎓 模块结业标准
      • 🚀 下一步建议

模块二:Kubernetes 与云原生 AI 平台

课程总时长预估:50-60 学时(含实验)
前置依赖:已完成《模块一:AI 基础设施与虚拟化底座》
教学目标:让学员掌握在 Kubernetes 集群中调度和管理 GPU/NPU 资源的能力,熟练部署和维护企业级 AI 训练与推理平台(如 Kubeflow),达到中级 AI 基础设施工程师(AI Infra Engineer)的任职要求。


📚 模块导论:为什么 Kubernetes 是 AI 的“操作系统”?

核心概念:

  • 从单机到集群:单台服务器无法训练千亿参数大模型,需要成百上千张卡协同工作。K8s 是管理这些资源的“军团指挥官”。
  • 从手工到自动化:手工启动 Docker 容器无法满足多租户、队列优先级、弹性伸缩的需求。
  • 云原生 AI:将 AI 工作负载(Training/Inference)像 Web 服务一样进行声明式管理、调度和监控。

第一部分:K8s 核心基础篇(云原生入场券)

教学重点:摒弃冗杂的