当前位置：首页 > news >正文

轻量级模型服务化实战：Nginx+Gunicorn+Flask部署PyTorch模型

news 2026/6/15 6:21:16

1. 这不是又一篇“概念科普”，而是一份能直接抄作业的ML-Ops落地手记

“Deployment ML-OPS Guide Series – 2”这个标题，乍看像某本技术文档的第二章编号，但如果你正卡在模型上线前的最后一公里——模型跑通了，本地预测准得离谱，一上生产环境就延迟飙升、内存爆表、API偶发503、日志里全是CUDA out of memory或Connection reset by peer——那你点进来就对了。这不是讲CI/CD流水线图怎么画，也不是复述MLOps的定义（“机器学习生命周期管理”这种话术我连自己都骗不了），而是我过去18个月在三家不同规模公司（从20人AI初创到500人金融科技中台）亲手部署过47个模型服务后，把血泪经验拧干水分、剔除PPT话术、只留下能立刻执行的判断逻辑和配置参数的真实记录。核心关键词就三个：模型服务化（Model Serving）、流量治理（Traffic Orchestration）、可观测性基线（Observability Baseline）。它适合两类人：一类是刚把PyTorch模型转成ONNX、正对着torchserve文档发愁的算法工程师；另一类是运维同事，被业务方一句“模型接口慢”半夜叫醒，却连该查GPU显存还是查Nginx upstream timeout都拿不准。本文不谈Kubeflow或Seldon这些重型框架——它们像航空母舰，而你手头可能只有条渔船。我们要解决的是：如何用最轻量、最可控、最易调试的方式，让模型真正稳稳当当地“呼吸”在生产环境里。所有方案均基于真实压测数据，参数值精确到小数点后一位，错误日志截图已脱敏存档，你可以今天下午就打开终端照着敲。

2. 整体设计思路：为什么放弃“全自动流水线”，选择“三段式手工编排”

2.1 核心矛盾：模型迭代快 vs. 基础设施变更慢

很多团队一上来就堆Kubeflow Pipelines + Argo Workflows，结果三个月后发现：Pipeline YAML改一次要测试两小时，模型版本升级触发整个流水线重跑，而实际需求只是把ResNet50换成EfficientNet-B3——仅需替换一个.pt文件和修改两行预处理代码。我们测算过：在中小团队（<50人研发），全自动流水线带来的“流程规范性”收益，远低于其造成的“响应延迟成本”。举个具体例子：某风控模型需紧急修复一个特征泄露bug，业务要求4小时内上线。走Kubeflow流水线：修改代码→提交PR→触发CI（12min）→构建镜像（8min）→部署测试环境（5min）→人工验证（15min）→审批合并（平均等待23min）→生产部署（6min）→灰度观察（30min）。总耗时近90分钟。而我们采用的“三段式手工编排”：SSH登录跳板机→拉取最新模型权重（rsync -avz model_v2.3.pt user@prod-server:/opt/models/credit/）→执行热重载脚本（python reload_model.py --model-path /opt/models/credit/model_v2.3.pt）→验证接口（curl -s http://localhost:8080/health | jq .status）→全量切流（echo "upstream credit { server 10.0.1.5:8080; }" > /etc/nginx/conf.d/credit.conf && nginx -s reload）。全程11分钟，且每一步均可逆。这不是倒退，而是把“自动化”的重心从“流程驱动”转向“意图驱动”——系统不替你做决定，但确保你做的每个决定都能被精准、快速、可追溯地执行。

2.2 架构选型：为什么用Nginx+Gunicorn+Flask，而不是Triton或TorchServe

市面上主流方案有三类：

专用推理服务器（Triton, TorchServe）：优势是GPU利用率高、支持动态批处理，但代价是学习成本陡峭、调试黑盒化。我们曾用Triton部署一个OCR模型，当遇到TRITONSERVER_ERROR_INTERNAL: failed to allocate GPU memory时，排查路径是：查Triton日志→翻NVIDIA驱动文档→核对CUDA版本兼容矩阵→最终发现是Triton 22.12与CUDA 11.8.0的隐式内存对齐bug。耗时17小时。
通用Web框架（Flask/FastAPI + Gunicorn/Uvicorn）：看似“原始”，实则掌控力最强。所有中间件、超时、重试、熔断逻辑均可自定义。比如我们给FastAPI加了一层RateLimiter中间件，用Redis计数器实现“单IP每分钟最多50次请求”，代码仅23行，而Triton需额外搭一套Ratelimiting Gateway。
Serverless方案（AWS Lambda, Azure Functions）：冷启动延迟致命。实测Lambda加载一个500MB的PyTorch模型，首次请求平均延迟2.8秒，而业务SLA要求P95<200ms。

最终选定Nginx（反向代理+负载均衡） → Gunicorn（WSGI容器，管理Flask进程） → Flask（业务逻辑层）的三层结构，原因很务实：

故障隔离明确：Nginx挂了不影响模型进程，Gunicorn崩了Nginx可返回502，Flask异常Nginx自动摘除节点；
监控粒度细：Nginx日志可统计HTTP状态码分布，Gunicorn日志记录worker启停，Flask日志输出模型推理耗时；
扩容成本低：水平扩展只需增加服务器并更新Nginxupstream配置，无需重建镜像或修改K8s Deployment。

提示：不要迷信“云原生”标签。我们有个客户坚持用EKS部署所有模型，结果因K8s节点NotReady导致模型服务中断，而运维团队花4小时才定位到是节点磁盘inode耗尽——这问题在裸机上df -i一眼就能看到。

2.3 安全边界设计：为什么模型服务必须与业务系统物理隔离

这是血换来的教训。去年某电商推荐系统，为图方便将模型API与用户中心API部署在同一台服务器、同一Nginx实例下。某次大促期间，用户中心因SQL注入攻击被拖垮，CPU打满100%，连带模型服务完全不可用——尽管模型代码本身毫无问题。此后我们强制推行“三隔离”原则：

网络隔离：模型服务部署在独立VPC子网，仅开放8080端口给API网关，禁止任何其他入向连接；
进程隔离：Gunicorn worker数严格限制（--workers 2 --worker-class sync --timeout 30），避免单个慢请求阻塞全部worker；
资源隔离：通过cgroups限制模型进程内存上限（memory.max = 4G），防止OOM Killer误杀关键进程。

这套隔离策略让我们在后续两次基础设施故障中，模型服务保持99.99%可用性，而业务系统平均宕机12分钟。

3. 核心细节解析：从模型加载到请求处理的12个生死关卡

3.1 模型加载阶段：为什么`torch.load()`必须加`map_location='cpu'`

这是新手最容易踩的坑。很多人写：

model = torch.load('model.pt', map_location='cuda:0') # 错！

问题在于：Gunicorn默认使用sync工作模式，每个worker进程是独立的Python解释器。若你在主进程加载模型到GPU，worker进程fork后会继承GPU上下文，但CUDA上下文在fork后是无效的，导致RuntimeError: CUDA error: initialization error。正确做法分三步：

主进程加载到CPU：model = torch.load('model.pt', map_location='cpu')；
worker进程内按需移入GPU：在Flask路由函数中，model.to('cuda:0').eval()；
显式禁用CUDA缓存：在Gunicorn配置中添加preload=True，并在gunicorn.conf.py中设置import os; os.environ['CUDA_VISIBLE_DEVICES'] = '0'。

实测对比：未加map_location='cpu'时，Gunicorn启动失败率100%；加上后，启动成功率100%，且首请求延迟降低47%（因避免了fork后CUDA重初始化）。

3.2 预处理流水线：为什么不用PIL.Image.open()处理线上图片

线上图片来源复杂：微信上传可能带EXIF Orientation信息，iOS拍照默认旋转90度，某些安卓相机生成的JPEG无完整Header。若直接PIL.Image.open()，模型输入图像方向错误，准确率断崖下跌。我们强制统一预处理：

from PIL import Image, ExifTags def load_and_fix_orientation(image_path): img = Image.open(image_path) # 读取EXIF方向信息并校正 for orientation in ExifTags.TAGS.keys(): if ExifTags.TAGS[orientation] == 'Orientation': break exif = dict(img._getexif().items()) if img._getexif() else {} if exif.get(orientation, 1) == 3: img = img.rotate(180, expand=True) elif exif.get(orientation, 1) == 6: img = img.rotate(270, expand=True) elif exif.get(orientation, 1) == 8: img = img.rotate(90, expand=True) return img.convert('RGB') # 强制转RGB，避免RGBA透明通道干扰

这段代码使线上图片识别准确率从82.3%提升至99.1%（测试集含5000张多源图片）。注意：此操作必须在模型加载前完成，否则每次请求都解码JPEG，CPU占用飙升。

3.3 批处理（Batching）策略：如何平衡吞吐量与延迟

模型是否开启批处理，取决于业务场景。我们总结出决策树：

实时性优先（如风控决策、聊天机器人）：禁用批处理，batch_size=1，用--timeout 30保证单请求30秒内必返回；
吞吐量优先（如离线报告生成）：启用动态批处理，但必须设硬上限。例如用torch.jit.script编译模型后，model(torch.randn(32, 3, 224, 224))比32次单图推理快4.2倍，但若允许无限堆积请求，P99延迟会从200ms暴涨至2.3秒。

我们的折中方案：在Flask中实现简易批处理器

from collections import deque import threading import time class BatchProcessor: def __init__(self, max_batch_size=8, timeout_ms=100): self.queue = deque() self.lock = threading.Lock() self.batch_size = max_batch_size self.timeout = timeout_ms / 1000.0 def add_request(self, data): with self.lock: self.queue.append(data) if len(self.queue) >= self.batch_size: return self._process_batch() # 启动超时检查线程（仅当队列非空） if len(self.queue) == 1: threading.Thread(target=self._check_timeout, daemon=True).start() return None def _check_timeout(self): time.sleep(self.timeout) with self.lock: if self.queue: return self._process_batch() def _process_batch(self): batch = [self.queue.popleft() for _ in range(min(len(self.queue), self.batch_size))] # 调用模型推理 return model_inference(batch)

实测：在QPS 120的风控场景下，P95延迟稳定在180±15ms，吞吐量达115 req/s，完美匹配业务SLA。

3.4 内存泄漏防护：为什么`gc.collect()`必须放在每次推理后

PyTorch模型推理会产生大量临时Tensor，尤其在使用torch.no_grad()时，这些Tensor不会被自动释放。我们曾监控到某模型服务内存每小时增长1.2GB，12小时后OOM。根因是：

model(input)返回的outputTensor若未显式del output，其引用计数不归零；
Python垃圾回收器（GC）默认不主动回收循环引用，而PyTorch的Tensor常构成循环引用。

解决方案：

@app.route('/predict', methods=['POST']) def predict(): try: input_data = preprocess(request.files['image']) with torch.no_grad(): output = model(input_data) result = postprocess(output) del output, input_data # 显式删除 gc.collect() # 强制触发GC return jsonify(result) except Exception as e: logger.error(f"Prediction error: {e}") gc.collect() # 异常路径同样清理 raise

加入gc.collect()后，内存增长曲线变为平稳直线（<5MB/小时），服务可连续运行30天无重启。

3.5 日志与追踪：为什么不用`print()`而用结构化日志

print("Model loaded")这类日志在生产环境毫无价值。我们采用structlog库生成JSON日志：

import structlog logger = structlog.get_logger() @app.before_first_request def load_model(): logger.info("model_loading_start", model_name="fraud_v3", version="2.1.4") global model model = torch.load("/opt/models/fraud_v3.pt", map_location="cpu") logger.info("model_loading_complete", model_name="fraud_v3", version="2.1.4", load_time_ms=round(time.time()*1000))

日志输出为：

{"event": "model_loading_complete", "model_name": "fraud_v3", "version": "2.1.4", "load_time_ms": 1245, "timestamp": "2023-10-05T08:22:15.342Z"}

好处是：可直接用ELK或Loki做聚合分析。例如查“所有加载时间>1000ms的模型”，或“按model_name统计P95延迟”。而print日志只能grep，无法做多维分析。

3.6 健康检查（Health Check）：为什么`/health`必须包含模型状态

标准健康检查只返回{"status": "ok"}，但这无法反映模型真实状态。我们要求/health端点必须：

检查模型文件是否存在且可读；
加载一个极简样本（如torch.zeros(1,3,224,224)）做前向传播，验证GPU可用性；
返回模型版本、最后加载时间、当前GPU显存占用。

示例响应：

{ "status": "healthy", "model": { "name": "credit_scoring", "version": "4.2.1", "last_loaded": "2023-10-05T08:22:15Z", "gpu_memory_used_mb": 2145 }, "checks": { "file_access": "ok", "inference_test": "ok", "gpu_available": true } }

Nginx配置健康检查：

upstream credit { server 10.0.1.5:8080 max_fails=3 fail_timeout=30s; keepalive 32; } # Nginx主动健康检查（需nginx-plus或openresty） health_check interval=5 fails=3 passes=2 uri=/health;

这样Nginx能在模型崩溃后30秒内自动摘除节点，而非等客户端请求失败才感知。

3.7 错误处理：为什么所有异常必须转换为标准HTTP状态码

算法同学常写：

if not image.mode == 'RGB': raise ValueError("Image must be RGB")

这会导致Flask返回500 Internal Server Error，但业务方无法区分是代码bug还是数据问题。我们强制转换：

from werkzeug.exceptions import BadRequest, InternalServerError @app.errorhandler(ValueError) def handle_value_error(e): logger.warning("ValueError in prediction", error=str(e)) return BadRequest(description=f"Invalid input: {str(e)}") @app.errorhandler(Exception) def handle_unexpected_error(e): logger.error("Unexpected error", error=str(e), exc_info=True) return InternalServerError(description="Service unavailable")

同时，在Nginx层配置错误页面：

error_page 400 /400.html; error_page 500 /500.html; location /400.html { internal; root /usr/share/nginx/html; }

让业务方看到清晰的错误提示，而非裸露的Python traceback。

3.8 版本灰度：为什么不用K8s的RollingUpdate而用Nginx流量染色

K8s滚动更新本质是“先删旧Pod再启新Pod”，存在短暂服务中断。我们采用Nginx的split_clients模块实现无损灰度：

split_clients "${remote_addr}AAA" $version { 10% "v4.1"; 90% "v4.2"; } upstream credit_v41 { server 10.0.1.5:8080; } upstream credit_v42 { server 10.0.1.6:8080; } server { location /predict { proxy_pass http://credit_$version; proxy_set_header Host $host; } }

$remote_addr哈希确保同一IP始终路由到同一版本，10%流量先切v4.1，观察指标（错误率、延迟）达标后再调至100%。整个过程零中断，且可随时回滚（改Nginx配置proxy_pass指向旧upstream即可）。

3.9 GPU资源管控：为什么`nvidia-smi -l 1`不能替代cgroups

nvidia-smi只能看显存占用，但无法限制。我们曾遇案例：某模型因bug持续申请显存，nvidia-smi显示显存100%，但free -h显示系统内存充足——此时CUDA OOM Killer会随机杀死进程。正确做法是：

创建cgroup：

sudo mkdir -p /sys/fs/cgroup/devices/nvidia-models echo 'c 195:* rwm' | sudo tee /sys/fs/cgroup/devices/nvidia-models/devices.allow echo $$ | sudo tee /sys/fs/cgroup/devices/nvidia-models/cgroup.procs

在Gunicorn启动脚本中指定：

#!/bin/bash echo "Setting GPU memory limit to 3GB" echo "3145728000" | sudo tee /sys/fs/cgroup/memory/nvidia-models/memory.limit_in_bytes exec gunicorn --config gunicorn.conf.py app:app

验证：cat /sys/fs/cgroup/memory/nvidia-models/memory.usage_in_bytes。
此方案使GPU OOM发生率降为0，且资源限制对模型性能无影响（实测v100上3GB限制下，吞吐量仅下降1.2%）。

3.10 模型热重载：为什么不用`importlib.reload()`而用进程级重启

importlib.reload()在多进程环境下极不稳定。Gunicorn的worker进程是fork出来的，reload模块可能导致worker间状态不一致。我们采用“优雅进程重启”：

import signal import os def graceful_reload(): """发送USR2信号给主Gunicorn进程，触发平滑重启""" pid = get_gunicorn_master_pid() # 从pid文件读取 os.kill(pid, signal.SIGUSR2) @app.route('/reload', methods=['POST']) def trigger_reload(): if request.headers.get('X-API-Key') != 'SECRET_KEY': # 简单鉴权 return "Forbidden", 403 graceful_reload() return "Reload triggered", 200

Gunicorn收到SIGUSR2后，会启动新worker，待新worker就绪后，再优雅关闭旧worker，全程服务不中断。实测切换时间<200ms。

3.11 流量限速：为什么`nginx limit_req`比应用层限速更可靠

应用层限速（如用Redis计数器）依赖网络IO，当Redis抖动时，限速失效。Nginx的limit_req基于共享内存，毫秒级生效：

limit_req_zone $binary_remote_addr zone=api:10m rate=100r/s; server { location /predict { limit_req zone=api burst=200 nodelay; proxy_pass http://credit; } }

burst=200允许突发200请求，nodelay表示不延迟，超限请求直接返回503。我们在压测中验证：当QPS突增至150时，503返回率严格控制在(150-100)/150=33.3%，与理论值一致。

3.12 可观测性基线：必须监控的5个黄金指标

没有监控的模型服务等于盲开飞机。我们定义最小可行监控集（MVM）：

指标名	计算方式	告警阈值	采集方式
请求成功率	`2xx + 3xx`/`total`	<99.5%	Nginx`$status`
P95延迟	请求耗时95分位数	>500ms	Nginx`$request_time`
GPU显存使用率	`used / total`	>90%	`nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader,nounits`
模型加载次数	`/health`调用中`model_loading_complete`事件数	>5次/小时	结构化日志
错误日志率	`ERROR`日志行数 / 总日志行数	>0.1%	Filebeat采集

所有指标通过Prometheus+Grafana可视化，告警直接发企业微信。曾靠“模型加载次数突增”指标，在凌晨2点发现某定时任务误触发模型重载，避免了服务雪崩。

4. 实操全流程：从零部署一个图像分类模型的完整步骤

4.1 环境准备：三台服务器的精准配置

我们以部署ResNet50图像分类模型为例，环境如下：

跳板机（1台）：Ubuntu 22.04，4核8G，安装rsync、sshpass、jq；
模型服务器（2台）：Ubuntu 22.04，8核32G+V100 GPU，安装nvidia-driver-525、cuda-toolkit-11-8、python3.10；
监控服务器（1台）：Ubuntu 22.04，4核16G，安装prometheus、grafana、node_exporter。

关键配置命令（逐行执行，勿复制粘贴）：

# 在模型服务器上禁用NVIDIA持久化模式（避免GPU显存锁定） sudo nvidia-persistenced --stop sudo systemctl disable nvidia-persistenced # 设置GPU显存分配策略（避免OOM） echo 'options nvidia NVreg_InitializeSystemMemoryAllocations=0' | sudo tee /etc/modprobe.d/nvidia.conf sudo update-initramfs -u # 创建模型运行用户（禁止root运行） sudo useradd -m -s /bin/bash mluser sudo usermod -aG docker mluser sudo chsh -s /bin/bash mluser # 设置cgroups v2（Ubuntu 22.04默认启用） echo 'GRUB_CMDLINE_LINUX_DEFAULT="systemd.unified_cgroup_hierarchy=1"' | sudo tee -a /etc/default/grub sudo update-grub && sudo reboot

注意：NVreg_InitializeSystemMemoryAllocations=0参数至关重要。它禁用NVIDIA驱动的系统内存预分配，使GPU显存可被cgroups精确限制。未加此参数时，cgroups内存限制对GPU无效。

4.2 模型打包：制作可复现的Docker镜像

不推荐直接pip install，必须锁定所有依赖。requirements.txt内容：

torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 torchvision==0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 numpy==1.23.5 Pillow==9.4.0 Flask==2.2.3 gunicorn==21.2.0 structlog==23.1.0 redis==4.5.4

Dockerfile：

FROM nvidia/cuda:11.7.1-runtime-ubuntu22.04 # 安装系统依赖 RUN apt-get update && apt-get install -y \ python3.10 \ python3.10-venv \ python3.10-dev \ && rm -rf /var/lib/apt/lists/* # 创建非root用户 RUN useradd -m -u 1001 -s /bin/bash mluser USER mluser WORKDIR /home/mluser # 复制依赖并安装 COPY --chown=mluser:mluser requirements.txt . RUN python3.10 -m venv venv && \ source venv/bin/activate && \ pip install --no-cache-dir -r requirements.txt # 复制应用代码 COPY --chown=mluser:mluser app.py gunicorn.conf.py /home/mluser/ COPY --chown=mluser:mluser models/ /home/mluser/models/ # 暴露端口 EXPOSE 8080 # 启动命令 CMD ["sh", "-c", "source venv/bin/activate && exec gunicorn --config gunicorn.conf.py app:app"]

构建命令：

docker build -t ml-model:resnet50-v4.2.1 . docker save ml-model:resnet50-v4.2.1 | gzip > ml-model-resnet50-v4.2.1.tar.gz

镜像大小控制在1.2GB以内（实测1.18GB），确保docker load在1分钟内完成。

4.3 配置Gunicorn：12个参数的取舍逻辑

gunicorn.conf.py是性能关键，参数必须根据硬件精准调整：

import multiprocessing # 基础配置 bind = "0.0.0.0:8080" bind_address = "0.0.0.0:8080" workers = 2 # 公式：min(2*CPU_CORES, 4) = min(16,4)=4? 错！GPU模型受显存限制，worker数=GPU数=1，但为防止单点故障，设2个worker互为备份 worker_class = "sync" # 不用gevent：PyTorch CUDA操作不兼容协程 timeout = 30 # 必须≤Nginx proxy_read_timeout keepalive = 5 # 进程管理 max_requests = 1000 # 每处理1000请求重启worker，防内存泄漏 max_requests_jitter = 100 # 避免所有worker同时重启 preload = True # 预加载模型，避免worker fork后重复加载 # 资源限制 worker_tmp_dir = "/dev/shm" # 使用内存文件系统加速临时文件 limit_request_line = 0 # 不限制URL长度（模型API常带base64图片） limit_request_fields = 100 # 限制Header字段数，防DoS # 日志 accesslog = "/var/log/gunicorn/access.log" errorlog = "/var/log/gunicorn/error.log" loglevel = "info" capture_output = True

为什么workers=2？

V100显存24GB，单模型加载后占1.8GB，2个worker共占3.6GB，剩余20GB供推理缓冲；
若设workers=4，显存占用7.2GB，但GPU计算单元未饱和，反而因进程切换增加延迟；
实测workers=2时，QPS 120下P95延迟180ms；workers=4时P95升至210ms，无收益。

4.4 Nginx反向代理：生产级配置详解

/etc/nginx/conf.d/ml-model.conf：

upstream resnet50 { # 两台服务器负载均衡 server 10.0.1.5:8080 max_fails=3 fail_timeout=30s; server 10.0.1.6:8080 max_fails=3 fail_timeout=30s; keepalive 32; # 长连接池，减少TCP握手 } # 健康检查（需nginx-plus） # health_check interval=5 fails=3 passes=2 uri=/health; server { listen 80; server_name ml-api.example.com; # 安全头 add_header X-Frame-Options "DENY" always; add_header X-XSS-Protection "1; mode=block" always; add_header X-Content-Type-Options "nosniff" always; add_header Referrer-Policy "no-referrer-when-downgrade" always; add_header Content-Security-Policy "default-src 'self'" always; # 请求体大小（支持base64图片） client_max_body_size 10M; # 超时设置（必须≥Gunicorn timeout） proxy_connect_timeout 60s; proxy_send_timeout 60s; proxy_read_timeout 60s; # 关键！必须≥Gunicorn timeout（30s） # 缓存控制 location ~ ^/(health|metrics) { proxy_pass http://resnet50; proxy_cache off; proxy_buffering off; } location /predict { # 限速 limit_req zone=api burst=200 nodelay; # 透传真实IP proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header Host $host; # 代理到上游 proxy_pass http://resnet50; proxy_redirect off; } # 静态文件（模型文档） location /docs { alias /var/www/ml-docs/; autoindex on; } }

关键点：proxy_read_timeout 60s必须大于Gunicorn的timeout 30s，否则Nginx会在Gunicorn处理完前主动断连，返回504 Gateway Timeout。

4.5 部署与验证：5分钟完成上线

步骤1：推送镜像到服务器

# 在跳板机执行 scp ml-model-resnet50-v4.2.1.tar.gz user@10.0.1.5:/tmp/ ssh user@10.0.1.5 "sudo docker load < /tmp/ml-model-resnet50-v4.2.1.tar.gz"

步骤2：启动容器

# 在模型服务器执行 sudo docker run -d \ --name resnet50-v4.2.1 \ --gpus '"device=0"' \ # 指定GPU设备 --memory=4g \ # cgroups内存限制 --cpus=2 \ # CPU配额 --network=host \ # 主机网络，避免NAT延迟 -v /home/mluser/models:/home/mluser/models:ro \ # 模型目录只读挂载 -v /var/log/gunicorn:/var/log/gunicorn \ # 日志挂载 ml-model:resnet50-v4.2.1

步骤3：验证服务

# 检查容器状态 curl -s http://10.0.1.5:8080/health | jq . # 检查Nginx代理 curl -s -H "Host: ml-api.example.com" http://10.0.1.5/predict \ -F "image=@test.jpg" | jq . # 检查错误率（应为0） grep '"status":"500"' /var/log/nginx/access.log | wc -l

步骤4：接入监控
在Prometheusprometheus.yml中添加：

- job_name: 'ml-model' static_configs: - targets: ['10.0.1.5:9100', '10.0.1.6:9100'] # node_exporter - targets: ['10.0.1.5:8080', '10.0.1.6:8080'] # 应用指标（需在Flask中暴露/metrics）

Grafana导入ID12345（自定义仪表盘），查看5个黄金指标。