推理篇第17节:实战——Llama 3部署:使用TensorRT-LLM搭建推理服务
从模型到服务——Llama 3在TensorRT-LLM上的部署,是LLM推理工程师的"毕业设计"
前言
前面四篇文章覆盖了TRT-LLM的各个子系统:KV Cache管理、In-flight Batching、量化。现在是时候把它们串成一条完整的链路了。
本节以Meta的Llama 3 8B和Llama 3 70B为例,完成从HuggingFace模型到生产级推理服务的完整部署。你会看到:模型下载与转换、TRT引擎构建与调优、Python服务API、以及生产级的流式输出(streaming)实现。
一、Llama 3 模型准备与转换
1.1 获取模型
# 从HuggingFace下载(需要申请访问权限)huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct\--local-dir ./models/Llama-3-8B-Instruct# 或使用ModelScope(国内更快)pip