当前位置：首页 > news >正文

Ollama和vLLM大模型推理性能对比实测

news 2026/6/11 20:55:20

在部署大模型推理服务的时候，选择合适的部署工具可以让我们事半功倍，怎么在对应的场景下选择合适的部署工具，用于平衡部署的成本和推理的性能？

Ollama和vLLM是目前最常见的两个大模型部署工具，我们先问问DeepSeek看看这两个部署工具的功能特性，分别适用于什么场景？

Ollama和vLLM特性比较

特性维度	Ollama	vLLM
设计定位	开发者友好的本地体验工具	生产级的高性能推理引擎
架构特点	单体应用，内置模型管理	专注推理后端，需要API封装
核心技术	基于GGML/GGUF优化，CPU+GPU混合	PagedAttention，连续批处理
易用性	⭐⭐⭐⭐⭐（极简）	⭐⭐⭐（需要集成）
性能	⭐⭐⭐（良好）	⭐⭐⭐⭐⭐（卓越）
生态系统	⭐⭐⭐⭐（丰富模型库）	⭐⭐⭐⭐（工业标准）
资源需求	相对较低	相对较高
适用场景	1. 个人开发与实验 2. 资源受限环境 3. 多模型管理需求	1. 高并发生产环境 2. 对吞吐量要求极高的场景 3. 企业级部署

这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现，控制同样的模型、同样的API推理参数，并测试并发调用下的性能表现。

在GPU算力租用平台晨涧云分别租用3090显卡资源的Ollama和vLLM的云容器进行测试。

模型选择与参数控制

这里选择 Qwen3的模型进行测试，考虑到3090的显存是24GB，选择一个FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本，调整脚本控制变量：

使用复杂度近似的N个prompts；
MAX_TOKENS配置256，让每次请求需要一定的生成时长便于采样显卡的使用指标，减少波动；
选择[1, 4, 8, 16] 4种BATCH_SIZES测试不同并发度下的性能表现；
每轮测试执行3次推理，指标取平均；
同时需要模型预热，消除第一次推理响应延时过大的问题。

然后就可以执行推理性能测试脚本，查看输出结果。

Ollama推理性能

vLLM推理性能

测试结果解释

Batch Size：一次推理调用的并发prompt数量
平均耗时 (s)：多次推理平均响应时长
平均吞吐量 (tokens/s)：多次推理平均Token生成速度
平均显存 (MB)：多次推理平均显存使用量
平均GPU使用率(%)：多次推理平均GPU使用率

vLLM的显存占用比Ollama略高，GPU使用率比较接近，主要比较平均响应时长及平均Token生成速度两个指标：

	Batch Size	1	8	16
响应时长(s)	Ollama	5.68	7.64	15.6
响应时长(s)	vLLM	5.44	5.82	6.42
响应时长(s)	差异	104.4%	131.3%	243.0%
Token生成速度(tokens/s)	Ollama	45.1	268.0	262.9
Token生成速度(tokens/s)	vLLM	47.1	351.9	638.4
Token生成速度(tokens/s)	差异	95.6%	76.2%	41.2%

——Ollama的并发数量超过8之后有明显的性能瓶颈，调整 OLLAMA_NUM_PARALLEL 参数还是上不去，不知道是不是需要调整其他参数。

总体来说，顺序调用场景（Batch Size=1）Ollama和vLLM性能接近；并发调用场景vLLM的性能完胜，而且并发度越高的场景下vLLM的性能优势越明显。

这个测试基于单卡的推理场景，多卡下面并发调用的性能表现可能又会有差异。

http://www.zskr.cn/news/40724.html

相关文章：

误解对象的“引用名”跟对象的“名称属性”（`__name__`）引发的一则错误

React系列教程：8. 传递函数

杂题选记（10.26 - 11.1）

2025 年最新推荐开沟机供应厂家榜单：覆盖多机型实力厂商口碑推荐及选购指南梯形槽 / 自走式手扶 / 轮式 / 农用开沟机公司推荐

基于MATLAB的FY-3B MWRI数据处理

2025年11月大容量行李箱品牌十大口碑榜：排行榜与选择方案

2025年11月闸阀厂家排名：十强资质对比与项目适配评价

Java学习之 stream 常用方法

2025年11月闸阀厂家推荐榜：十强对比评测与选购全解析

2025 年最新推荐泳池设备源头厂家排行榜：含温泉酒店别墅等各类泳池设备优质品牌精选

2025年11月领先品牌认证机构评测榜：尚普咨询华信人数据对比

2025年包装设计品牌企业新推荐排行榜，食品包装设计服务商指南

2025年11月领先品牌认证机构服务榜：双雄对比与口碑排名解析

2025年11月法兰闸阀厂家评测榜：资质性能双维度对比

React系列教程：6. 子组件

详细介绍：元宇宙的医疗健康应用：重构诊疗、康复与研究

IEEE Transactions 风格补充材料（Word）快捷排版教程

2025年11月北京继承律师评测榜：继承纠纷律师团队权威榜单发布

VS code中编写和运行C语言

2025年11月消防阀门厂家排名榜：国际认证与绿色制造指标评价

2025年11月解酒护肝产品权威榜：蓝帽子认证与成分纯度全对比

2025年6月ai搜索排名优化推荐榜：五强对比评测与选型指南

2025年6月豆包搜索排名优化服务商榜：五强对比与实测排行

2025年6月ai排名优化推荐排名榜：权威数据锁定五家优选

2025年6月ai搜索排名优化推荐：五强榜单横评与选型攻略

2025年6月GEO公司推荐榜：全维度对比评测一目了然

液压位置控制源代码实现与解析（C语言+MATLAB联合方案）

2025年6月deepseek关键词排名优化权威榜：五家服务商综合评测对比

2025年6月GEO优化公司权威榜：五强对比评测与选择指南

2025年11月中国枸杞厂商口碑排行榜单深度解析