⑨番外篇II,FastLLM——老卡也能跑满血DeepSeek

⑨番外篇II,FastLLM——老卡也能跑满血DeepSeek

本篇目标:了解 FastLLM 的定位、核心能力,以及它和 vLLM / Ollama 怎么选


前言:为什么写这篇番外?

我经常想:

“我的显卡只有 RTX 4060 8G,能跑 DeepSeek 吗?”
“服务器上还有张 5090 24G,高不成低不就,只能吃灰吗?”
“vLLM 装不上,CUDA 版本太低了怎么办?”

这些问题,vLLM 回答不了——vLLM 不是为这些场景设计的。

但 FastLLM 可以。

经粉丝晓东同志提醒,我花了一下午时间调研了 FastLLM 的文档、GitHub 仓库和社区实测文章,发现这个工具解决了一个很具体的问题:让那些"不够格"的硬件,也能跑大模型。

这篇文章是我的调研笔记,也是一份选型参考。声明:本文未做实测,所有性能数据来自官方文档和社区报告。


一、FastLLM 是什么?

一句话:纯 C++ 实现的高性能大模型推理库,不依赖 PyTorch,专门为"非理想硬件"优化。

作者 ztxz16(国内开发者),GitHub 星标活跃。核心卖点就一个:任意 10GB 以上显存的显卡,就能单卡推理满血 DeepSeek R1 671B。

怎么做到的?三个关键技术:

1. CPU + GPU 混合推理(杀手锏)

这是 FastLLM 最核心的能力。

大模型(尤其是 MoE 模型如 DeepSeek)的结构是:稠密层 + MoE 专家层。MoE 层参数量巨大但每次只激活一小部分专家。

FastLLM 的思路很简单:

  • 稠密层 → GPU 跑(计算密集,GPU 擅长)
  • MoE 专家层 → CPU 跑(参数量大但激活少,CPU 内存大)

结果就是:一张 RTX 4060 8G 显卡 + 32G 内存,就能跑 DeepSeek V3 这种级别的模型。

官方数据:双路 EPYC 9004/9005 服务器 + 单张显卡,部署 DeepSeek R1 671B FP8 原版模型,单并发 20 tokens/s;INT4 量化版30 tokens/s,多并发可达60+ tokens/s

2. 不依赖 PyTorch

vLLM 底层依赖 PyTorch + CUDA,这意味着你需要匹配的 CUDA 版本、驱动版本、PyTorch 版本……任何一环不对就装不上。

FastLLM 用 C++ 自研算子,直接调 CUDA / ROCm / OpenCL,一条 pip install 就能跑(NVIDIA 卡),甚至 P100、K80 这种古董卡都支持。

3. 极宽的硬件兼容性

硬件类型支持情况
NVIDIAM40、K80 到 RTX 5090 全系列
AMDMI50、7900 等(ROCm)
国产卡天数、沐曦、燧原、华为昇腾
移动端安卓可直接编译

二、FastLLM vs vLLM vs Ollama:怎么选?

这是最关键的问题。三者定位完全不同:

维度OllamavLLMFastLLM
目标用户个人玩票生产服务硬件受限的生产/个人
核心优势极简上手高吞吐并发兼容性广、混合推理
显存需求能装下就能跑建议 16G+10G 就能起步
老卡支持一般差(需新 CUDA)极好
MoE 模型支持支持混合推理(独门)
安装难度一颗星三颗星两颗星
API 服务有(OpenAI 兼容)有(OpenAI 兼容)
适合场景本地偶尔用对外提供 API老卡/国产卡/MoE 大模型

选型决策树

你有什么卡? ├── RTX 3090/4090/5090,显存 24G+ │ ├── 只是自己用 → Ollama │ └── 要对外提供服务 → vLLM │ ├── RTX 3060/4060,显存 8-12G │ ├── 只跑 7B-14B 小模型 → Ollama 够了 │ └── 想跑 DeepSeek V3/R1 这种大 MoE → FastLLM │ ├── 老卡(P100/K80/2080Ti)/ 国产卡 │ └── FastLLM(几乎唯一选择) │ ├── 多卡服务器 │ ├── 追求极致吞吐 → vLLM │ └── 卡不多但想跑大模型 → FastLLM(支持奇数张卡) │ └── 只要能装上就行 └── Ollama(最省心)

三、FastLLM 的亮点功能

3.1 安装确实简单

# NVIDIA GPU(Linux)pipinstallftllm-U# AMD GPU(Linux)# 先安装ROCM 6.3.3wgetwgethttps://repo.radeon.com/amdgpu-install/6.3.3/ubuntu/jammy/amdgpu-install_6.3.60303-1_all.debaptinstall./amdgpu-install_6.3.60303-1_all.deb-yamdgpu-install--usecase=hiplibsdk,rocm,dkms-ypipinstallftllm-rocm-U# Windows(NVIDIA)pipinstallhttps://www.modelscope.cn/models/huangyuyang/fastllmdepend-windows/resolve/master/ftllmdepend-0.0.0.2-py3-none-win_amd64.whl pipinstallftllm-U

对比 vLLM 那套 CUDA 编译 + PyTorch 版本对齐的流程,FastLLM 确实友好很多。

以上,建议在python虚拟环境中执行。

3.2 三种使用模式

# 命令行聊天ftllm run Qwen/Qwen3-0.6B# WebUIftllm webui Qwen/Qwen3-0.6B# API Server(OpenAI 兼容)ftllm server Qwen/Qwen3-0.6B--port8080

API 完全兼容 OpenAI 格式,可以直接接入 One API、Dify、anything-llm 等中间层。

3.3 混合推理的实际用法

# GPU 跑稠密层,CPU 跑 MoE 层(经典配置)ftllm server deepseek-ai/DeepSeek-V3--devicecuda--moe_devicecpu# 多 NUMA 节点加速 CPU 部分exportFASTLLM_NUMA_THREADS=27ftllm server fastllm/DeepSeek-V3-INT4--devicecuda--moe_devicenuma-t1# 多卡 + CPU 按比例分配ftllm server model--devicemulticuda:0:4,1:5,cpu:1

最后一个命令的意思是:cuda:0 算 4/10,cuda:1 算 5/10,cpu 算 1/10。这种细粒度控制在其他框架里很难找到。

3.4 支持的模型

  • 稠密模型:Qwen 系列、Llama 系列、Phi 系列
  • MoE 模型:DeepSeek V3/R1、Qwen-MoE
  • 格式支持:FP16/BF16 原始模型、FP8、AWQ、INT4/INT8 量化、GGUF(部分)、FastLLM 自有格式
  • 最新支持:Qwen3-Next 混合推理、通用动态量化导出

四、FastLLM 的局限(公平地说)

不是万能药,这几个方面需要注意:

4.1 社区生态不如 vLLM

vLLM 背靠 UC Berkeley,有 LangChain/LlamaIndex 等主流框架原生集成。FastLLM 主要靠国内社区驱动,英文资料少,遇到问题主要靠 QQ 群(831641348)和微信群。

4.2 高端卡上不一定比 vLLM 快

FastLLM 的优势在"兼容性"和"混合推理",不是绝对速度。在 RTX 4090 / A100 这种高端卡上跑 7B-32B 稠密模型,vLLM 的 PagedAttention 优化可能更快。

4.3 文档质量参差

CSDN 和腾讯云有几篇不错的教程,但官方文档偏工程向,新手友好度不如 Ollama。

4.4 视觉/多模态模型支持

好消息:FastLLM已经支持多模态推理,从 V0.1.6.0 版本正式加入。

已明确支持的多模态模型:

模型支持情况
Qwen3.5(多模态版)Python 接口已支持
Gemma4初步支持
OpenAI 兼容 API 图片输入支持 http链接、base64(data url)、file url

补充说明:

  • Qwen-VL、LLaVA 等早期视觉模型在官方文档中未明确提及支持状态,建议以 GitHub 最新版 changelog 为准
  • 多模态推理对显存要求更高,老卡场景下请注意实测验证

⚠️ 本节信息基于 V0.1.6.0 changelog 整理,如有出入请以官方最新版本为准

4.5 未实测验证

再次强调:本文基于公开资料整理,我自己还在试用中,后续可能会发下体验记录。性能数据和体验描述来自官方 README 和社区文章,建议你在自己的环境里实测验证。


五、我的判断

FastLLM 解决了一个真实存在的痛点:不是每个人都有 RTX 4090,但很多人想跑大模型。

如果你的场景是:

  • 公司/实验室有闲置的老服务器和老显卡
  • 想低成本试水 DeepSeek R1 这种 MoE 大模型
  • 国产芯片环境(海光 DCU、昇腾等)

那 FastLLM 值得一试。它的 CPU+GPU 混合推理思路,在当前"算力焦虑"的大环境下,是一个很务实的解法。

如果你已经有 24G+ 的新卡,且追求生产级稳定性,vLLM 仍然是更稳妥的选择。

工具没有高下之分,只有适不适合。


延伸阅读

  • FastLLM GitHub — 官方仓库
  • CSDN:FastLLM + CPU+GPU 混合推理 — 详细使用指南
  • 腾讯云:FastLLM 推理库介绍 — 快速上手
  • 掘金:vLLM / FastLLM / llama.cpp 对比 — 三框架横向对比

求索实验室 · 本地部署系列