本地电脑装 Ollama 连上 AMD 显卡，离线跑大模型真简单-尧图网络科技

让 AMD 显卡“醒”过来：Ollama 本地部署实录

以前想在本地跑个大模型，手里要是没张 NVIDIA 的卡，心里总有点发虚。要么只能靠 CPU 慢悠悠地“挤牙膏”，要么就得去租昂贵的云端算力。但最近 ROCm 生态的进展确实让人眼前一亮，尤其是 Ollama 正式原生支持 AMD 后端后，整个体验发生了质的变化。对于咱们这种喜欢在自己 Linux 桌面或工作站上捣鼓原型的开发者来说，现在只需要几张消费级的 Radeon 显卡，就能获得相当不错的推理性能。今天就来聊聊怎么在本地把这套环境搭起来，让手里的 A 卡真正为大模型服务。

环境变量：打通硬件加速的“任督二脉”

很多小伙伴在安装完 Ollama 后发现，程序虽然跑起来了，但显卡占用率却是 0%，模型依然在 CPU 上运行。这通常不是驱动问题，而是缺少了一个关键的环境变量配置。Ollama 在 Linux 下识别 AMD GPU 需要明确知道该调用哪些设备，这一步至关重要。

首先，确保你的系统已经安装了适配当前内核版本的 ROCm 驱动。如果是较新的 Radeon RX 6000/7000 系列或专业卡，ROCm 5.6 及以上版本通常都能良好支持。安装好 Ollama 服务后，不要急着直接启动，我们需要先设置OLLAMA_HIP_VISIBLE_DEVICES。

打开你的终端，编辑 systemd 的服务配置文件，或者直接在当前会话中导出变量。如果你是想临时测试，直接在终端执行：

exportOLLAMA_HIP_VISIBLE_DEVICES=0ollama serve

这里的0代表第一块显卡。如果你是多卡用户，可以用逗号分隔，比如0,1。这个变量的作用类似于 NVIDIA 的CUDA_VISIBLE_DEVICES，它告诉 Ollama 的 HIP 后端：“别去管 CPU 或者其他设备，只盯着这块 AMD 显卡干活”。

为了让配置永久生效，建议修改 systemd 服务。执行sudo systemctl edit ollama.service，在编辑器中加入以下内容：

[Service] Environment="OLLAMA_HIP_VISIBLE_DEVICES=0"

保存退出后，重启服务：sudo systemctl restart ollama。这时候，你再观察rocm-smi的输出，应该能看到 Ollama 进程已经稳稳地占用了显存，这才是硬件加速正常工作的标志。

实战演练：加载量化模型与对话测试

环境配通后，最激动人心的环节就是拉取模型了。考虑到消费级显卡的显存限制（通常在 8GB 到 24GB 之间），直接跑全精度的 7B 或 13B 模型可能会捉襟见肘，甚至导致 OOM（显存溢出）。好在现在的量化技术非常成熟，Ollama 默认提供的模型大多已经是 4-bit 量化版本（q4_0），在精度损失极小的情况下，大幅降低了显存需求。

我们来尝试拉取一个经典的llama3模型。在终端输入：

ollama pull llama3

下载速度取决于你的网络，完成后即可开始对话。试试运行一个简单的生成任务：

ollama run llama3"请用简短的语言解释什么是 ROCm，并说明它在 AI 开发中的作用。"

如果配置正确，你会看到首字生成的延迟（Time to First Token）明显低于纯 CPU 模式。在 RX 7900 XTX 这样的卡片上，4-bit 量化的 8B 参数模型生成速度可以轻松达到 20-30 tokens/s，这对于本地调试 prompt 或者构建简单的 RAG 应用来说，已经完全够用且流畅。

如果你想尝试更轻量级的模型，gemma:2b或者phi3:mini也是极佳的选择。特别是phi3，它在小显存卡上的表现令人惊喜，既能快速响应，又能保持不错的逻辑推理能力，非常适合在笔记本或旧主机上进行原型验证。

性能对比与选型建议

为了直观感受硬件加速的效果，我特意在同一台设备上做了对比测试。在未设置环境变量、强制使用 CPU 运行时，生成一段 200 字的回答大约需要 15 秒，期间风扇狂转，系统其他操作也略显卡顿。而开启OLLAMA_HIP_VISIBLE_DEVICES调用 GPU 后，同样的任务仅需 2 秒左右即可完成，且系统负载分布更加合理。

这种差异不仅仅是速度的提升，更是可用性的分水岭。CPU 跑大模型更多是“能跑就行”，而 GPU 加速则达到了“好用”的标准。对于个人开发者而言，这意味着你可以在本地快速迭代想法，无需等待云端队列，也不用担心数据隐私问题。

在模型选择上，如果你的显存在 8GB 左右，强烈建议坚守 4-bit 量化的 7B-8B 参数模型，如llama3:8b-instruct-q4_0或mistral:7b。如果显存有 12GB 或更多，可以尝试qwen:14b的量化版，或者在显存允许的情况下探索一些特定领域的微调模型。切记不要盲目追求大参数，合适的量化等级配合 AMD 的高带宽显存，往往能带来最佳的性价比体验。

现在，AMD 显卡不再是 AI 开发的旁观者。通过 Ollama 和 ROCm 的结合，我们手中的硬件潜力被充分释放。无论是学习大模型原理，还是开发自己的智能助手，这套本地方案都足够简单、高效且可控。拿起键盘，配置好那个关键的环境变量，你的本地大模型之旅随时可以启程。