当前位置：首页 > news >正文

用Gemma 4构建自托管OCR：轻量多模态模型驱动的文档智能实践

news 2026/6/16 6:00:40

1. 项目概述：为什么“用Gemma 4构建自托管OCR”不是噱头，而是切实可行的生产力跃迁

“用Gemma 4构建自托管OCR”——这个标题乍看像是把两个不相干的技术名词硬凑在一起：一边是谷歌新发布的、主打轻量高效的开放大语言模型Gemma 4，另一边是传统上由Tesseract、PaddleOCR这类专用引擎承担的文字识别任务。但如果你最近在本地部署过Ollama、试过用Qwen-VL或Phi-3-vision做文档理解，或者被云OCR服务的隐私条款、调用配额、网络延迟反复卡住过脖子，你就会立刻意识到：这不是概念拼贴，而是一次技术代际差带来的范式平移。

核心关键词“Gemma”“OCR”“自托管”已经划出了清晰的三角边界：它不依赖云端API，不上传原始图像到第三方服务器；它不局限于传统OCR引擎对字体、分辨率、版式的严苛要求；它也不再是“识别文字→输出字符串”的单向流水线，而是“理解文档结构→定位关键字段→推理语义关系→生成结构化结果”的闭环工作流。我上周用一台搭载RTX 4070（12GB显存）的台式机实测，处理一份12页、含复杂表格与手写批注的PDF采购合同，从拖入文件到输出带页码标记的Markdown结构化文本，全程耗时48.3秒，GPU显存峰值稳定在9.2GB，未触发OOM。这背后没有魔法，只有三个被长期低估的现实支点：第一，Gemma 4系列（尤其是12B参数量级）在视觉-语言联合建模上的工程优化已足够成熟；第二，“TurboQuant”技术对KV缓存的压缩不是理论数字，它让256K上下文在消费级显卡上真正可运行；第三，OCR的本质需求早已从“像素级字符匹配”升级为“文档智能理解”，而大模型恰恰是目前最成熟的通用理解基座。

适合谁参考？如果你是企业IT管理员，需要为财务、法务部门搭建不联网的合同解析系统；如果你是科研人员，手头有大量扫描古籍、实验记录本，但无法接受数据出境；如果你是开发者，厌倦了为不同格式（PDF/扫描图/手机拍照）反复调试Tesseract的PSM模式和DPI参数；甚至如果你只是个重度Notion用户，想把纸质笔记一键转成带标题层级的数据库条目——这个方案都比你想象中更贴近桌面、更即插即用。它不要求你重写OCR算法，也不需要你从零训练视觉编码器，而是把Gemma 4当作一个“可编程的OCR大脑”，用提示词定义任务边界，用本地算力保障数据主权，用标准化流程封装复杂性。接下来我会拆解整个链条：为什么选Gemma 4而非其他多模态模型？如何绕过传统OCR的预处理地狱？怎样设计提示词让模型稳定输出结构化结果？以及最关键的——那些官方文档绝不会写的、我在连续72小时调试中踩出的硬核坑点。

2. 技术选型深度解析：Gemma 4为何成为自托管OCR的“最优解”

2.1 Gemma 4 vs. 传统OCR引擎：不是替代，而是升维

很多人看到“用Gemma做OCR”第一反应是质疑：“Tesseract开源免费，准确率还高，何必折腾大模型？”这个问题问到了本质，但答案需要拆两层来看。第一层是技术能力维度：Tesseract是优秀的字符级检测与识别引擎，它的强项在于对清晰印刷体的单字识别（CER字符错误率可压到0.5%以下），但它的能力边界非常明确——当遇到表格线干扰、手写体混排、低对比度扫描件、弯曲变形文档时，必须依赖复杂的图像预处理（二值化、去噪、透视校正、区域分割），而这些步骤本身就需要大量人工调参，且泛化性极差。我曾为一份医院检验报告做过对比测试：Tesseract直接识别准确率仅61%，加入OpenCV自适应阈值+形态学闭运算后提升至79%，但调整参数的过程耗费了3小时，且换另一家医院的报告格式又得重来。

Gemma 4则完全不同。它不“识别字符”，而是理解文档语义。当你给它一张含表格的发票图片，并提示“请提取开票方名称、税号、金额、开票日期，按JSON格式输出”，模型会自动完成：① 视觉定位（哪些区域是文字块，哪些是表格线）；② 文本行聚合（OCR底层已集成，无需你调PSM）；③ 实体关联（将“￥12,800.00”与“金额”字段建立映射）；④ 格式化输出（严格遵循JSON Schema）。这本质上是把过去需要多个独立模块（检测→识别→后处理→结构化）串联的工作流，压缩进一个端到端的视觉语言模型推理过程。实测中，同一份检验报告用Gemma 4（12B）+合理提示词，一次输出结构化JSON的准确率达92.3%，且无需任何图像预处理——因为它的视觉编码器（基于ViT的改进架构）天生具备抗噪、抗形变能力。

第二层是部署与维护维度。Tesseract需要你管理：① 语言包（中文需额外下载chi_sim.traineddata）；② 配置参数（--psm 6/12/13等14种模式）；③ 图像质量阈值（DPI、对比度）。而Gemma 4作为完整权重模型，所有能力内置于单一文件中。你只需通过Ollama拉取gemma:12b镜像，一条命令即可启动服务。它的“OCR能力”不是插件，而是模型权重的一部分——谷歌在训练Gemma 4时，已将海量多语言文档（含扫描件、PDF截图、手机拍摄）作为视觉-文本对齐数据，使其具备原生的文档理解基因。

2.2 为什么是Gemma 4，而不是Qwen-VL、Phi-3-vision或LLaVA？

当前开源多模态模型不少，但Gemma 4在自托管OCR场景中胜出，源于三个不可复制的工程优势：

第一，TurboQuant对KV缓存的极致压缩，直接解决OCR长上下文瓶颈。OCR任务天然需要长上下文：一张A4扫描件经缩放后可能生成2000+ tokens的视觉特征，加上提示词、系统指令、输出模板，总上下文轻松突破32K。传统量化（如AWQ、GGUF）主要压缩模型权重，但KV缓存仍随序列长度线性膨胀。Gemma 4的TurboQuant则专攻此处——它将KV缓存压缩至2.5位/通道，实测中处理256K上下文时，KV缓存内存占用仅为未压缩状态的1/6。这意味着什么？以RTX 4070（12GB）为例：未启用TurboQuant时，处理10页PDF即触发显存溢出；启用后，可稳定处理32页（含复杂表格），且首token延迟降低40%。这是Qwen-VL（无官方TurboQuant支持）或Phi-3-vision（最大上下文仅128K）无法企及的硬指标。

第二，原生支持函数调用（Function Calling），让OCR结果可编程。Gemma 4不是“识别完就结束”，而是能主动调用外部工具。例如，当模型识别出“发票代码：123456789012345678”，它可自动触发一个Python函数，调用税务系统API验证代码真伪；当检测到“合计金额：¥15,600.00”，可调用计算函数校验小计与税率是否匹配。这种能力让OCR从“信息提取”升级为“业务执行节点”。而Qwen-VL虽支持工具调用，但其函数描述格式与Ollama生态不兼容；Phi-3-vision的工具调用需手动注入System Prompt，稳定性差。

第三，轻量级模型尺寸与性能的黄金平衡。Gemma 4提供E2B（2B）、E4B（4B）、12B、26B四档。OCR任务不需要26B的“全能大脑”，但2B模型在复杂表格理解上易出错。12B版本（约23GB GGUF文件）成为最佳甜点：在RTX 4070上，7B模型推理速度是12B的1.8倍，但表格字段抽取F1值下降11.2%；26B模型F1仅提升1.3%，却需双卡并行。我们用标准ICDAR2019数据集测试，Gemma 4 12B在“表格单元格内容抽取”子任务上达到89.7% F1，超越Tesseract+LayoutParser方案（85.1%），且部署复杂度降低一个数量级。

提示：别被“12B参数”吓退。Gemma 4的12B并非传统LLM的12B，其视觉编码器参数占比不足15%，实际推理负载远低于同参数量纯文本模型。实测显示，加载gemma:12b后，Ollama服务内存占用仅3.2GB，远低于Qwen-VL-7B的5.8GB。

2.3 自托管架构设计：为什么必须绕过云端，直连本地GPU

“自托管”的核心价值常被简化为“数据隐私”，但这只是冰山一角。真正的驱动力来自三个刚性需求：

① 网络不可靠性下的业务连续性。我服务的一家制造业客户，其车间质检系统需实时识别设备铭牌照片。云OCR API在厂区Wi-Fi波动时，平均响应延迟达8.2秒，导致产线停机。自托管后，端到端延迟稳定在1.3秒内，且完全不受网络影响。

② 定制化规则的即时生效。法律文书OCR需特殊规则：如“甲方”“乙方”必须保留原文称谓，不得替换为“合同方A/B”；金额数字必须带千分位逗号。云服务的规则引擎配置需走审批流程，平均上线周期5.7天；本地部署下，修改提示词后重启服务，30秒内生效。

③ 成本结构的根本性重构。按某云厂商报价，1000次OCR调用收费12元。客户月均处理28万页文档，年成本超40万元。而自托管方案：一台二手工作站（i7-10700K + RTX 3090）一次性投入1.2万元，电费年均860元，运维人力折算2000元——三年总成本不足云方案的1/10。

架构上，我们采用“Ollama + Gemma 4 + 轻量级前端”的极简栈。Ollama作为模型运行时，屏蔽了CUDA版本、cuDNN兼容性等底层细节；Gemma 4提供统一的视觉-语言接口；前端（可选Web UI或CLI）只负责文件上传与结果渲染。整个系统无数据库、无中间件、无消息队列——因为OCR是典型的“请求-响应”无状态任务，加任何一层抽象都是冗余。

3. 核心实现细节：从PDF到结构化JSON的全链路实操

3.1 文件预处理：为什么放弃OpenCV，拥抱pdftoppm的“暴力美学”

传统OCR流程中，图像预处理常占70%开发时间。但Gemmma 4的视觉编码器对输入鲁棒性极强，我们反而要警惕“过度预处理”带来的信息损失。实测发现：对一张手机拍摄的倾斜发票，若先做透视校正，模型因丢失原始透视线索，反而将“金额”字段误判为“备注”；而直接输入原图，模型利用全局上下文（如“¥”符号位置、右对齐排版）准确定位。

因此，我们的预处理策略是“最小必要原则”：仅对PDF做标准化转换，对图像不做任何修改。关键工具是pdftoppm（Poppler套件），而非OpenCV或PIL。原因有三：

保真度最高：pdftoppm直接解析PDF矢量指令，生成的PNG保留原始字体Hinting、抗锯齿信息，而OpenCV读取PDF需先光栅化，必然损失精度。
可控性强：DPI参数直接影响OCR质量。我们设为300 DPI（非默认150），实测在RTX 4070上，300 DPI比150 DPI的字符识别准确率提升22.6%，且GPU处理时间仅增加1.3秒（因图像尺寸增大，但Gemma 4的视觉编码器对中等分辨率变化不敏感）。
自动化友好：pdftoppm支持-f（起始页）、-l（结束页）参数，可精准控制页面范围，避免为100页PDF生成全部图像再筛选。

以下是生产环境使用的PDF转图脚本核心逻辑（已集成到主程序）：

# 检查Poppler安装（跨平台） if ! command -v pdftoppm &> /dev/null; then echo "Error: pdftoppm not found. Install Poppler:" case "$(uname -s)" in Darwin) echo " brew install poppler" ;; Linux) echo " sudo apt-get install poppler-utils" ;; *) echo " Download from https://poppler.freedesktop.org/" ;; esac exit 1 fi # 转换单页（用于快速预览） pdftoppm -png -r 300 -f 1 -l 1 input.pdf output_prefix # 转换指定页码（如'1,3,5-7'） # 先解析页码字符串（见前文parse_pages函数），再循环调用 for page in 1 3 5 6 7; do pdftoppm -png -r 300 -f $page -l $page input.pdf "page-$page" done

注意：pdftoppm生成的文件名格式为page-001.png，而非page-1.png。这看似小事，但若在extract_page_number函数中用split("-")[-1]直接取，会得到001而非1，导致页码排序错乱。正确做法是int("001")强制转整数，或用正则\d+提取数字。

3.2 图像缩放策略：Lanczos滤镜为何是唯一选择

Gemma 4视觉编码器有最大输入尺寸限制（1536像素长边）。对大幅面扫描件（如工程图纸），必须缩放。常见缩放算法有双线性（Bilinear）、双三次（Bicubic）、Lanczos。我们实测三者对OCR的影响：

缩放算法	字符边缘锐度	表格线保真度	处理速度	Gemma 4识别准确率
双线性	模糊	断续	快	76.2%
双三次	较清晰	连续但发虚	中	83.5%
Lanczos	锐利	连续且硬朗	慢	91.8%

Lanczos胜出的关键在于其核函数特性：它使用sinc函数的截断近似，在频域上能更好保留高频细节（如细小字体、表格线），同时抑制振铃效应。这对OCR至关重要——模型依赖像素级对比度判断字符边界。我们用OpenCV实现Lanczos缩放（cv2.resize(img, None, fx=scale, fy=scale, interpolation=cv2.INTER_LANCZOS4)），并设置长边最大值为1536，短边等比缩放。实测表明，即使将A0图纸（841×1189mm，300DPI下约10000×14000像素）缩放到1536×2150，关键字段识别率仍达89.3%。

3.3 提示词工程：让Gemma 4稳定输出JSON的3个致命细节

大模型OCR的成败，70%取决于提示词设计。我们经过217次AB测试，总结出确保JSON输出稳定的三大铁律：

第一，强制Schema约束，禁用自由发挥。错误示范：“请提取发票信息”。正确写法：

你是一个专业的OCR解析器，请严格按以下JSON Schema输出，不得添加任何额外字段、注释或说明： { "invoice_code": "string, 发票代码，12位纯数字", "invoice_number": "string, 发票号码，8位纯数字", "issue_date": "string, 开票日期，格式YYYY-MM-DD", "amount": "number, 金额，保留两位小数", "seller_name": "string, 销售方名称", "buyer_name": "string, 购买方名称" } 如果某字段在图像中不存在，对应值设为null。只输出JSON，不要任何前导或后缀文本。

关键点：① 明确字段类型与格式（"amount": number而非"amount": "string"）；② 对缺失字段定义null行为；③ “只输出JSON”消除模型自我解释倾向。

第二，注入领域知识，降低幻觉率。Gemma 4在金融票据上易混淆“大写金额”与“小写金额”。我们在提示词中嵌入规则：

注意：中国增值税专用发票中，“¥”符号后的数字为小写金额，“人民币（大写）”后的汉字为大写金额。请优先提取小写金额，仅当小写金额不可见时，才解析大写金额并转换为数字。

实测此规则使金额字段错误率从14.7%降至2.1%。

第三，控制输出长度，规避截断风险。Gemma 4的输出受num_predict参数限制。若设为512，而JSON结构需600 tokens，则末尾}被截断，导致JSON解析失败。解决方案：① 预估JSON长度（每个字段名+值约15-25 tokens，10字段约200 tokens）；② 设置num_predict=384（留128 token余量）；③ 在后处理中添加JSON修复逻辑（见4.2节）。

3.4 结果后处理：从“模型输出”到“可用数据”的最后一公里

Gemma 4输出的JSON并非总完美。我们设计三层后处理保障：

① JSON语法修复：使用json_repair库（非标准json库），它能智能补全缺失的引号、括号、逗号。例如模型输出：

{"invoice_code": "123456789012", "amount": 15600.00, "seller_name": "ABC公司"

json_repair.repair_json()可自动补全为合法JSON。

② 字段清洗：对amount字段，用正则r'¥?(\d{1,3}(,\d{3})*\.\d{2})'提取数字，去除千分位逗号；对issue_date，用dateutil.parser.parse()标准化为YYYY-MM-DD。

③ 置信度校验：Gemma 4不返回置信度，但我们可通过输出长度推断。例如，invoice_code应为12位数字，若模型返回"12345"，长度异常，标记为confidence: low，触发人工复核队列。

最终输出结构（符合JSON Schema）：

{ "file": "/path/to/invoice.pdf", "pages": [ { "page": 1, "result": { "invoice_code": "123456789012", "invoice_number": "98765432", "issue_date": "2024-05-20", "amount": 15600.00, "seller_name": "ABC科技有限公司", "buyer_name": "XYZ制造集团" }, "confidence": 0.94, "duration_ms": 2450 } ] }

4. 实操全流程：从零部署到生产就绪的每一步

4.1 环境准备：硬件、系统与依赖的精确清单

硬件最低要求（非推荐）：

CPU：Intel i5-8400 或 AMD Ryzen 5 2600（6核12线程）
GPU：NVIDIA GTX 1060 6GB（仅支持Gemma 4 E2B/E4B）
内存：16GB DDR4
存储：SSD 128GB（模型文件+缓存）

推荐生产配置：

CPU：Intel i7-10700K（8核16线程）
GPU：NVIDIA RTX 4070（12GB GDDR6X）
内存：32GB DDR4 3200MHz
存储：NVMe SSD 512GB

操作系统：

Ubuntu 22.04 LTS（首选，CUDA驱动最稳定）
Windows 11 22H2（需WSL2，性能损耗约12%）
macOS Sonoma（仅限M2/M3芯片，Metal加速，但12B模型需量化至Q4_K_M）

关键依赖安装（Ubuntu示例）：

# 1. 安装NVIDIA驱动（470.199.02+） sudo apt update && sudo apt install nvidia-driver-470-server # 2. 安装CUDA Toolkit 12.1（Gemma 4官方编译环境） wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run sudo sh cuda_12.1.1_530.30.02_linux.run --silent --override # 3. 安装Ollama（一键部署模型运行时） curl -fsSL https://ollama.com/install.sh | sh # 4. 拉取Gemma 4 12B模型（量化版，平衡速度与精度） ollama run gemma:12b-q4_k_m # 5. 安装Poppler（PDF转图） sudo apt install poppler-utils # 6. Python依赖（仅需基础库，无PyTorch/TensorFlow） pip install opencv-python==4.9.0.80 json-repair python-dateutil

注意：切勿使用pip install torch！Ollama已内置CUDA推理引擎，额外安装PyTorch会导致CUDA版本冲突，引发Illegal instruction (core dumped)错误。所有图像处理用OpenCV，OCR逻辑由Ollama API承载。

4.2 核心服务启动：Ollama配置与API调用实战

Ollama默认监听127.0.0.1:11434，但生产环境需暴露给局域网。编辑~/.ollama/config.json：

{ "host": "0.0.0.0:11434", "allow_origins": ["http://localhost:*", "http://192.168.1.*:*"], "keep_alive": "5m" }

重启服务：systemctl --user restart ollama。

调用Gemma 4进行OCR的cURL命令（调试用）：

curl http://localhost:11434/api/chat \ -H "Content-Type: application/json" \ -d '{ "model": "gemma:12b-q4_k_m", "messages": [ { "role": "user", "content": "你是一个专业的OCR解析器...", "images": ["data:image/png;base64,iVBORw0KGgoAAAANS..."] } ], "stream": false, "options": { "num_predict": 384, "temperature": 0.1, "top_p": 0.9 } }'

关键参数说明：

num_predict: 384：严格控制输出长度，防截断
temperature: 0.1：极低温度，确保输出确定性（OCR不容许随机性）
top_p: 0.9：保留90%概率质量，兼顾稳定性与少量容错

Python调用封装（生产级）：

import requests import base64 def ocr_single_image(image_path: str, prompt: str, model: str = "gemma:12b-q4_k_m"): # 读取图像并base64编码 with open(image_path, "rb") as f: img_b64 = base64.b64encode(f.read()).decode() # 构造请求 payload = { "model": model, "messages": [{"role": "user", "content": prompt, "images": [img_b64]}], "stream": False, "options": {"num_predict": 384, "temperature": 0.1, "top_p": 0.9} } # 调用API（带超时与重试） for attempt in range(3): try: resp = requests.post( "http://localhost:11434/api/chat", json=payload, timeout=(10, 120) # 连接10秒，读取120秒 ) resp.raise_for_status() result = resp.json() return { "text": result["message"]["content"], "tokens": result.get("eval_count", 0), "duration_ms": result.get("total_duration", 0) // 1000000 } except requests.exceptions.RequestException as e: if attempt == 2: raise e time.sleep(1)

4.3 PDF批量处理：页码解析与临时目录管理的工业级实践

PDF处理的核心难点是页码控制与临时文件清理。用户输入页码格式多样："1-5"、"1,3,7-10"、"all"。我们的parse_pages函数（见原文）已解决解析问题，但生产环境需考虑：

并发安全：多用户同时上传PDF时，tempfile.TemporaryDirectory()必须隔离。Ollama本身是进程级服务，但Python主程序需为每个请求创建独立临时目录。我们采用tempfile.mkdtemp(prefix=f"ocr_{int(time.time())}_")，并在finally块中强制删除：
```
tmpdir = tempfile.mkdtemp(prefix="ocr_") try: images = pdf_to_images(pdf_path, tmpdir, dpi=300, pages=pages) # ... OCR processing finally: shutil.rmtree(tmpdir, ignore_errors=True) # 强制删除，忽略权限错误
```

大文件保护：单页PDF转PNG可能生成50MB+图像。我们添加大小检查：

for img_path in images: if img_path.stat().st_size > 50 * 1024 * 1024: # 50MB print(f"Warning: {img_path} too large, skipping...") continue

页码映射：pdftoppm生成page-001.png，但用户期望结果中"page": 1。extract_page_number函数必须健壮：

def extract_page_number(image_path: Path) -> int: """Extract page number from filename like 'page-001.png' or 'page-1.png'""" stem = image_path.stem # 匹配最后的数字序列，支持'page-001'和'page-1' match = re.search(r'(\d+)$', stem) return int(match.group(1)) if match else 1

4.4 输出格式化：JSON/Markdown/Text三模式的业务适配逻辑

用户需求决定输出格式。我们提供三种模式，各针对不同场景：

JSON模式（format_as_json）：

适用：系统集成（如导入ERP、财务软件）
特点：保留所有元数据（created_at,duration_ms,confidence）
关键技巧：使用json.dumps(..., ensure_ascii=False, indent=2)保证中文不转义，缩进2空格便于人工阅读

Markdown模式（format_as_markdown）：

适用：知识库沉淀（如Notion、Obsidian）
特点：每页用---分隔，页眉含隐藏注释，供后续自动化解析
实战价值：Obsidian插件可读取注释，自动为“table”类型页面添加#table标签

Text模式（format_as_text）：

适用：快速复制粘贴（如微信沟通、邮件正文）
特点：极致精简，仅保留纯文本，多页间用空行分隔
避坑：避免在文本中插入===分隔线（易与用户原文混淆），改用--- Page 3 ---

格式选择通过命令行参数--format json/md/txt实现，FORMATTERS字典统一调度，确保扩展新格式只需新增函数并注册。

5. 常见问题与硬核排查指南：那些文档里找不到的血泪经验

5.1 GPU显存爆满（OOM）的5种真实场景与根治方案

场景1：PDF页数过多，pdftoppm生成超大PNG

现象：pdftoppm进程卡死，nvidia-smi显示GPU显存100%，但Ollama未启动
根因：pdftoppm本身不占GPU，但生成的PNG过大（如A0图缩放后8000×11000像素），Python读取时内存暴涨，触发系统OOM Killer

解决：在pdf_to_images中添加尺寸检查与降采样

# 读取PNG后立即检查尺寸 img = cv2.imread(str(img_path)) if max(img.shape[:2]) > 3000: # 长边超3000像素 scale = 3000 / max(img.shape[:2]) img = cv2.resize(img, None, fx=scale, fy=scale, interpolation=cv2.INTER_LANCZOS4) cv2.imwrite(str(img_path), img) # 覆盖原图

场景2：Gemma 4 KV缓存未压缩，长文档触发OOM

现象：处理第5页时，Ollama日志报CUDA out of memory，nvidia-smi显存瞬间飙到100%
根因：未启用TurboQuant。Ollama默认拉取的gemma:12b是FP16权重，但KV缓存仍为FP16
解决：必须使用量化模型gemma:12b-q4_k_m（4-bit量化，TurboQuant已启用）
```
ollama run gemma:12b-q4_k_m # 正确 # ollama run gemma:12b # 错误，会OOM
```

场景3：系统内存不足，Ollama后台崩溃

现象：ollama list显示模型存在，但curl调用返回Connection refused
根因：Ollama服务进程被Linux OOM Killer终止（dmesg | grep -i "killed process"可查）
解决：
① 为Ollama分配独立内存限制：systemctl --user edit ollama，添加
```
[Service] MemoryLimit=12G
```
② 增加swap空间：sudo fallocate -l 8G /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile

场景4：CUDA版本错配，Illegal instruction

现象：启动Ollama时报Illegal instruction (core dumped)
根因：系统CUDA驱动（如535.x）与Ollama内置CUDA库（12.1）不兼容

解决：强制Ollama使用系统CUDA：

export OLLAMA_CUDA_PATH="/usr/local/cuda-12.1" systemctl --user restart ollama

场景5：Windows WSL2 GPU加速失效

现象：WSL2中nvidia-smi可见GPU，但Ollama推理速度比CPU还慢
根因：WSL2 NVIDIA驱动未启用CUDA on WSL
解决：
① 主机安装 NVIDIA驱动535+
② WSL2中执行：sudo apt install nvidia-cuda-toolkit
③ 在WSL2的/etc/wsl.conf中添加：
```
[wsl2] gpuSupport=true
```