模型量化实战：别为了省显存把模型搞崩了-尧图网络科技

模型量化实战：别为了省显存把模型搞崩了

一、显存和精度，你得先想清楚要哪个

大模型推理的瓶颈，说白了就是数据搬运。FP16 下一个参数占 2 字节，70B 的模型光权重就要 140GB 显存。换成 INT8 是 70GB，INT4 能压到 35GB。显存省下来，要么能塞进更大的模型，要么能扛更多并发。

但问题在于精度。我见过不少团队上来就直接上 INT4，结果下游任务精度掉了 8%，线上效果直接崩盘。也见过保守派死守 FP16，A100 利用率连 30% 都不到。量化不是开关，是手术刀。切哪里、切多深，得看数据说话。

二、量化的数学本质

量化的核心就是把浮点值映射到离散整数集合。线性量化公式其实很简单：

q = clamp(round(x / scale + zero_point), qmin, qmax)

其中scale = (xmax - xmin) / (qmax - qmin)，zero_point用来对齐零点。关键就在于xmax和xmin怎么选——这决定了量化粒度。

graph LR A[FP32/FP16 权重] --> B{量化策略选择} B -->|对称量化| C[scale = max abs_val / 127] B -->|非对称量化| D[scale = range / 255<br/>zero_point = round(-min/scale)] C --> E[INT8 权重: W_q] D --> E E --> F[反量化: W_deq = W_q * scale - zero_point * scale] F --> G[计算损失: L = MSE W, W_deq] G --> H{损失可接受?} H -->|是| I[部署INT8模型] H -->|否| J[调整量化粒度或混合精度] J --> B

误差传播是量化的隐形杀手。单层量化误差可能只有 0.1%，但经过几十层 Transformer 累积下来，误差会指数级放大。特别是 Attention Score 的 Softmax 操作，对输入微小扰动非常敏感。这也是为什么 Q/K 矩阵的量化需要比 V/O 矩阵更谨慎。

量化粒度对比

粒度	校准方式	精度保持	计算开销	适用场景
Per-Tensor	全局最大值	低	最低	对精度不敏感
Per-Channel	每个输出通道独立	中	低	通用场景
Per-Group	每128通道一组	高	中	精度敏感场景
Per-Token (激活)	每个Token独立	最高	高	动态量化

三、生产级量化方案

3.1 GPTQ：利用二阶信息逐列量化

GPTQ 的核心思路是利用 Hessian 矩阵的近似逆，逐列量化权重并即时补偿误差。这比朴素量化精度高得多。

import torch from torch import nn class GPTQQuantizer: """GPTQ量化器：利用Hessian信息逐列量化， 量化某列后立即将误差补偿到未量化列， 从而最小化整体重构误差""" def __init__( self, module: nn.Linear, bits: int = 4, group_size: int = 128, ): self.module = module self.bits = bits self.group_size = group_size self.max_q = 2 ** bits - 1 def _find_quant_params(self, weight: torch.Tensor) -> tuple: """计算一组权重的最优量化参数""" w_min = weight.min(dim=-1).values w_max = weight.max(dim=-1).values w_abs_max = torch.max(w_min.abs(), w_max.abs()) scale = w_abs_max / (self.max_q / 2) scale = scale.clamp(min=1e-10) return scale def quantize_block( self, block_weight: torch.Tensor, hessian_inv: torch.Tensor, ) -> torch.Tensor: """对权重块执行GPTQ量化""" quantized = torch.zeros_like(block_weight) errors = torch.zeros_like(block_weight) for col in range(block_weight.shape[1]): w_col = block_weight[:, col] scale = self._find_quant_params(w_col.unsqueeze(1)) q_col = torch.clamp( torch.round(w_col / scale.squeeze()), -self.max_q // 2, self.max_q // 2 ) quantized[:, col] = q_col * scale.squeeze() errors[:, col] = w_col - quantized[:, col] if col < block_weight.shape[1] - 1: hessian_inv_col = hessian_inv[col, col] compensation = ( errors[:, col].unsqueeze(1) * hessian_inv[col, col+1:] / hessian_inv_col ) block_weight[:, col+1:] += compensation return quantized

3.2 混合精度：别一刀切

不是所有层都能安全量化。检测敏感层的方法是逐层量化并测量输出差异。

class MixedPrecisionAnalyzer: """混合精度分析器：逐层评估量化敏感度""" def __init__(self, model: nn.Module, calibration_data: torch.Tensor): self.model = model self.calibration_data = calibration_data self.sensitivity_scores: dict = {} @torch.no_grad() def analyze_layer_sensitivity( self, layer_name: str, bits_list: list = [4, 8], ) -> dict: """分析单个层的量化敏感度""" original_output = self._get_layer_output(layer_name) results = {} for bits in bits_list: self._quantize_layer(layer_name, bits) quantized_output = self._get_layer_output(layer_name) cos_sim = F.cosine_similarity( original_output.flatten().unsqueeze(0), quantized_output.flatten().unsqueeze(0), ).item() results[f"int{bits}"] = cos_sim self._restore_layer(layer_name) self.sensitivity_scores[layer_name] = results return results def get_quantization_plan(self, threshold: float = 0.98) -> dict: """根据敏感度生成分层量化方案""" plan = {} for layer_name, scores in self.sensitivity_scores.items(): if scores.get("int4", 1.0) < threshold: plan[layer_name] = "fp16" elif scores.get("int8", 1.0) < threshold: plan[layer_name] = "int8" else: plan[layer_name] = "int4" return plan

3.3 引擎层优化

量化模型在推理引擎中的优化，不只是"把 FP16 Kernel 换成 INT8 Kernel"这么简单。

def build_mixed_precision_engine( model_dir: str, max_batch_size: int = 32, max_seq_len: int = 4096, ): """构建混合精度推理引擎""" from tensorrt_llm import Builder, Network builder = Builder() network = Network() quant_config = { "quant_mode": "weight_only", "weight_format": "int8", "calibrate": True, } config = builder.create_builder_config( max_batch_size=max_batch_size, max_seq_len=max_seq_len, quant_config=quant_config, fuse_qkv=True, fuse_mha=True, ) return builder.build(network, config)