实战篇第7节:训练后量化PTQ——原理与TensorRT实现

实战篇第7节:训练后量化PTQ——原理与TensorRT实现

模型训好了,FP32权重8GB,部署时显存不够——训练后量化(PTQ)是"不重新训练就把模型压到1/4"的核心技术。但量化不只是scale和zero_point,关键是"在哪量化"和"怎么校准"

前言

训练后量化(Post-Training Quantization, PTQ)是模型部署的"第一道压缩线"——不需要重新训练,只需要几百张校准图片,就能把FP32模型量化到INT8甚至INT4,显存和延迟双双减半。

但PTQ不是银弹:

  • 精度损失:某些敏感层量化后可能掉3-5%准确率
  • 校准数据敏感:校准数据分布不匹配 → 量化误差放大
  • 硬件差异:不同GPU架构对INT8/INT4的支持不同

这一节,我们从量化的数学原理出发,覆盖TensorRT中PTQ的完整流程、校准器选择和逐层精度恢复策略。


一、量化数学基础

1.1 线性量化的核心公式

# 量化:FP32 → INT8# q = round(x / scale) + zero_point