实战篇第7节：训练后量化PTQ——原理与TensorRT实现

📅 发布时间：2026/6/28 22:08:20 👁 浏览次数：

实战篇第7节：训练后量化PTQ——原理与TensorRT实现

模型训好了，FP32权重8GB，部署时显存不够——训练后量化（PTQ）是"不重新训练就把模型压到1/4"的核心技术。但量化不只是scale和zero_point，关键是"在哪量化"和"怎么校准"

前言

训练后量化（Post-Training Quantization, PTQ）是模型部署的"第一道压缩线"——不需要重新训练，只需要几百张校准图片，就能把FP32模型量化到INT8甚至INT4，显存和延迟双双减半。

但PTQ不是银弹：

精度损失：某些敏感层量化后可能掉3-5%准确率
校准数据敏感：校准数据分布不匹配 → 量化误差放大
硬件差异：不同GPU架构对INT8/INT4的支持不同

这一节，我们从量化的数学原理出发，覆盖TensorRT中PTQ的完整流程、校准器选择和逐层精度恢复策略。

一、量化数学基础

1.1 线性量化的核心公式

# 量化：FP32 → INT8# q = round(x / scale) + zero_point