CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略020、DEIM在嵌入式设备上的部署:ONNX导出与TensorRT优化一、凌晨三点的调试现场上周五晚上,我盯着Jetson Orin的终端,看着DEIM模型推理速度卡在12.3ms纹丝不动。旁边同事的YOLOv8已经跑到3.2ms了,差距大到让人怀疑人生。更崩溃的是,ONNX导出时那个“Unsupported operator: aten::_convolution_mode”的错误,让我差点想把笔记本摔了。如果你也在做DEIM的嵌入式部署,大概率会遇到和我一样的坑。这篇笔记就是我从踩坑到填坑的全过程记录,没有教科书式的步骤,只有血泪换来的经验。二、ONNX导出:那些文档不会告诉你的细节2.1 模型结构改造——别直接拿训练代码导出DEIM的原始实现里,训练时用了很多动态shape的操作,比如可变形的RoI Align、动态batch的NMS。这些在ONNX里根本跑不通。我一开始天真地直接跑torch.onnx.export,结果报错堆栈能刷三屏。后来学乖了,先做模型结构冻结:# 这里踩过坑:直接export会炸在deformable