006 环境搭建:PyTorch 2.0+、CUDA 12.x与DEIM代码库配置一、从一次“版本地狱”说起上周帮师弟调DEIM的复现环境,他卡在torch.compile报错上整整两天。错误信息翻来覆去就一句话:“CUDA error: device-side assert triggered”。我远程过去一看,好家伙——PyTorch 2.1.0配CUDA 11.8,DEIM代码里却用了torch.compile的mode="reduce-overhead"参数。这玩意儿在CUDA 11.x下根本跑不通,官方文档写得很清楚,但谁没事儿去翻那几百页的release note?这种坑我踩过不下十次。深度学习框架的版本兼容性,从来不是“最新就是最好”的简单逻辑。DEIM这个项目尤其敏感——它用了大量的torch.fx符号追踪和自定义算子,对PyTorch的JIT编译器版本有硬性依赖。今天这篇笔记,我就把从零搭建DEIM运行环境的完整流程、踩过的坑、以及最终验证通过的配置方案,全部摊开来讲。二、硬件与驱动:别让显卡拖后腿先确认你的显卡。DEIM的改进点主要集中在Transformer解码器的稀疏化计算上,对显存带宽要求极高。我实测下来,RTX 3090/4090是最低门槛,A100/H100当然更好,但如果你还在用GTX 1080 Ti,建议直接放弃——不是不能跑,是batch size设成1都容易OOM。驱动版