这项由浙江大学联合上海浙江大学高等研究院、上海数学与交叉科学研究院共同完成的研究发表于2026年第43届国际机器学习大会ICML 2026会议地点为韩国首尔收录于PMLR 306论文集。感兴趣的读者可通过论文编号arXiv:2605.09433查阅完整原文。当你打开某款AI绘图软件输入一段描述几秒钟后屏幕上便浮现出一幅画作。这个看似魔法般的过程背后其实是一场精心设计的从噪点到图像的旅程。然而浙江大学的研究团队发现现有的AI绘图优化技术长期以来忽视了一个至关重要的东西——那团最初的噪点本身。正是这个发现让他们将训练效率提升了整整十二倍。一、AI画图一场从混沌到秩序的旅程要理解这项研究得先弄清楚现代主流AI绘图模型是怎么工作的。目前最先进的图像生成模型比如FLUX和Stable Diffusion 3本质上是在做一件事把一堆随机噪点按照某条特定的路径一步步雕刻成一张图片。研究团队采用的技术叫做整流流Rectified Flow简称RF。可以把它理解成这样一幅场景你手里握着一团棉絮代表随机噪点你要把它捏成一只兔子的形状代表最终图片。普通的方法捏得弯弯曲曲路径复杂。而整流流的厉害之处在于它的捏法几乎是走直线的——从起点到终点路径笔直几乎不绕弯路。正因为路径是笔直的只要你知道起点那团噪点和终点那张图片你就可以用简单的线性插值来推算中间任意时刻的状态——就像你知道火车的出发站和终点站以及它匀速行驶就能算出任何时刻它在哪里。这个直线特性是整流流区别于传统扩散模型的核心优势也是这项研究能够成立的物理基础。然而当前所有主流的AI绘图偏好优化方法都犯了一个同样的错误它们在收集训练数据时只保存了那只兔子最终图片把那团原始棉絮初始噪点给扔掉了。二、被遗忘的起点为什么初始噪点不是废料研究团队指出现有的偏好数据集——就是那些记录了这张图比那张图好的对比数据——普遍只存储了最终的胜出图片和落选图片完全丢失了生成这两张图时各自使用的初始噪点。这件事之所以是个严重问题可以用一个更直观的类比来解释。假设你是一位导演要评判两个演员的表演质量。其中一个演员从准备阶段就开始录像你能看到他从最初的状态一步步磨练出最终表演的全过程。另一个演员只给你看了最终表演的录像你完全不知道他中间经历了什么。评判前者显然更准确、更公平因为你掌握了完整的轨迹信息。在AI绘图的语境里那团初始噪点就相当于演员的准备状态。不同的初始噪点会经过不同的路径生成截然不同的图片。对于整流流模型来说初始噪点不是随便可以替换的背景信息它是决定整条生成轨迹的身份证。丢失了它就等于丢失了这条轨迹最关键的起点。传统的优化方法以Diffusion-DPO为代表面对这个问题时的做法是重新随机抽取一团噪点用往图片上加噪声的方式来反推中间状态。但这个做法有个根本性的缺陷——它重新抽取的噪点和当初真正生成那张图的噪点根本不是同一个路径完全对不上。这就像你试图用一张陌生城市的地图来还原某人在自己家乡的行走路线结果显然南辕北辙。这种路径失配导致的后果就是训练不稳定、效率低下、优化效果打折扣。三、PNAPO带着出发地点去优化浙江大学的团队提出了一个改进方案名为先验噪声感知偏好优化Prior Noise-Aware Preference OptimizationPNAPO。这个方案的核心思路极其朴素在构建训练数据时把那团初始噪点一起存下来。具体来说传统的偏好数据是一个三元组提示词、胜出图片、落选图片。PNAPO把它扩展成了一个六元组提示词、胜出图片、胜出图片对应的初始噪点、落选图片、落选图片对应的初始噪点以及这两张图之间量化的质量差距分数。数据集的构建分三步完成。第一步是准备提示词。研究团队使用了一个名为DiffusionDB的大型数据集它包含了180万条真实用户使用的文本描述。他们对这些提示词进行了严格筛选先用内容安全工具过滤掉不良内容保留了约83.67%的提示词再通过文本相似度和语义相似度两轮去重分别以Jaccard相似度和CLIP余弦相似度0.8为阈值最后用KNN聚类算法把提示词分成100个语义群从每个群中均衡采样确保覆盖的话题足够多样。最终精炼出2万条高质量且多样化的提示词。第二步是生成图片并保存噪点。对每条提示词模型各生成两张图片同时把生成每张图时采样的初始噪点一并记录下来。值得注意的是这里直接用已经微调过的模型来生成数据而不是用原始基础模型——这样做是为了确保偏好优化的过程更加稳定。第三步是打分标注。团队用一个预训练的图像质量评分模型HPSv2.1来给每对图片打分计算出两张图之间的分数差值。这个差值不是简单的好/坏二选一标签而是一个连续的数值能够反映稍微好一点和好很多之间的微妙区别为后续的动态调节训练提供了基础。四、直线路径的妙用用插值代替猜测有了配对的初始噪点之后PNAPO就能发挥整流流直线特性的最大价值了。在优化过程中需要比较模型在生成路径中间某个时刻的表现。由于有了起点初始噪点和终点最终图片根据整流流的直线特性中间任意时刻t的状态就是用公式 x_t (1-t)×图片 t×噪点 来计算的。这就是线性插值——和你小学学过的按比例混合是同一个道理。这种做法和传统Diffusion-DPO相比从数学上被证明引入的误差更小。研究团队用KL散度一种衡量两个概率分布差异程度的指标可以理解为走错路的程度严格推导出PNAPO的估计方式所走的弯路始终不大于传统方法所走的弯路。换句话说PNAPO对真实生成轨迹的还原在理论上就是比传统方法更准确的。这个发现还解释了为什么PNAPO能大幅降低训练成本。传统方法因为路径估计不准相当于在一个非常大的搜索空间里摸索每次梯度更新都带着很多噪声。PNAPO通过约束路径估计的空间把这个搜索范围大大缩小每次更新都更有效率。从实验数据来看在FLUX模型上PNAPO只需要约35.2个GPU小时而传统Diffusion-DPO需要约422.4个GPU小时效率差距达到了12倍。在Stable Diffusion 3 MediumSD3-M模型上PNAPO约需20.8个GPU小时而传统方法约需249.6个GPU小时同样是12倍的差距。五、动态调节训练也需要因时制宜PNAPO的另一个创新是引入了动态正则化策略用来解决传统偏好优化训练过程中固执地用同一把尺子量所有东西的问题。理解这个问题可以借助一个教学的场景。假设你是老师学生交上来的作业质量参差不齐有些作业差得一眼就能看出来奖惩力度理应大有些作业只是比另一份稍微好一点点奖惩力度应该相对小。传统方法给所有作业套用同一个固定的奖惩系数β显然不够精准。更进一步随着训练的推进模型已经学得越来越好了如果还像最初那样用很强的力度推动它远离参考模型反而会适得其反让它越学越偏。就像学生学到了一定程度老师应该逐渐放手让他自己巩固而不是还在旁边用力推。PNAPO的动态正则化把β系数拆成了三部分的乘积。基础系数β是一个固定的初始值保证了整体优化方向的正确性。样本难度控制器f(δr)是一个与两张图质量差值δr相关的函数通过sigmoid函数将质量差值映射到0到1之间——质量差距越大这个因子越接近1推动力越大差距越小推动力越小精细打磨。训练进度控制器g(n)则是一个随训练步数n变化的余弦衰减函数在训练初期步数小于n?之前保持满功率推进当步数超过n?之后g(n)开始缓缓下降到步数达到n?时它已经降到了初始值的一半之后维持在这个较低水平。研究团队经过实验验证当n?设为1000、n?设为2000时训练效果最好。从梯度分析来看这个动态策略的深层逻辑在于当模型对某对图片的判断还不准确边际为负时适当提高β能加速它对正确方向的学习当模型判断已经准确边际为正时降低β能防止它过度偏离参考模型保持稳定性。消融实验证明仅加入样本难度控制器f(δr)各项指标就有明显提升仅加入训练进度控制器g(n)效果也优于固定β二者结合才能达到最优。六、实验结果数字背后的真实改变研究团队在两个最先进的整流流图像生成模型上进行了全面验证FLUX.1-dev和Stable Diffusion 3 Medium。在FLUX上采用LoRA一种低秩参数适配技术可以理解为只微调模型中一小部分关键旋钮进行微调在SD3-M上进行全参数微调。对比基线方法包括原始基础模型、监督微调SFT、Diffusion-DPO、IPO和CaPO等多个方向。在偏好评分方面研究团队使用了HPDv2包含3200条测试提示词和OPDv1包含7459条测试提示词两个独立测试集通过PickScore、HPSv2.1、ImageReward、LAION美学评分和CLIP文本对齐度五个维度进行综合评估同时记录PNAPO模型相对于各基线的胜率。结果显示PNAPO在几乎所有指标上都超越了所有基线方法。以OPDv1测试集的HPSv2.1分数为例PNAPO微调后的SD3-M达到了33.09分比原始SD3-M高出1.13分PNAPO微调后的FLUX达到了32.10分比原始FLUX高出1.36分。PNAPO-FLUX的HPSv2.1胜率对比DPO-FLUX达到84.6%对比IPO-FLUX达到81.1%。在文本对齐方面研究团队使用GenEval这个专门评估图像与文字描述对应程度的基准进行测试。SD3-M在PNAPO加持下整体评分从0.68提升至0.73提升幅度7.4%比CaPO方法高出2.8个百分点。FLUX则从0.65提升至0.69提升幅度6.2%比DPO-FLUX高出4.5个百分点。细分来看PNAPO-SD3-M在计数Count这个最难的子任务上从0.56提升到了0.71在属性绑定Attribute上也有明显进步。为了验证人类的真实感受研究团队还进行了用户研究邀请了10位参与者每人评估20对随机选出的图片对比PNAPO-FLUX与其他方法的效果。在整体偏好方面PNAPO-FLUX获得了56%的偏好率在视觉吸引力方面达到72%在文字对齐程度方面达到52%。这些数据统计上显著地证明了PNAPO与人类审美判断的高度吻合。消融实验进一步拆解了各个组件的贡献。加入初始噪点配对即PNAPO的核心改动后相比标准DPOPickScore从22.97提升至23.06HPSv2.1从30.84提升至31.08美学评分从6.307提升至6.394。在此基础上再加入动态正则化各指标进一步全面提升至最优水平HPSv2.1达到31.71美学评分达到6.475。即便移除初始噪点仅保留动态正则化效果仍然优于原始DPO说明动态调节策略本身也有独立价值。在奖励模型的选择上实验表明使用文本感知型奖励模型PickScore和HPSv2.1训练出来的模型在视觉质量和文字渲染两方面都有综合提升而单纯使用美学评分模型虽然美学分数更高但文字对齐度会有所牺牲。HPSv2.1因为综合考量了多个维度在所有奖励模型中表现最均衡。七、局限与展望这项研究还有哪些未竟之路研究团队也坦诚地指出了当前方法的局限性。PNAPO的训练数据必须由被优化的那个模型自身生成因为不同模型使用的噪点分布不同无法直接互通。简单来说不能用FLUX生成的数据去训练SD3-M反之亦然。这在一定程度上限制了数据的复用性。此外DiffusionDB数据集中的提示词质量参差不齐许多提示词描述并不连贯可能限制了生成图片的上限质量。团队提出未来可以借助多模态大语言模型对提示词进行润色和改写进一步提升数据集的整体质量。从更长远的方向来看研究团队希望将PNAPO从离线学习扩展到在线学习范式让模型能够在与真实用户的持续交互中不断迭代改善。动态参数优化策略也有进一步发展的空间可以探索更精细的自适应调节机制。说到底这项研究做的事情在直觉上非常自然生成一张图的故事从最初那团随机噪点就开始了凭什么优化的时候可以把这个起点忽略掉浙江大学的团队用这个看似简单的洞察配合整流流本身的数学特性设计出了一套更忠实于真实生成过程的优化框架。这对普通用户意味着什么简单来说就是用更少的算力、更短的时间训练出对齐人类偏好效果更好的AI绘图模型。这意味着更低的开发成本意味着更快的技术迭代也意味着未来使用AI工具创作图像时你得到的结果会更接近你真正想要的样子。当然更好的图像生成能力也是一把双刃剑。研究团队在论文中专门讨论了潜在的伦理风险更逼真的图像可能被用于制造虚假内容、侵犯隐私或产生版权纠纷偏好优化如果依赖有偏差的评分数据也可能固化和放大特定的审美偏见。这些问题的答案需要技术社区和社会一起探索。有兴趣深入了解完整推导和实验细节的读者可以通过arXiv编号2605.09433查阅原论文。---QAQ1PNAPO和Diffusion-DPO的根本区别是什么ADiffusion-DPO在优化时随机抽取一个全新的初始噪点来还原生成路径和真实生成图片时用的那个噪点完全不同路径估计存在偏差。PNAPO的做法是在生成训练图片时就把初始噪点一起保存下来优化时直接用真实的起点-终点对来通过线性插值还原中间状态路径估计更准确训练效率因此提高了约12倍。Q2PNAPO的动态正则化具体是怎么调节训练的A动态正则化把优化力度的系数β拆成三部分一个固定基础值、一个与两张对比图质量差距挂钩的因子差距越大推动力越强、一个随训练步数逐渐衰减的因子训练越深入越保守。三者相乘让模型在训练早期和面对明显质量差距时积极学习在训练后期逐渐收敛避免过度偏离原始模型。Q3PNAPO为什么只能用同一个模型生成的数据来训练自己A因为不同的图像生成模型内部使用的噪点分布机制不同噪点和图片之间的对应关系是模型特有的。用FLUX生成的噪点-图片对和SD3-M内部的生成逻辑对不上强行用来训练会导致路径信息不匹配反而引入更大误差。所以每个模型只能用自己生成的数据来进行PNAPO优化。