当前位置: 首页 > news >正文

扩散模型diffusion

扩散模型(Diffusion Models)是最近生成式 AI领域的绝对核心,近年来,只要涉及AI生成视频、图像,它的底层原理几乎都绕不开diffusion

Diffusion与GAN

在扩散模型之前,GAN 的逻辑是“一步到位”。给生成器一个随机噪声,要求它立刻输出一张完美的 4K 图像。这就像让一个刚学画画的学徒,闭着眼睛一笔画出一幅《蒙娜丽莎》。由于难度太高,生成器经常崩溃,或者只能翻来覆去画它最擅长的那几笔(Mode Collapse)。

而扩散模型把这个极难的任务,拆解成了 1000 步的微小去噪任务

  • 它不要求神经网络凭空捏造一张图片,而只要求它“把眼前这张带点噪声的图,变得稍微清晰那么一点点”。

  • 对神经网络来说,在每一步预测噪声的数学难度,远远小于直接生成图像。通过 1000 次微小的修正,错误在每一步都被不断校正,最终积少成多,化腐朽为神奇。

扩散模型的工作原理

  • 始于随机噪声:扩散模型不是从空白画布开始,而是从充满纯静态或随机噪声的"画布"起步,就像老式电视的雪花屏

  • 渐进去噪:通过许多小步骤,每次尝试去除少量噪声,使图像或视频略微清晰

  • 指令引导:每个步骤都使用文本调节器生成的数字编码作为引导,确保去噪过程朝着预期画面发展

  • 精炼成连贯视频:经过多次去噪后,随机噪声转变为可识别的高质量视频序列

扩散模型的核心训练过程

forward process

这个过程不需要训练,它是一个纯粹的数学公式。

我们从一张真实的图片x0 开始,每一步都向其中添加一点点极其微小的高斯噪声。随着步数t(通常是 1000 步)的增加,图片中的结构信息彻底消失。

核心细节:数学上有一个非常优雅的推导,使得我们不需要真的模拟 1000 次加噪。我们可以直接通过一个公式,一步到位计算出第 t 步加噪后的图片是什么样。最终的 xt会变成一个符合标准正态分布N(0,I) 的纯噪声

reverse process

这是扩散模型需要投入海量算力去训练的部分。

既然 xt 是一堆纯噪声,我们想把它还原。但是,从噪声还原图片的路径有无数条,神经网络(通常是U-Net架构)要做的,就是预测在前向过程中,当前这一步到底加入了多少噪声

一旦神经网络成功“猜”出了当前步的噪声,我们就可以把这部分噪声减掉,从而逆向推导回上一步稍微清晰一点的图片 x(t-1)。如此循环 1000 步,就能凭空生成一张高质量的全新图像。

http://www.zskr.cn/news/1378979.html

相关文章:

  • 终极免费音乐解锁工具:如何一键解密QQ音乐、网易云音乐的加密文件
  • 三步搞定:让你的小爱音箱秒变AI语音助手终极指南
  • 终极GitHub访问优化指南:一键解决网络瓶颈的完整方案
  • Java 第七章第八章 案例教程
  • Java 第三章第四章 案例教程
  • 基因组连锁不平衡分析终极指南:LDBlockShow让复杂数据可视化变得简单
  • 哔哩下载姬DownKyi完整指南:快速获取B站高清视频的终极方案
  • 用Rocky DEM复刻经典物理实验:手把手教你搭建高尔顿板模拟正态分布
  • 终极Nintendo Switch破解指南:5步安装大气层系统完整教程
  • NS-USBLoader:5分钟掌握Switch文件传输与RCM注入的全能工具
  • 2026年AI大模型与编程工具全景对比:谁最强?谁最值?
  • 别再画错了!Qt QPainter的drawArc函数,从3点钟方向开始的秘密
  • 初创团队如何借助Taotoken以低成本快速验证AI产品创意
  • 10分钟掌握D3KeyHelper:告别手酸,暗黑3游戏效率翻倍的终极指南
  • LoRaWAN 网关选型完全实战指南:从芯片到部署
  • MSP430 实战教程-01:MSP430 过时了吗?2026 年深度解析
  • 终极指南:3分钟为网易云音乐解锁无限插件功能
  • 模型评估面试考点|准确率、精确率、召回率、F1、AUC
  • 钉钉飞书移动端渗透测试实战:红队协同作战手册
  • 2026年C/C++/C#全解析:底层语言的进化与场景抉择,选错直接掉队
  • C++动态数组两种实现方式详解(std::vector vs malloc)
  • 024、NPU指令集架构(ISA)概述:从CISC到VLIW
  • RedisDesktopManager Windows版:3分钟掌握免费Redis可视化工具,告别命令行操作!
  • 023、深度可分离卷积:MobileNet背后的计算优化
  • 028、片上SRAM vs 片外DRAM:NPU存储设计的权衡
  • 026、DMA引擎:NPU与外部存储的数据搬运工
  • 单向晶闸管开关电路基础知识及Multisim电路仿真
  • 基于孪生卷积神经网络的星系团速度图相似性度量与匹配
  • Android 深度电量优化实战:聚焦后台任务、Alarm 与 WorkManager 的现代解决方案
  • 如何快速掌握Diablo Edit2:暗黑破坏神2存档修改终极指南