当前位置: 首页 > news >正文

3D重建模型“会看”不会“改”?VGGT-Edit最高120倍加速,让3D编辑接近实时交互

【导语:当前3D重建模型虽能快速重建3D场景,但在编辑3D世界方面存在难题。来自多机构的研究团队提出原生3D编辑框架VGGT-Edit,在多个维度超越现有方法,让3D编辑接近实时交互。】


3D重建模型编辑难题待解

从NeRF到83D Gaussian Splatting等前馈式3D重建模型,进展迅速,能几秒内用几张图片重建完整3D场景。然而,这些模型能理解三维世界,却难以修改,涉及复杂编辑时,现有方法易崩溃,如椅子视角不一致、背景变形等,这对机器人、AR/VR等场景是致命问题。

VGGT-Edit:原生3D编辑新思路

VGGT-Edit核心思路是直接在3D空间完成编辑,基于VGGT-Like前馈式重建模型,采用残差场预测机制,保留原始场景稳定3D结构,只学习局部变化,让未改动背景区域更稳定。

其还设计了深度同步文本注入机制,让文本语义和3D空间特征在同一深度层级持续同步,同时有视角重要性加权,使多视角编辑结果更稳定。

专为3D编辑设计的编辑头与数据集

VGGT-Edit有专门面向3D编辑任务的编辑头,额外设计编辑分支预测场景局部变化,学习哪些区域保持不变、哪些需编辑及编辑后多视角一致,让VGGT-Like模型具备编辑能力。

团队构建了规模接近10万组的DeltaScene数据集,覆盖多种场景,数据生成流程高度自动化,确保模型学习不同视角下的空间一致。

性能提升:接近实时交互与理解空间变化

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度超现有方法,单次编辑约5秒,最高实现120倍加速,让3D编辑接近实时交互。

实验显示,输入训练中未出现的指令,模型也能成功编辑,说明它开始理解文本语义到3D空间变化的映射,推动3D编辑向自由、稳定、实时修改世界迈进。

编辑观点:VGGT-Edit解决了3D重建模型编辑难题,其创新机制和高效性能为3D编辑带来突破,有望推动机器人、AR/VR等领域发展。

http://www.zskr.cn/news/1406747.html

相关文章:

  • SpringBoot+Vue宠物医院项目实战:从零到部署,手把手教你搞定RBAC权限与多端登录
  • 从补丁到注册表:Win10打印机共享连接故障的深度排查与修复指南
  • 2026年10款降AIGC网站横评:最高AI率100%直降至0.12% - 降AI小能手
  • 营收暴增68%,利润却腰斩,宇树科技的IPO是“真香”还是“惊吓”?
  • 2026年BarTender公司推荐:五大王牌排名实测 - 资讯纵览
  • 软硬协同噪声抑制:从硬件滤波到智能优化VMD的工程实践
  • 鸣潮游戏自动化终极指南:如何用智能助手解放双手,实现高效后台运行
  • FSearch:Linux上3秒找到任何文件的终极搜索方案
  • AntiDupl终极指南:免费开源智能图片去重工具完整使用教程
  • nvme-cli架构深度解析:现代NVMe管理工具的设计哲学与实践
  • 无锡灭老鼠|本地11年专业灭鼠,典雅虫控从根源解决鼠患不反弹 - 资讯纵览
  • MT7621平台WiFi6路由器刷机指南:以京东云鲁班/小米CR6606为例,解锁OpenWRT玩法
  • STM32H743模拟SMBUS读取BQ40Z50电量,我踩过的坑和波形图都在这了
  • 混合量子-经典UNet:用8量子比特突破图像分割参数壁垒
  • RTX 4090 Ti vs A100 规格对比表 ai算力对比,来源https://hmc-tech.com/
  • Python技术周刊 2026年第17周
  • 从宪法AI到无损扩展:深度解析Claude模型的技术架构与工程实践
  • FPGA虚拟化运行时系统:实现云端硬件加速资源高效共享
  • 整合Taotoken至OpenClaw框架实现自动化AI工作流
  • 网络工程师的英语水平,到底需要到什么程度?
  • 高频SSVEP脑机接口:基于相位同步梳状滤波器的鲁棒解码方案
  • DDrawCompat:让经典游戏在现代Windows上完美运行的终极兼容方案
  • 手把手教你用Vivado 2019.2搭建FPGA数字AGC系统(附完整Verilog代码和Testbench)
  • 保姆级教程:在RK3588开发板上搞定GT9XX触摸屏驱动(附常见问题修复)
  • 数据可视化平台Superset(部署实战篇)
  • WarcraftHelper终极指南:让魔兽争霸3在现代电脑上流畅运行的必备工具
  • 知乎算法最新变动下,ChatGPT回答如何逃过“低质识别”?,2024Q2平台审核白皮书深度适配指南
  • 终极指南:如何用Squirrel-RIFE让任何视频流畅度翻倍
  • 2026年会议总结工具横评:会议录音转文字做总结10分钟搞定
  • 在Node.js后端项目中集成稳定的大模型API,实现智能客服回复