当前位置: 首页 > news >正文

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

VGGT(CVPR'25):基于预训练模型抽取特征,通过网络预测3D场景的多种信息。
代码仓库
注:笔者对3D场景重建相关领域工作并不熟悉,仅记录自己的理解。

动机

本文希望实现一个能够端到端从单图或多图预测多种3D场景信息的模型,输出结果包括相机参数、点云图、深度图和3D点轨迹。

方法

img

本文设定的场景为通过一个图片序列预测3D场景信息。该图片序列理论上是可以任意顺序输入,不过实际实现中是以第一帧为参考。

对于每帧图像,通过DINO提取特征,获得对应每帧图像的token序列。随后再在帧token序列上添加一个相机token和四个register token,作为可学习参数。

随后将组合的特征送入一个改装的自注意力模块,交替进行全局自注意力和帧内自注意力。输出的特征向量分解为相机token及图像特征,送入相应的后续网络完成后续任务。

训练方面似乎更多参照了已有工作,笔者对相关领域不太了解,详细内容请见原文。

实验

img

具有优秀的重建结果,在多种任务上达到了SOTA水平,详见原文。

总结

按照笔者的理解,本文的突出贡献主要在于完成了一个端到端的3D场景重建模型,能够输出多种信息。从技术角度理解,是利用自监督预训练模型提取的特征构建网络预测目标信息。

http://www.zskr.cn/news/12348.html

相关文章:

  • [新教程] Linux服务器修改ssh服务端口
  • 《嵌入式驱动(二):驱动编写基本概念》
  • 程序员的内容创作利器:深度解析小红书爆款笔记生成提示词
  • Unigine整合Myra UI Library全纪录(2):渲染
  • 元人文AI:为价值创新构筑“舞台”、订立“契约”、预演“未来”
  • 设计一个关于python的if 语句的练习题
  • python调试方法:验证安装路径与路径配置
  • 易路一站式智能招聘,开启人才管理新纪元
  • kingbase数据库SHELL端迁移工具访问及使用
  • 微信个人号api|搭建高效微信机器人系统
  • [fakeadmin]-(session伪造flask框架)-CTF
  • 新方向 - MKT
  • PP-OCRv5 C++ 基准测试工具:打造高性能OCR评测标杆 - 详解
  • 翻斗幼儿园历险记-CTF-WP
  • 完整教程:HTTP安全响应头--CSP(Content-Security-Policy)
  • Experiment1
  • Linux系统提权-web/普通用户-docker逃逸提权shell交互
  • 暴力拓客游戏小程序:助力商家高效引流与裂变的智能解决方案
  • 第二类斯特林数
  • 扫码签到赢大奖小程序:助力多场景获客的智能营销工具
  • docker 镜像/容器
  • jmeter命令行参数详细解释
  • 神秘考试题
  • 华三交换机升级版本步骤
  • 企业级 AI 应用开发首选!JBoltAI 框架适配 Java 技术栈,稳定可靠
  • AIGS架构革命:JBoltAI如何重塑Java企业的AI服务生态
  • RAG技术赋能企业数智化转型:JBoltAI如何破解AI落地“最后一公里”难题
  • Java 团队转型 AI 开发难?JBoltAI 框架帮你节省 4-6 个月研发成本
  • IntelliJ IDEA 查找和替换使用指南 - 详解
  • 完整教程:探索 Event 框架实战指南:微服务系统中的事件驱动通信: