当前位置：首页 > news >正文

VGGT: Visual Geometry Grounded Transformer

news 2026/5/26 15:05:52

VGGT: Visual Geometry Grounded Transformer

VGGT（CVPR'25）：基于预训练模型抽取特征，通过网络预测3D场景的多种信息。
代码仓库
注：笔者对3D场景重建相关领域工作并不熟悉，仅记录自己的理解。

动机

本文希望实现一个能够端到端从单图或多图预测多种3D场景信息的模型，输出结果包括相机参数、点云图、深度图和3D点轨迹。

方法

本文设定的场景为通过一个图片序列预测3D场景信息。该图片序列理论上是可以任意顺序输入，不过实际实现中是以第一帧为参考。

对于每帧图像，通过DINO提取特征，获得对应每帧图像的token序列。随后再在帧token序列上添加一个相机token和四个register token，作为可学习参数。

随后将组合的特征送入一个改装的自注意力模块，交替进行全局自注意力和帧内自注意力。输出的特征向量分解为相机token及图像特征，送入相应的后续网络完成后续任务。

训练方面似乎更多参照了已有工作，笔者对相关领域不太了解，详细内容请见原文。

实验

具有优秀的重建结果，在多种任务上达到了SOTA水平，详见原文。

总结

按照笔者的理解，本文的突出贡献主要在于完成了一个端到端的3D场景重建模型，能够输出多种信息。从技术角度理解，是利用自监督预训练模型提取的特征构建网络预测目标信息。

查看全文

http://www.zskr.cn/news/12348.html

[新教程] Linux服务器修改ssh服务端口

《嵌入式驱动（二）：驱动编写基本概念》

程序员的内容创作利器：深度解析小红书爆款笔记生成提示词

Unigine整合Myra UI Library全纪录（2）：渲染

元人文AI：为价值创新构筑“舞台”、订立“契约”、预演“未来”

设计一个关于python的if 语句的练习题

python调试方法：验证安装路径与路径配置

易路一站式智能招聘，开启人才管理新纪元

kingbase数据库SHELL端迁移工具访问及使用

微信个人号api|搭建高效微信机器人系统

[fakeadmin]-（session伪造flask框架）-CTF

新方向 - MKT

PP-OCRv5 C++ 基准测试工具：打造高性能OCR评测标杆 - 详解

翻斗幼儿园历险记-CTF-WP

完整教程：HTTP安全响应头--CSP（Content-Security-Policy）

Experiment1

Linux系统提权-web/普通用户-docker逃逸提权shell交互

暴力拓客游戏小程序：助力商家高效引流与裂变的智能解决方案

第二类斯特林数

扫码签到赢大奖小程序：助力多场景获客的智能营销工具

企业级 AI 应用开发首选！JBoltAI 框架适配 Java 技术栈，稳定可靠

AIGS架构革命：JBoltAI如何重塑Java企业的AI服务生态

RAG技术赋能企业数智化转型：JBoltAI如何破解AI落地“最后一公里”难题

Java 团队转型 AI 开发难？JBoltAI 框架帮你节省 4-6 个月研发成本

IntelliJ IDEA 查找和替换使用指南 - 详解

完整教程：探索 Event 框架实战指南：微服务系统中的事件驱动通信：

VGGT: Visual Geometry Grounded Transformer

动机

方法

实验

总结

相关文章：