当前位置：首页 > news >正文

三维视觉新突破：字节Seed推出DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP填补6D姿态估计工业数据空白

news 2026/6/11 15:28:42

从视觉输入中感知和理解三维空间信息的能力，是空间智能的基石，也是机器人与混合现实（Mixed Reality，ML）等应用的关键需求。这一基础能力催生了多种三维视觉任务，例如单目深度估计（Monocular Depth Estimation）、运动恢复结构（Structure from Motion）、多视图立体视觉（Multi-View Stereo）以及同步定位与建图（Simultaneous Localization and Mapping）。

这些任务往往仅因输入视图数量等个别因素而产生差异，因此在概念上具有高度的重叠性，但目前的主流范式仍是为每项任务开发高度专用的模型。构建能够统一处理多项任务的三维理解模型，已成为重要的研究方向。但现有的解决方案通常依赖于复杂而定制的网络架构，并通过多任务联合优化进行从零训练，因而难以充分吸收和利用大规模预训练模型的知识与优势。

基于此，字节跳动 Seed 团队推出了 Depth Anything 3（DA3），一个经专门训练、基于特定射线表示的单一 Transformer 模型，能够联合任意视角深度和姿态估计。在追求建模极简化的过程中，DA3 带来两个关键发现：

*仅使用一个标准 Transformer（例如 vanilla DINO 编码器）即可作为骨干网络，无需任何任务特定的结构定制；

*仅通过单一的深度射线预测目标，即可实现优异性能，无需复杂的多任务学习机制。

研究团队还建立了涵盖摄像机姿态估计、任意视角几何和视觉渲染的新视觉几何基准。在该测试中，DA3 在所有任务中刷新 SOTA，相机姿态准确率平均比 VGGT 高出 35.7%，几何精度提升 23.6%，单目深度估计方面优于前代模型 DA2。实验表明，这种极简方法足以从任意数量（无论相机姿态是否已知）的图像中重建视觉空间。

目前，HyperAI超神经官网已上线了「Depth-Anything-3：从任何视角恢复视觉空间」，快来试试吧~

在线使用：https://go.hyper.ai/MXyML

12 月 15 日-12 月 19 日，hyper.ai 官网更新速览：

* 优质教程精选：3 个

* 热门百科词条：5 条

* 1 月截稿顶会：11 个

访问官网：hyper.ai

公共教程精选

1. Depth-Anything-3：从任何视角恢复视觉空间

Depth-Anything-3（DA3）是由 ByteDance-Seed 团队发布的突破性视觉几何模型，以「极简建模」理念革新视觉几何任务：仅采用单一普通 Transformer（如 vanilla DINO 编码器）作为骨干网络，通过「深度射线表示」替代复杂多任务学习，即可从任意视觉输入（已知/未知相机姿态均可）中预测空间一致的几何结构。

在线运行：https://go.hyper.ai/MXyML

效果示例

2. MarkItDown 微软开源的文档转换工具

MarkItDown 是由 Microsoft 团队推出的轻量级、即插即用式 Python 文档转换工具。它旨在将各类常见文档与富媒体格式高效、结构化地转换为 Markdown ，专门为大语言模型（LLM）的文本理解与分析流水线提供优化的输入格式。

在线运行：https://go.hyper.ai/7WIGP

效果示例

3. Chandra：高精度文档 OCR

Chandra 是由 Datalab-to 团队开发的高精度文档 OCR（Optical Character Recognition）系统，专注于文档布局感知和文本抽取。Chandra 可直接处理 PDF 和图像文件，生成结构化文本、Markdown 和 HTML 输出，同时提供可视化布局图，便于检查 OCR 结果。

在线运行：https://go.hyper.ai/nZhF5

效果示例

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD教程】，入群探讨各类技术问题、分享应用效果~

热门百科词条精选

1. 核范数 Nuclear Norm

2. 双向长短期记忆 Bi-LSTM

3. 地面真实值 Ground Truth

4. 具身导航 Embodied Navigation

5. 每秒帧数 Frames Per Second (FPS)

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

1 月截稿顶会