CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω：前饋 3D 重建邁入 10B 參數(shù)時代，動態(tài)場景精度升 77%

本文作者：陳淑瑜

2026-05-28 14:50

導語：VGGT-Ω通過一套精妙的架構(gòu)改進，實現(xiàn)了對動態(tài)場景的高精度重建，在 Sintel 等極具挑戰(zhàn)性的基準測試中，將相機估計精度足足提升了 77%。

來源：公眾號“我愛計算機視覺”

原文鏈接：https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154

在計算機視覺領域，3D 重建一直被視為一項“硬核”任務。傳統(tǒng)的結(jié)構(gòu)從運動（Structure-from-Motion, SfM）算法往往需要復雜的離線優(yōu)化，而近年來興起的前饋重建模型雖然速度快，但在處理大規(guī)模數(shù)據(jù)和復雜動態(tài)場景時尚需提升。最近，來自牛津大學視覺幾何組（Visual Geometry Group, VGG）和 Meta AI 的研究團隊發(fā)布了全新的重建大模型 VGGT-Ω，試圖通過“規(guī)?；⊿caling）”的力量徹底改變這一現(xiàn)狀。

它不僅將參數(shù)量推向了 100 億（10B），更通過一套精妙的架構(gòu)改進，實現(xiàn)了對動態(tài)場景的高精度重建，在 Sintel 等極具挑戰(zhàn)性的基準測試中，將相機估計精度足足提升了 77%。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω：前饋 3D 重建邁入 10B 參數(shù)時代，動態(tài)場景精度升 77%

論文地址: https://arxiv.org/abs/2605.15195
項目主頁: https://vggt-omega.github.io
代碼倉庫: https://github.com/facebookresearch/vggt-omega
錄用信息: CVPR 2026 Oral

為什么重建也需要 Scaling Law？

在自然語言處理和 2D 視覺領域，我們已經(jīng)見證了模型性能隨數(shù)據(jù)和參數(shù)規(guī)模呈冪律增長的奇跡。但在 3D 視覺中，這種“規(guī)模效應”是否依然存在？

VGGT-Ω 的研究團隊發(fā)現(xiàn)，重建任務其實是學習空間理解表征的絕佳“代理任務”。通過訓練模型預測相機姿態(tài)和深度，模型被迫理解場景的幾何結(jié)構(gòu)、物體間的遮擋關系甚至是物體的運動規(guī)律。為了驗證這一猜想，團隊將模型從 2 億參數(shù)擴展到 100 億，并將訓練數(shù)據(jù)從幾千個序列增加到 400 萬個。實驗結(jié)果顯示：性能提升的曲線幾乎是一條完美的直線。

架構(gòu)的“減法”與“加法”

要在如此大規(guī)模的數(shù)據(jù)上訓練 10B 模型，原有的 VGGT 架構(gòu)顯然太重了。VGGT-Ω 通過對計算瓶頸的精準打擊，實現(xiàn)了效率與能力的雙重飛躍。

核心輸入與輸出流程

VGGT-Ω 作為一個前饋 Transformer 模型，其核心任務是將張輸入圖像直接映射為對應的相機參數(shù)和深度圖：

其中，是深度圖，包含了旋轉(zhuǎn)四元數(shù)、平移向量和視場角（Field of View, FoV）。

引入寄存器注意力（Register Attention）

研究人員觀察到，Vision Transformer（ViT）在處理圖像時，往往會自發(fā)地利用一小部分 Token 來攜帶全局信息。于是，VGGT-Ω 顯式地為每幀圖像添加了 16 個寄存器（Registers），也稱為“場景 Token”。

更有趣的設計在于寄存器注意力：在 25% 的全局注意力層中，不同幀之間的信息交換被嚴格限制在這些寄存器之間。這就像是開會時，每幀圖像只派代表（寄存器）去溝通，而不是所有人亂哄哄地擠在一起。這種設計不僅形成了有效的信息瓶頸，強制寄存器提取高層幾何特征，還讓訓練時的內(nèi)存消耗降低了約 70%。

顯存優(yōu)化的解碼頭

傳統(tǒng)的密集預測頭（如 DPT）在處理高分辨率特征圖時會消耗巨大的顯存。VGGT-Ω 的替代方案：在分辨率高于 1/4 的層級，使用單個 MLP 配合像素打亂（Pixel Shuffle）操作進行上采樣。這種設計在不損失精度的情況下，極大地降低了前向激活值的存儲成本。

此外，VGGT-Ω 簡化了多任務學習。它不再為點云和匹配特征設計獨立的密集解碼頭，而是在訓練時僅保留對應的損失函數(shù)（Loss）：

這意味著模型在“腦子里”學會了這些能力，但不需要在輸出端浪費顯存去顯式表達。

4000 萬視頻中淘出的“金礦”

數(shù)據(jù)是 Scaling 的燃料。研究團隊構(gòu)建了一個嚴苛的自動化標注流水線，將互聯(lián)網(wǎng)上的海量視頻轉(zhuǎn)化為高質(zhì)量的 3D 訓練素材。

VLM 預過濾：利用視覺語言模型（VLM）剔除掉 50% 的“垃圾視頻”（如剪輯、特效、無意義轉(zhuǎn)場）。
動態(tài)掩碼提取：使用 Grounding DINO 識別行人、車輛等可能在運動狀態(tài)的物體，確保幾何校驗時避開這些區(qū)域。
一致性校驗：通過多視圖幾何一致性檢查（重投影誤差等），僅保留那些能夠被精準重建的片段。

最終，他們從 4000 萬個視頻中篩選出了 80 萬個高質(zhì)量序列，其中約三分之一包含動態(tài)內(nèi)容。結(jié)合現(xiàn)有的合成數(shù)據(jù)集，VGGT-Ω 擁有了高達 400 萬 個帶有精確 3D 標注的訓練序列，規(guī)模是前作的 15 倍以上。

性能表現(xiàn)：動態(tài)重建的新標桿

VGGT-Ω 的強大在動態(tài)場景中體現(xiàn)得淋漓盡致。在 Sintel 這種充滿劇烈運動的基準測試中，刷新了性能表現(xiàn)。

定量評估：刷新多項紀錄

在相機姿態(tài)估計方面，VGGT-Ω 在 Sintel 數(shù)據(jù)集上的 AUC@3° 指標從此前 SOTA 的 22.5 提升到了 40.0，相對提升高達 77%。在深度估計方面，AbsRel（平均絕對相對誤差）也大幅下降。

定性對比：魯棒性提升

面對重復紋理（如雪地）或劇烈的相機翻轉(zhuǎn)，此前的標桿模型如 Depth Anything 3 可能會出現(xiàn)嚴重的“重影”或軌跡丟失，而 VGGT-Ω 依然能保持全局幾何的一致性。

在推理速度上，得益于 DINOv3 的 16-pixel patch size 和寄存器注意力機制，VGGT-Ω 在處理 1000 幀以上的長視頻時，速度和顯存表現(xiàn)均優(yōu)于同類模型。

深入洞察：模型內(nèi)部發(fā)生了什么？

除了精度提升，研究團隊還通過一系列有趣的實驗揭示了 10B 大模型的內(nèi)在特性。

寄存器的語義對齊

VGGT-Ω 學到的“寄存器”特征不僅包含幾何信息，還具有語義通用性。研究人員將模型凍結(jié)，將其場景 Token 作為 視覺語言動作模型（Vision-Language-Action, VLA） 的額外輸入。在 LIBERO 機器人操作基準測試中，這一簡單的操作就讓平均成功率從 97.1% 提升到了 98.5%。

此外，通過對比學習，這些寄存器甚至可以與自然語言對齊，實現(xiàn)“用文字檢索 3D 場景”。

“涌現(xiàn)”出的運動感知

更有趣的是，即使沒有顯式的運動監(jiān)督，模型內(nèi)部的特征也能清晰地將移動的舞者與靜止的背景區(qū)分開來。這說明在學習“如何重建”的過程中，模型自發(fā)地理解了“什么是運動”。

數(shù)據(jù)質(zhì)量的“坑”

在構(gòu)建 4M 數(shù)據(jù)集的過程中，團隊也總結(jié)了許多寶貴的教訓。例如，傳感器數(shù)據(jù)中常見的“前景泄露”、合成數(shù)據(jù)中的“薄結(jié)構(gòu)失效”以及 SfM 優(yōu)化中常見的“圓頂效應（Doming Effect）”。這些噪聲如果處理不好，會直接導致模型在特定場景下產(chǎn)生幻覺。