CVPR 26 最佳論文 | 谷歌 DeepMind 放大招：一個 Transformer 直接“看懂”動態(tài)世界，4D 重建速度飆到 200+ FPS

本文作者：陳淑瑜

2026-06-09 15:40

導(dǎo)語：它把 4D 場景理解，從“暴力全量輸出”，改成了 “統(tǒng)一接口、按需查詢”。

來源：“AI前沿速遞”公眾號

原文鏈接：https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w

當(dāng)我們看一段視頻時，看到的不只是“這一幀長什么樣”，而是一個不斷變化的 3D 世界：相機在動，物體在動，遮擋在發(fā)生，幾何關(guān)系也在不斷變化。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招：一個 Transformer 直接“看懂”動態(tài)世界，4D 重建速度飆到 200+ FPS

但過去的大多數(shù) 3D/4D 重建方法，依然在用一種偏“靜態(tài)”的方式理解世界：深度一個頭、位姿一個頭、點云一個頭、動態(tài)跟蹤再來一個系統(tǒng)，最后還要靠復(fù)雜的測試時優(yōu)化把這些模塊拼起來。

結(jié)果往往是：模型越來越重，推理越來越慢，一旦遇到動態(tài)場景，效果就開始掉鏈子。

最近，Google DeepMind 等機構(gòu)發(fā)布的論文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一個非常直接、但也非常有效的新框架：D4RT。

它的核心思想只有一句話：

不是把整段視頻所有結(jié)果一次性“密集解碼”出來，而是把視頻先編碼成一個全局場景表示，再按需查詢?nèi)我鈺r空點的 3D 位置。

換句話說，它把 4D 場景理解，從“暴力全量輸出”，改成了 “統(tǒng)一接口、按需查詢”。

這一步看起來簡單，實際上把 動態(tài) 4D 重建、點跟蹤、深度估計、相機位姿估計，甚至全像素跟蹤，都收攏到了同一個框架里。

如果把傳統(tǒng)方法比作“每次都要把整座城市完整建模一遍”，那么 D4RT 更像是先搭好一個可檢索的世界模型。

之后你問它：

“第 3 幀這個像素，在第 10 幀、以第 7 幀相機坐標(biāo)系表示時，它的 3D 位置在哪？”

它就能直接回答。

這也是論文名字里 “One D4RT at a Time” 的巧妙之處：它不是一次性把所有東西全算出來，而是一個查詢、一個查詢地把動態(tài)世界重建出來。

接下來看看它到底是怎么做的。

一、一個統(tǒng)一接口，打通 4D 重建、深度、跟蹤和相機位姿

D4RT 的主體是一個非常清晰的 編碼器-解碼器結(jié)構(gòu)。

先給定輸入視頻：

編碼器提取全局場景表示：

這里的可以理解為整段視頻壓縮后的 “全局時空記憶”。

然后，模型定義一個查詢：

其中：

? 是源幀中的 2D 像素位置；
? 是這個點來自哪一幀；
? 是你想查詢它在哪個時間點的狀態(tài)；
? 是你希望結(jié)果落在哪個相機坐標(biāo)系下。

最后，解碼器直接輸出這個點的 3D 位置：

這套設(shè)計最妙的地方在于，它把 “空間位置”“時間狀態(tài)”“參考坐標(biāo)系” 徹底解耦了。

你不再需要為深度、點云、跟蹤、位姿分別寫一套任務(wù)頭，只需要換一下查詢方式，同一個模型就能完成不同任務(wù)。

更進(jìn)一步，論文還給出了相機位姿和內(nèi)參的求法。

對于相機外參，作者構(gòu)造兩組查詢：

這樣就能得到同一批 3D 點在兩個參考坐標(biāo)系下的表示，再通過剛體變換估計相對位姿。

對于相機內(nèi)參，在針孔模型假設(shè)下，焦距可以由預(yù)測點坐標(biāo)直接反推：

這意味著 D4RT 并不是“只能做點跟蹤”，而是真正把動態(tài)場景里的 幾何、運動和相機 都納入了一個統(tǒng)一解碼框架。

一句話總結(jié)：

別的方法是“一個任務(wù)一套頭”，D4RT 是“一個接口全包”。

二、為什么它會快這么多

這篇論文最讓人眼前一亮的，不只是統(tǒng)一，還在于效率。

很多 4D 方法在推理階段慢得離譜，本質(zhì)原因是它們要么依賴多模型拼接，要么需要密集逐幀解碼，要么查詢成本太高。

D4RT 反其道而行之：

? 查詢是稀疏的；
? 解碼器是輕量的；
? 每個查詢彼此獨立。

論文中還提出了一個基于占據(jù)網(wǎng)格的全像素跟蹤加速策略：

它只從還沒訪問過的像素發(fā)起新軌跡，從而把密集跟蹤的代價大幅壓縮。作者報告，這個策略能帶來 5-15 倍的自適應(yīng)加速。

更夸張的是，在相機位姿估計上，D4RT 直接把速度和精度同時拉高。

這其實特別關(guān)鍵。

因為視頻 4D 理解最怕的不是“論文指標(biāo)不夠高”，而是 “指標(biāo)高但根本跑不動”。

D4RT 的意義在于，它第一次把動態(tài) 4D 重建推到了一個真正 可擴展、可部署 的效率區(qū)間。

三、動態(tài)場景里，它終于不再“看花眼”

動態(tài)場景一直是 3D 重建最難的部分。

靜態(tài)世界里，物體不動，圖像間匹配還能靠多視圖幾何硬撐；但只要天鵝游起來、火車開起來、人物走起來，很多傳統(tǒng)方法就會出現(xiàn)明顯問題：

? 動態(tài)物體被重復(fù)重建；
? 動態(tài)目標(biāo)直接丟失；
? 只能跟蹤第一幀可見點，后續(xù)遮擋區(qū)域徹底斷裂。

而 D4RT 的優(yōu)勢，恰恰就在這里體現(xiàn)得最明顯。

這張圖其實就是整篇論文最想講明白的一件事：

過去的方法，要么會重建，但不會理解動態(tài)；要么會跟蹤動態(tài)，但重建不完整。

D4RT 第一次把 “動態(tài)理解” 和 “整體重建” 真正統(tǒng)一了。

四、核心定量結(jié)果：D4RT 在點云和視頻深度上都沖到了第一梯隊

這張表很說明問題。

在最難的動態(tài)場景 Sintel 上，D4RT 的點云誤差直接從 1.x 量級打到 0.768；在視頻深度上，也把 AbsRel 壓到了當(dāng)前最優(yōu)水平附近甚至更優(yōu)。

如果只看靜態(tài)場景，很多方法都還能勉強“卷一卷”；但一旦進(jìn)入動態(tài)場景，D4RT 的領(lǐng)先幅度會明顯變大。

這也從側(cè)面說明，它真正學(xué)到的是 時空一致的 4D 表示，而不是靜態(tài)幾何的拼接近似。

五、它不只會“看大結(jié)構(gòu)”，還保住了細(xì)節(jié)

很多統(tǒng)一模型都會遇到一個經(jīng)典問題：一旦過于追求全局建模，局部邊界和細(xì)節(jié)就容易糊。

D4RT 為了解決這個問題，在查詢中額外加入了 局部 RGB patch 的外觀嵌入。

論文發(fā)現(xiàn)，這個設(shè)計非常值。

說明：
Figure 6 在 arXiv HTML 中為復(fù)合圖，直接展示為細(xì)節(jié)保真實驗圖，適合放在“細(xì)節(jié)保留”部分。

六、一個小設(shè)計，為什么能帶來這么大提升

這張表特別值得注意。

因為它說明 D4RT 的性能提升，不只是來自“大模型 + 大算力”，而是來自一個非常扎實的設(shè)計判斷：

全局場景表示負(fù)責(zé)理解時空結(jié)構(gòu)，局部 patch 負(fù)責(zé)補足紋理和邊界細(xì)節(jié)。

兩者一結(jié)合，模型才真正做到：

既懂世界，又看得清局部。

七、為什么說它不是“功能拼盤”，而是真統(tǒng)一

這也是為什么我會覺得，這篇工作真正重要的不是“又刷了一個榜”，而是它把 4D 視頻理解重新整理了一遍：

不是更多模塊，不是更復(fù)雜 pipeline，而是用一個足夠干凈的接口，把原本分裂的任務(wù)收攏到了同一套表示里。

八、最后一句

如果說過去的視頻理解，更多是在做 “逐幀視覺 + 后處理補丁”，那么 D4RT 往前邁出的一步是：

讓模型第一次開始像在理解一個連續(xù)變化的 4D 世界。

它看到的不再只是某一幀里“這里有個點”，而是這個點來自哪里、會運動到哪里、該落在哪個坐標(biāo)系里，以及它與整個動態(tài)場景的關(guān)系。

統(tǒng)一、準(zhǔn)確、可擴展，還足夠快。

這可能就是動態(tài) 4D 重建下一階段最重要的方向。

文末摘要

1. 論文提出 D4RT，用統(tǒng)一查詢接口完成動態(tài) 4D 重建、點跟蹤、深度估計和相機參數(shù)恢復(fù)。
2. 核心公式是先編碼整段視頻得到全局場景表示：

再通過查詢：

解碼目標(biāo) 3D 點：

3. 在動態(tài)場景上，D4RT 同時解決了 “純重建不會跟動態(tài)、純跟蹤又重建不完整” 的老問題。
4. 在位姿估計上達(dá)到 200+ FPS，比 VGGT 快約 9 倍，比 MegaSaM 快約 100 倍。
5. 在 Sintel 等高難動態(tài)基準(zhǔn)上，點云與視頻深度結(jié)果進(jìn)入 SOTA 第一梯隊。

論文信息

論文標(biāo)題：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

論文地址：https://arxiv.org/abs/2512.08924

0人收藏

相關(guān)文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招：一個 Transformer 直接“看懂”動態(tài)世界，4D 重建速度飆到 200+ FPS

原文鏈接：https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w

一、一個統(tǒng)一接口，打通 4D 重建、深度、跟蹤和相機位姿

二、為什么它會快這么多

三、動態(tài)場景里，它終于不再“看花眼”

四、核心定量結(jié)果：D4RT 在點云和視頻深度上都沖到了第一梯隊

五、它不只會“看大結(jié)構(gòu)”，還保住了細(xì)節(jié)

六、一個小設(shè)計，為什么能帶來這么大提升

七、為什么說它不是“功能拼盤”，而是真統(tǒng)一

八、最后一句