97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS

本文作者: 陳淑瑜   2026-06-09 15:40
導(dǎo)語:它把 4D 場景理解,從“暴力全量輸出”,改成了 “統(tǒng)一接口、按需查詢”。

 

來源:“AI前沿速遞”公眾號

原文鏈接:https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w


當(dāng)我們看一段視頻時,看到的不只是“這一幀長什么樣”,而是一個不斷變化的 3D 世界:相機在動,物體在動,遮擋在發(fā)生,幾何關(guān)系也在不斷變化。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS

但過去的大多數(shù) 3D/4D 重建方法,依然在用一種偏“靜態(tài)”的方式理解世界:深度一個頭、位姿一個頭、點云一個頭、動態(tài)跟蹤再來一個系統(tǒng),最后還要靠復(fù)雜的測試時優(yōu)化把這些模塊拼起來。

結(jié)果往往是:模型越來越重,推理越來越慢,一旦遇到動態(tài)場景,效果就開始掉鏈子。

最近,Google DeepMind 等機構(gòu)發(fā)布的論文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一個非常直接、但也非常有效的新框架:D4RT。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS

它的核心思想只有一句話:

不是把整段視頻所有結(jié)果一次性“密集解碼”出來,而是把視頻先編碼成一個全局場景表示,再按需查詢?nèi)我鈺r空點的 3D 位置。

換句話說,它把 4D 場景理解,從“暴力全量輸出”,改成了 “統(tǒng)一接口、按需查詢”。

這一步看起來簡單,實際上把 動態(tài) 4D 重建、點跟蹤、深度估計、相機位姿估計,甚至全像素跟蹤,都收攏到了同一個框架里。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖1:D4RT 是一個統(tǒng)一、高效的動態(tài) 4D 重建與跟蹤框架,可通過單一接口輸出點云、點軌跡和相機參數(shù)

如果把傳統(tǒng)方法比作“每次都要把整座城市完整建模一遍”,那么 D4RT 更像是先搭好一個可檢索的世界模型。

之后你問它:

“第 3 幀這個像素,在第 10 幀、以第 7 幀相機坐標(biāo)系表示時,它的 3D 位置在哪?”

它就能直接回答。

這也是論文名字里 “One D4RT at a Time” 的巧妙之處:它不是一次性把所有東西全算出來,而是一個查詢、一個查詢地把動態(tài)世界重建出來。

接下來看看它到底是怎么做的。


一、一個統(tǒng)一接口,打通 4D 重建、深度、跟蹤和相機位姿

D4RT 的主體是一個非常清晰的 編碼器-解碼器結(jié)構(gòu)。

先給定輸入視頻:

編碼器提取全局場景表示:

這里的  可以理解為整段視頻壓縮后的 “全局時空記憶”。

然后,模型定義一個查詢:

其中:

  •  是源幀中的 2D 像素位置;
  •  是這個點來自哪一幀;
  •  是你想查詢它在哪個時間點的狀態(tài);
  •  是你希望結(jié)果落在哪個相機坐標(biāo)系下。

最后,解碼器直接輸出這個點的 3D 位置:

這套設(shè)計最妙的地方在于,它把 “空間位置”“時間狀態(tài)”“參考坐標(biāo)系” 徹底解耦了。

你不再需要為深度、點云、跟蹤、位姿分別寫一套任務(wù)頭,只需要換一下查詢方式,同一個模型就能完成不同任務(wù)。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖2:D4RT 總體框架圖。輸入視頻先被編碼成全局場景表示,再通過輕量解碼器查詢?nèi)我鈺r空點的 3D 位置

更進(jìn)一步,論文還給出了相機位姿和內(nèi)參的求法。

對于相機外參,作者構(gòu)造兩組查詢:

這樣就能得到同一批 3D 點在兩個參考坐標(biāo)系下的表示,再通過剛體變換估計相對位姿。

對于相機內(nèi)參,在針孔模型假設(shè)下,焦距可以由預(yù)測點坐標(biāo)直接反推:

這意味著 D4RT 并不是“只能做點跟蹤”,而是真正把動態(tài)場景里的 幾何、運動和相機 都納入了一個統(tǒng)一解碼框架。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
表1:統(tǒng)一解碼接口。通過改變查詢中 $u,v,t_{src},t_{tgt},t_{cam}$ 的取值方式,同一個模型接口就能完成多種幾何任務(wù)

一句話總結(jié):

別的方法是“一個任務(wù)一套頭”,D4RT 是“一個接口全包”。


二、為什么它會快這么多

這篇論文最讓人眼前一亮的,不只是統(tǒng)一,還在于 效率。

很多 4D 方法在推理階段慢得離譜,本質(zhì)原因是它們要么依賴多模型拼接,要么需要密集逐幀解碼,要么查詢成本太高。

D4RT 反其道而行之:

  • 查詢是稀疏的;
  • 解碼器是輕量的
  • 每個查詢彼此獨立。

論文中還提出了一個基于占據(jù)網(wǎng)格的全像素跟蹤加速策略:

它只從還沒訪問過的像素發(fā)起新軌跡,從而把密集跟蹤的代價大幅壓縮。作者報告,這個策略能帶來 5-15 倍的自適應(yīng)加速。

更夸張的是,在相機位姿估計上,D4RT 直接把速度和精度同時拉高。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖3:位姿估計中的精度-速度對比。D4RT 同時實現(xiàn)更高精度和更高吞吐,在 A100 上達(dá)到 200+ FPS,比 VGGT 快約 9 倍,比 MegaSaM 快約 100 倍

這其實特別關(guān)鍵。

因為視頻 4D 理解最怕的不是“論文指標(biāo)不夠高”,而是 “指標(biāo)高但根本跑不動”。

D4RT 的意義在于,它第一次把動態(tài) 4D 重建推到了一個真正 可擴展、可部署 的效率區(qū)間。


三、動態(tài)場景里,它終于不再“看花眼”

動態(tài)場景一直是 3D 重建最難的部分。

靜態(tài)世界里,物體不動,圖像間匹配還能靠多視圖幾何硬撐;但只要天鵝游起來、火車開起來、人物走起來,很多傳統(tǒng)方法就會出現(xiàn)明顯問題:

  • 動態(tài)物體被重復(fù)重建
  • 動態(tài)目標(biāo)直接丟失;
  • 只能跟蹤第一幀可見點,后續(xù)遮擋區(qū)域徹底斷裂。

而 D4RT 的優(yōu)勢,恰恰就在這里體現(xiàn)得最明顯。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖4:不同方法在動態(tài)場景中的重建效果對比。D4RT 是唯一能夠完整重建全視頻所有像素 4D 表示的方法

這張圖其實就是整篇論文最想講明白的一件事:

過去的方法,要么會重建,但不會理解動態(tài);要么會跟蹤動態(tài),但重建不完整。

D4RT 第一次把 “動態(tài)理解” 和 “整體重建” 真正統(tǒng)一了。


四、核心定量結(jié)果:D4RT 在點云和視頻深度上都沖到了第一梯隊

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
表2:原論文 Table 5 的核心結(jié)果摘錄。論文在 Sintel、ScanNet、KITTI、Bonn 等基準(zhǔn)上評估點云與視頻深度,D4RT 在動態(tài)場景中優(yōu)勢尤其明顯

這張表很說明問題。

在最難的動態(tài)場景 Sintel 上,D4RT 的點云誤差直接從 1.x 量級打到 0.768;在視頻深度上,也把 AbsRel 壓到了當(dāng)前最優(yōu)水平附近甚至更優(yōu)。

如果只看靜態(tài)場景,很多方法都還能勉強“卷一卷”;但一旦進(jìn)入動態(tài)場景,D4RT 的領(lǐng)先幅度會明顯變大。

這也從側(cè)面說明,它真正學(xué)到的是 時空一致的 4D 表示,而不是靜態(tài)幾何的拼接近似。


五、它不只會“看大結(jié)構(gòu)”,還保住了細(xì)節(jié)

很多統(tǒng)一模型都會遇到一個經(jīng)典問題:一旦過于追求全局建模,局部邊界和細(xì)節(jié)就容易糊。

D4RT 為了解決這個問題,在查詢中額外加入了 局部 RGB patch 的外觀嵌入。

論文發(fā)現(xiàn),這個設(shè)計非常值。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖5:D4RT 在野外視頻中的可視化結(jié)果。它既能處理靜態(tài)場景,也能穩(wěn)定恢復(fù)動態(tài)場景中的 3D 軌跡
CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
圖6:加入局部外觀 patch 后,D4RT 在深度圖中能更好保留細(xì)粒度邊界與低層細(xì)節(jié)

說明:
Figure 6 在 arXiv HTML 中為復(fù)合圖,直接展示為細(xì)節(jié)保真實驗圖,適合放在“細(xì)節(jié)保留”部分。


六、一個小設(shè)計,為什么能帶來這么大提升

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
表3:原論文 Table 7。給查詢加入局部外觀 patch 后,視頻深度和相機位姿指標(biāo)全面提升

這張表特別值得注意。

因為它說明 D4RT 的性能提升,不只是來自“大模型 + 大算力”,而是來自一個非常扎實的設(shè)計判斷:

全局場景表示負(fù)責(zé)理解時空結(jié)構(gòu),局部 patch 負(fù)責(zé)補足紋理和邊界細(xì)節(jié)。

兩者一結(jié)合,模型才真正做到:

既懂世界,又看得清局部。


七、為什么說它不是“功能拼盤”,而是真統(tǒng)一

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS
表4:原論文 Table 2 從任務(wù)覆蓋、功能靈活性和架構(gòu)復(fù)雜度三個層面對比方法能力。D4RT 是少數(shù)同時具備完整能力組合的方法

這也是為什么我會覺得,這篇工作真正重要的不是“又刷了一個榜”,而是它把 4D 視頻理解重新整理了一遍:

不是更多模塊,不是更復(fù)雜 pipeline,而是用一個足夠干凈的接口,把原本分裂的任務(wù)收攏到了同一套表示里。


八、最后一句

如果說過去的視頻理解,更多是在做 “逐幀視覺 + 后處理補丁”,那么 D4RT 往前邁出的一步是:

讓模型第一次開始像在理解一個連續(xù)變化的 4D 世界。

它看到的不再只是某一幀里“這里有個點”,而是這個點來自哪里、會運動到哪里、該落在哪個坐標(biāo)系里,以及它與整個動態(tài)場景的關(guān)系。

統(tǒng)一、準(zhǔn)確、可擴展,還足夠快。

這可能就是動態(tài) 4D 重建下一階段最重要的方向。


文末摘要

  1. 1. 論文提出 D4RT,用統(tǒng)一查詢接口完成動態(tài) 4D 重建、點跟蹤、深度估計和相機參數(shù)恢復(fù)。
  2. 2. 核心公式是先編碼整段視頻得到全局場景表示:

再通過查詢:

解碼目標(biāo) 3D 點:

  1. 3. 在動態(tài)場景上,D4RT 同時解決了 “純重建不會跟動態(tài)、純跟蹤又重建不完整” 的老問題。
  2. 4. 在位姿估計上達(dá)到 200+ FPS,比 VGGT 快約 9 倍,比 MegaSaM 快約 100 倍。
  3. 5. 在 Sintel 等高難動態(tài)基準(zhǔn)上,點云與視頻深度結(jié)果進(jìn)入 SOTA 第一梯隊。

論文信息

論文標(biāo)題:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

論文地址:https://arxiv.org/abs/2512.08924

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態(tài)世界,4D 重建速度飆到 200+ FPS

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
郧西县| 建瓯市| 深圳市| 雷州市| 页游| 南康市| 丹巴县| 淮安市| 西宁市| 莎车县| 乐陵市| 永登县| 楚雄市| 泽州县| 高青县| 黄陵县| 神木县| 北安市| 高邑县| 安远县| 呼玛县| 育儿| 道真| 蓝山县| 霍邱县| 互助| 金川县| 沂水县| 呈贡县| 兰西县| 贵定县| 商南县| 手游| 依安县| 正定县| 昌都县| 宝鸡市| 呼和浩特市| 庆元县| 维西| 长沙市|