浙江大學研究員彭思達：底層空間感知技術(shù)對訓練機器人有何作用？｜GAIR 2025

本文作者：張進

2026-01-08 11:17

導語：“可將人類視作一種特殊形態(tài)的機器人，獲取其行為數(shù)據(jù)可用于訓練人形機器人?！?

在“世界模型”分論壇上，浙江大學研究員彭思達帶來了《面向具身智能的通用空間感知技術(shù)》的主題演講，介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。彭思達是浙江大學軟件學院“百人計劃”研究員、博士生導師，研究方向為三維計算機視覺和計算機圖形學。

團隊主要聚焦于賦予機器人三項基礎(chǔ)能力：一是相機定位（Camera Pose Estimation），即讓機器人知道自己在空間中的位置；二是深度估計（Depth Estimation），使機器人了解場景中各物體與自身的距離；三是物體運動估計（Object Motion Estimation），讓機器人感知世界的運動狀態(tài)。

這些底層空間感知技術(shù)有何作用？首先，它們能為機器人提供關(guān)鍵的決策信息。例如，無人機在空間中需要先知道自身位置、與場景目標的距離，才能實現(xiàn)基礎(chǔ)避障；進而還需了解目標物體的運動情況，才能進行追蹤?；趶膱鼍爸蝎@取的三維空間信息，機器人的行為規(guī)劃便能得到有力支持。

其次，這些技術(shù)可用于生成訓練數(shù)據(jù)。當前具身智能領(lǐng)域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù)，但遙操數(shù)據(jù)雖好卻難以規(guī)?；瘮U展，而仿真技術(shù)目前仍與真實世界存在較大差距。

彭思達提出，其實可將人類視作一種特殊形態(tài)的機器人——具備完整的身體結(jié)構(gòu)與行為模式。若能發(fā)明一種數(shù)據(jù)采集設(shè)備，將人類日常行為完整記錄下來，就相當于獲取了機器人所需的行為數(shù)據(jù)，從而可用于訓練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術(shù)。

相機定位

相機定位方面，最傳統(tǒng)經(jīng)典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配，再通過增量式運動恢復結(jié)構(gòu)（SfM）得到相機位置。最終每張圖像對應一個相機位置，并共同生成三維點云，形成經(jīng)典的三維重建流程。

然而，該流程目前面臨的挑戰(zhàn)在于圖像匹配。團隊發(fā)現(xiàn)，傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳，會影響后續(xù)相機位姿估計的準確性。

針對這一問題，彭思達所在實驗室于2021年提出一種新方法：不再依賴傳統(tǒng)匹配方式，而是直接使用Transformer大模型進行圖像匹配。具體而言，將兩張圖像輸入LoFTR模型以提取稠密特征，這些特征之間即使在弱紋理區(qū)域也能實現(xiàn)良好的匹配。

但這個方法的問題是，多模態(tài)匹配很難，例如現(xiàn)實環(huán)境往往是黑夜白天交替、熱傳感跟可見光同時出現(xiàn)，這種情況下兩兩無法匹配。所以我們要解決跨模態(tài)的問題，

去年團隊針對此問題提出了新的工作叫 MatchAnything，核心思路是用大量來源的數(shù)據(jù)，和多模態(tài)預訓練框架去訓練 LoFTR 模型，成功實現(xiàn)了實現(xiàn)了紅外和可見光、事件和可見光、CT 和 MR 的匹配。這其中其實是工程數(shù)據(jù)問題，彭思達團隊整合了多種數(shù)據(jù)來源，一種是常見的多視角圖像，一種是大量的單目視頻。單目視頻要如何匹配？團隊使用了成熟的光流算法，將其一個個拼接起來，得到一個長時序的匹配關(guān)系。第三種數(shù)據(jù)來源是通過圖像變換，例如將單張圖片用傳統(tǒng)的圖像變換給 warp，就形成了一個稠密匹配。

前三種都是在同一個模態(tài)下，進一步增光匹配的數(shù)據(jù)訓練來源，還有一種是做跨模態(tài)數(shù)據(jù)生成。團隊通過對現(xiàn)有兩兩匹配中的一張圖片做跨域生成，比如將其變成熱傳感圖像、黑夜圖像、深度圖像，發(fā)現(xiàn)只做少量的三種模態(tài)就能實現(xiàn)任意跨模態(tài)能力。如此便可以實現(xiàn)即便衛(wèi)星圖像是夏天的，無人機在冬天工作也能匹配，以前是匹配不上的。

此外，跨模態(tài)數(shù)據(jù)生成還包括可見光跟雷達圖像，可見光跟矢量地圖，紅外跟可見光，匹配的情況增多，逐漸形成一個匹配的模型后，特別是應用于遙感領(lǐng)域的無人機性能大大增強，同時應用于自動駕駛領(lǐng)域也出現(xiàn)了不錯的效果。

但 MatchAnything 面臨一個問題，即沒法融入已有的 SfM 算法，因為 MatchAnything 或者 LoFTR 模型的輸出匹配因圖片對不同而不同，導致無法建立多視圖匹配，因此沒法直接用在 SfM 算法中。

彭思達表示這是一個大問題，導致 MatchAnything 無法直接用于相機定位，為此他們又提出一個新的解決思路 Detector-free Sf，即先基于 MatchAnything 重建一種粗糙的模型，再做模型優(yōu)化。

具體做法是給兩張圖片做無特征檢測的圖像匹配，因為無法很好地形成多視角匹配，首先要做量化匹配把多張圖片的匹配關(guān)系連接起來，再去跑傳統(tǒng)的 SFM 算法。但圖片匹配關(guān)系被量化后，準確率降低，所以SFM 跑出來的結(jié)果不準。因此需要迭代式去優(yōu)化。

迭代式優(yōu)化的具體流程是先優(yōu)化多視角匹配，再優(yōu)化三維模型，根據(jù)下圖所示，優(yōu)化后就能看到最右邊的三維模型有一個更精密的點云以及更精細的三維位姿。

同時，Detector-free SfM 面臨的問題跟所有傳統(tǒng)方法一樣，重建速度太慢了，一個模型迭代式優(yōu)化可能需要幾十個小時甚至一天，以至于對于那些對時間比較敏感的重建任務不太好用。

為了解決速度的問題，彭思達團隊進而進行了一項端到端的重建工作。已有的方法像 VGGT，這是今年 CVPR 的最佳論文，最大的突破是直接使用一個大型的大模型去回歸圖片的相機位置和深度，因為是網(wǎng)絡(luò)直出所以速度很快，比如一個場景傳統(tǒng)的相機位置估計方法可能需要十幾個小時，VGGT 只需要一兩秒，這是非常大的提升。

但 VGGT 最大的問題是沒法處理大規(guī)模場景，因為它是個大的網(wǎng)絡(luò)，圖片越多網(wǎng)絡(luò)很容易就會爆顯存。處理上百張圖片勉強可以，但是 1000張肯定就不行了。

一個直觀的解決辦法將大場景進行分段預測。如果沒辦法一次性處理太多圖片，可以把大場景進行分段預測，分成很多 chunk，然后對每個 chunk 去估計相機位置。但這種情況下，由于每個 chunk 預測不夠精準，導致 chunk 之間難以拼接，兩兩連接效果并不好，最后會形成一個累積誤差，整個網(wǎng)絡(luò)會壞掉。

對此，彭思達團隊提出了一個新方法 Scal3R，其相關(guān)論文已經(jīng)被 CVPR 接收。該方法受人類的全局視野啟發(fā)——人有全局視野的情況下，對局部場景的幾何預測也有更一致的預測，所以 Scal3R 致力于賦予 VGGT 對目標場景的全局視野。

構(gòu)建全局視野的具體方法是使用網(wǎng)絡(luò)權(quán)重記錄每個 chunk 的內(nèi)容。具體實現(xiàn)的流程是先輸入 chunk 的一組圖片，直接更新到一個網(wǎng)絡(luò)權(quán)重里就能記錄這組 chunk 圖片內(nèi)容。在推理中如何實現(xiàn)呢？一個網(wǎng)絡(luò)模塊直接預測 KB，再拿這個 KB 去更新一個網(wǎng)絡(luò)權(quán)重，該網(wǎng)絡(luò)權(quán)重就記錄了該 chunk 的圖片內(nèi)容。

在線更新網(wǎng)絡(luò)權(quán)重作為場景的記憶，整個網(wǎng)絡(luò)就記錄了整個場景的記憶，有了記憶可以預測出每個 chunk 的顯性位置的點云，該點云也更具有全局一致性，因此拼接起來效果更好。

深度估計

深度估計是通用空間感知的關(guān)鍵組成部分。去年，彭思達團隊在提升深度估計能力方面取得了三項進展，其中之一是“Pixel-Perfect-Depth”思路。

具身智能需要深度估計，是因為準確的深度信息能提升機器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在“飛點”問題：判別式模型（如Depth Anything）傾向于預測“折中值”以最小化損失，從而導致飛點；生成式模型（如Marigold）雖能從理論上建模多峰深度分布，但因使用VAE進行壓縮，同樣會產(chǎn)生飛點。

團隊從生成式模型出發(fā)，提出了 Pixel-Perfect-Depth 的解決思路：首先移除VAE，直接在像素空間進行優(yōu)化，以避免VAE帶來的信息損失，使得像素空間擴散避免了邊緣飛點。然而，沒有VAE后模型需要更全局的視野，因此他們將語言特征整合到DiT模型中，發(fā)現(xiàn)這能顯著增強模型深度估計能力。

Pixel-Perfect-Depth 方法還能拓展提升視頻深度估計能力。相對于單張圖片輸入，常見的是視頻輸入，要對視頻深度估計，只需要在 Pixel-Perfect-Depth 上做兩個簡單的改進，首先是提取視頻的語義特征，得到特征以后注入到多視角的估計模型里；第二，視頻深度估計重要的是保持時序的連續(xù)性，通過 target tokens疊加reference tokens，提升時序一致性。

Pixel-Perfect-Depth 雖然能做好單張圖片和視頻深度估計，但做不好帶尺度的深度估計。而很多場景是帶尺度的，因為沒有尺度機器人就不好用。為了解決該問題，彭思達團隊從語言模型的 prompt 技術(shù)匯總獲得靈感，試圖探索為深度基礎(chǔ)模型設(shè)計提示詞機制，以提升其輸出絕對深度的準確性。

他們將雷達做誒深度感知的prompt喂給深度估計基礎(chǔ)模型，讓其產(chǎn)生絕對深度。

該算法 Prompt Depth Anything 不僅可以提升通用機器人抓取能力，抓取成功率超越Image及LiDAR作為輸入；還能應用于自動駕駛重建；做三維掃描、前饋式三維高斯等等。

但 Prompt Depth Anything 仍然存在問題，要得到三維場景的深度估計一般通過反投影，但透視投影在相鄰視角看著還不錯，如果俯視、反投影得到的點云在遠處會產(chǎn)生裂痕。

對此彭思達團隊提出了一個叫 InfiniDepth 的解決思路，即不只是給每個像素估計深度值，還給每個次像素估計，其論文已經(jīng)投稿在 CVPR。具體做法是將已有DPT Head改為Implicit Decoder，就能得到一個完整的幾何，達到大范圍的視角渲染。這樣能提高模型精細度，例如能更好服務于機器人去抓取線纜的能力。

物體運動估計

將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓練數(shù)據(jù)，是當前具身智能發(fā)展的關(guān)鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡，而語義軌跡的獲取又依賴于跟蹤。彭思達團隊去年的一個工作就跟三維跟蹤有關(guān)。

此前已有方法使用時序匹配進行跟蹤，例如Google的CoTracker：先初始化一組二維像素點，再利用Transformer迭代優(yōu)化這些點的軌跡。但該方法僅在二維層面進行跟蹤，容易因相鄰區(qū)域的干擾而丟失目標，效果受限。

彭思達團隊的思路是將二維圖像反投影至三維空間，做 3D tracking。具體做法是：輸入圖像并反投影至三維，獲得三維特征后，在三維空間中初始化一條三維軌跡，再利用Transformer對該軌跡進行優(yōu)化，從而實現(xiàn)更魯棒的跟蹤效果。該方法被命名為SpatialTracker?！咐追寰W(wǎng)(公眾號：雷峰網(wǎng))」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。