ICRA 2026｜清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA："空間感知+動(dòng)態(tài)預(yù)判"，讓機(jī)器人"看見(jiàn)"物理世界

本文作者：陳淑瑜

2026-05-25 13:53

導(dǎo)語(yǔ)：SSM-VLA（Seeing Space and Motion），通過(guò)創(chuàng)新的"遠(yuǎn)視潛動(dòng)作建模"技術(shù)，讓機(jī)器人首次具備了幾何感知的場(chǎng)景理解能力和多尺度時(shí)序建模能力

來(lái)源：公眾號(hào)“高德技術(shù)”

原文鏈接：https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA

論文主題｜Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA

論文鏈接｜https://arxiv.org/abs/2509.26251

在機(jī)器人"大腦"的進(jìn)化之路上，如何讓AI真正理解三維空間的結(jié)構(gòu)關(guān)系，并預(yù)判物體的運(yùn)動(dòng)軌跡，一直是困擾業(yè)界的難題。近日，清華大學(xué)深圳國(guó)際研究生院與阿里巴巴集團(tuán)旗下高德地圖聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——SSM-VLA（Seeing Space and Motion），通過(guò)創(chuàng)新的"遠(yuǎn)視潛動(dòng)作建模"技術(shù)，讓機(jī)器人首次具備了幾何感知的場(chǎng)景理解能力和多尺度時(shí)序建模能力，在多項(xiàng)機(jī)器人操控基準(zhǔn)測(cè)試中創(chuàng)下 SOTA 成績(jī)。

關(guān)鍵挑戰(zhàn)：為什么機(jī)器人"看不準(zhǔn)、想不遠(yuǎn)"？

ICRA 2026｜清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA：

如果把機(jī)器人比作廚師，現(xiàn)有的VLA模型就像一位"色盲且健忘"的學(xué)徒：它能讀出菜譜（語(yǔ)言理解），卻分不清食材的遠(yuǎn)近深淺（空間感知弱）；剛看一眼鍋里的狀態(tài)就忘了（時(shí)序建模差），導(dǎo)致動(dòng)作斷斷續(xù)續(xù)、缺乏連貫性。

具體而言，當(dāng)前主流方法存在兩大結(jié)構(gòu)性缺陷：

瓶頸一：空間感知"浮于表面"

現(xiàn)有VLA模型多采用端到端訓(xùn)練的RGB編碼器，其視覺(jué)表征偏向顏色、紋理等表層語(yǔ)義，缺乏對(duì)物體關(guān)系、場(chǎng)景布局、深度信息的顯式建模。這就像讓一位平面設(shè)計(jì)師去當(dāng)建筑師——審美在線，但看不懂施工圖。結(jié)果是：機(jī)器人能認(rèn)出"紅色積木"，卻判斷不好"它離我有多遠(yuǎn)"、"該從哪個(gè)角度抓取"。

瓶頸二：時(shí)序建模"鼠目寸光"

絕大多數(shù)潛在動(dòng)作模型（LAM）僅輸入兩幀圖像（當(dāng)前幀+目標(biāo)幀）來(lái)預(yù)測(cè)動(dòng)作，這種"稀疏采樣"方式丟失了大量動(dòng)態(tài)信息：物體的運(yùn)動(dòng)趨勢(shì)、接觸瞬間的力學(xué)變化、長(zhǎng)程任務(wù)的階段性規(guī)劃。就像僅看一張起點(diǎn)和終點(diǎn)的照片，難以推斷中間經(jīng)歷了什么，導(dǎo)致動(dòng)作預(yù)測(cè)不穩(wěn)定、物理合理性差。

這兩大缺陷相互交織：缺乏幾何感知導(dǎo)致動(dòng)作在3D空間中"對(duì)不準(zhǔn)"，缺乏時(shí)序建模導(dǎo)致動(dòng)作在時(shí)間維度上"接不上"。機(jī)器人看似在執(zhí)行任務(wù)，實(shí)則在"盲人摸象"。

核心貢獻(xiàn)：SSM-VLA的三大創(chuàng)新設(shè)計(jì)

面對(duì)上述挑戰(zhàn)，研究團(tuán)隊(duì)從空間編碼、時(shí)序建模、推理范式三個(gè)維度進(jìn)行系統(tǒng)性重構(gòu)，提出SSM-VLA框架：

1. Farsighted-LAM：看得深、看得遠(yuǎn)的潛在動(dòng)作模型

幾何感知空間編碼：引入凍結(jié)的DINOv2編碼器，提取富含結(jié)構(gòu)先驗(yàn)的視覺(jué)特征（空間布局、隱式深度、物體關(guān)系），讓潛在動(dòng)作扎根于三維物理空間
多幀時(shí)序建模：突破傳統(tǒng)兩幀限制，同時(shí)處理當(dāng)前幀+未來(lái)N個(gè)關(guān)鍵幀，捕捉從細(xì)微操作到長(zhǎng)程規(guī)劃的完整動(dòng)態(tài)譜系
RGB-D聯(lián)合監(jiān)督：解碼器同時(shí)重建未來(lái)幀的RGB和深度圖，確保潛在動(dòng)作既包含語(yǔ)義內(nèi)容（外觀），也包含幾何結(jié)構(gòu)（空間）

2. 視覺(jué)思維鏈（Visual Chain-of-Thought）：先想象、再行動(dòng)

受人類"三思而后行"的認(rèn)知模式啟發(fā)，SSM-VLA在輸出最終動(dòng)作前，先顯式預(yù)測(cè)未來(lái)視覺(jué)狀態(tài)（RGB+深度）。這種"想象-推理-執(zhí)行"的級(jí)聯(lián)范式，不僅增強(qiáng)了模型的時(shí)空理解能力，更提供了可解釋的中間表征——你可以直觀地看到機(jī)器人"腦海中的畫(huà)面"是否與物理規(guī)律一致。

3. 多模態(tài)協(xié)同注意力：三階段漸進(jìn)式推理

通過(guò)精心設(shè)計(jì)的注意力掩碼機(jī)制，SSM-VLA在一個(gè)統(tǒng)一Transformer內(nèi)實(shí)現(xiàn)三階段協(xié)同：

階段1（視覺(jué)預(yù)測(cè)）：基于歷史觀測(cè)和指令，生成下一幀視覺(jué)狀態(tài)
階段2（潛在動(dòng)作規(guī)劃）：基于預(yù)測(cè)幀，生成長(zhǎng)程潛在動(dòng)作序列
階段3（動(dòng)作執(zhí)行）：融合全部信息，輸出最終機(jī)器人動(dòng)作

這種"雙向+單向+因果"的混合注意力結(jié)構(gòu)，既保證了信息流的完整性，又維持了時(shí)序因果性。

技術(shù)架構(gòu)詳解

Farsighted-LAM：如何學(xué)習(xí)"空間-時(shí)序"統(tǒng)一的潛在動(dòng)作？

Farsighted-LAM架構(gòu)與 Latent action 可視化

編碼器處理DINOv2特征序列，預(yù)測(cè)離散潛在動(dòng)作；解碼器利用當(dāng)前幀和潛在動(dòng)作重建未來(lái)幀的RGB與深度。

編碼器設(shè)計(jì)：

輸入：當(dāng)前幀RGB-D + 未來(lái)N幀RGB
特征提取：凍結(jié)DINOv2編碼器提取幾何-語(yǔ)義豐富的視覺(jué)特征
時(shí)空Transformer：通過(guò)可學(xué)習(xí)的潛在動(dòng)作查詢（Latent Action Queries），自回歸地生成未來(lái)N個(gè)時(shí)間步的連續(xù)潛在向量
向量量化：通過(guò)最近鄰查找映射到離散碼本，形成緊湊的潛在動(dòng)作表征

解碼器設(shè)計(jì)：

輸入：當(dāng)前幀RGB-D + 離散潛在動(dòng)作
約束條件：禁止訪問(wèn)中間幀，強(qiáng)制潛在動(dòng)作承載從當(dāng)前到未來(lái)的全部空間-時(shí)序信息
輸出：重建未來(lái)幀的RGB和深度圖
損失函數(shù)：L2+LPIPS光度損失 + 梯度感知深度損失，確保外觀真實(shí)且?guī)缀我恢?/span>

SSM-VLA三階段級(jí)聯(lián)策略

SSM-VLA三階段級(jí)聯(lián)架構(gòu)

Stage 1預(yù)測(cè)視覺(jué)狀態(tài)，Stage 2推斷潛在動(dòng)作，Stage 3生成最終動(dòng)作。

Stage 1：視覺(jué)思維鏈預(yù)測(cè)

輸入：歷史觀測(cè)（t-H到t）+ 語(yǔ)言指令
輸出：下一幀視覺(jué)狀態(tài)（RGB+深度）
監(jiān)督：與真實(shí)下一幀計(jì)算重建損失
深度處理：對(duì)于無(wú)傳感器深度數(shù)據(jù)，通過(guò)SfM稀疏對(duì)齊生成偽深度標(biāo)簽

Stage 2：遠(yuǎn)視潛在動(dòng)作推斷

輸入：歷史上下文 + 預(yù)測(cè)幀特征
輸出：未來(lái)N步的潛在動(dòng)作序列
監(jiān)督：與預(yù)訓(xùn)練Farsighted-LAM編碼器生成的ground-truth潛在動(dòng)作計(jì)算交叉熵?fù)p失

Stage 3：動(dòng)作生成

輸入：歷史上下文 + 預(yù)測(cè)幀 + 完整潛在動(dòng)作計(jì)劃
輸出：機(jī)器人動(dòng)作
實(shí)現(xiàn)：基于條件流匹配（Flow Matching）的擴(kuò)散策略，DiT網(wǎng)絡(luò)作為去噪器

實(shí)驗(yàn)結(jié)果：全面刷新SOTA，零樣本泛化能力驚艷

仿真環(huán)境：CALVIN基準(zhǔn)測(cè)試領(lǐng)跑
在最具挑戰(zhàn)性的CALVIN ABC-D基準(zhǔn)上（訓(xùn)練于A/B/C環(huán)境，零樣本測(cè)試于未見(jiàn)過(guò)的D環(huán)境，完成1000條指令鏈、每條5個(gè)連續(xù)任務(wù)），SSM-VLA展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)與泛化能力：

SSM-VLA以平均4.38個(gè)連續(xù)任務(wù)的完成長(zhǎng)度，超越所有對(duì)比方法，創(chuàng)下新紀(jì)錄。
真實(shí)世界：AgileX Piper機(jī)器人驗(yàn)證

研究團(tuán)隊(duì)還在真實(shí)場(chǎng)景中使用AgileX Piper機(jī)械臂進(jìn)行驗(yàn)證，任務(wù)為"將粉色玩具放入盒子"。模型先在Open-X-Embodiment等大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練，僅通過(guò)50條人類演示微調(diào)即成功部署。面對(duì)雜亂、非結(jié)構(gòu)化的真實(shí)環(huán)境，機(jī)器人展現(xiàn)出優(yōu)異的泛化能力。

為證明各模塊的有效性，研究團(tuán)隊(duì)進(jìn)行了嚴(yán)謹(jǐn)?shù)南诜治觯?/span>

"遠(yuǎn)視"結(jié)構(gòu)的價(jià)值：使用3幀上下文（LAM 3-frame）相比單幀（LAM 1-frame）平均任務(wù)鏈長(zhǎng)度提升0.1，相比移除LAM（w/o LAM）提升0.21，證明多幀觀測(cè)對(duì)平滑、物理合理的動(dòng)作空間學(xué)習(xí)至關(guān)重要；

多模態(tài)協(xié)同注意力機(jī)制：相比簡(jiǎn)單的因果注意力，結(jié)構(gòu)化注意力機(jī)制將平均完成長(zhǎng)度從3.70大幅提升至4.38，凸顯了其整合過(guò)去、現(xiàn)在與未來(lái)預(yù)測(cè)信息的能力；

幾何先驗(yàn)的貢獻(xiàn)：引入深度監(jiān)督后，平均完成長(zhǎng)度從4.27提升至4.38，驗(yàn)證了顯式3D幾何信息對(duì)空間關(guān)系推理與抓取姿態(tài)估計(jì)的積極作用。

結(jié)語(yǔ)

從"看見(jiàn)"到"看懂"，從"執(zhí)行"到"預(yù)判"，SSM-VLA代表了VLA模型向空間智能與時(shí)序智能深度融合的重要邁進(jìn)。正如論文通訊作者黃汝琪教授所言："當(dāng)機(jī)器人真正理解空間結(jié)構(gòu)、預(yù)判運(yùn)動(dòng)趨勢(shì)，它們才能從'按圖索驥'的工具，進(jìn)化為'見(jiàn)微知著'的伙伴。"