0
| 本文作者: 陳淑瑜 | 2026-05-25 13:53 | 專題:ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議 |
原文鏈接:https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA
論文主題|Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA
論文鏈接|https://arxiv.org/abs/2509.26251
在機(jī)器人"大腦"的進(jìn)化之路上,如何讓AI真正理解三維空間的結(jié)構(gòu)關(guān)系,并預(yù)判物體的運(yùn)動(dòng)軌跡,一直是困擾業(yè)界的難題。近日,清華大學(xué)深圳國(guó)際研究生院與阿里巴巴集團(tuán)旗下高德地圖聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——SSM-VLA(Seeing Space and Motion),通過(guò)創(chuàng)新的"遠(yuǎn)視潛動(dòng)作建模"技術(shù),讓機(jī)器人首次具備了幾何感知的場(chǎng)景理解能力和多尺度時(shí)序建模能力,在多項(xiàng)機(jī)器人操控基準(zhǔn)測(cè)試中創(chuàng)下 SOTA 成績(jī)。

如果把機(jī)器人比作廚師,現(xiàn)有的VLA模型就像一位"色盲且健忘"的學(xué)徒:它能讀出菜譜(語(yǔ)言理解),卻分不清食材的遠(yuǎn)近深淺(空間感知弱);剛看一眼鍋里的狀態(tài)就忘了(時(shí)序建模差),導(dǎo)致動(dòng)作斷斷續(xù)續(xù)、缺乏連貫性。
具體而言,當(dāng)前主流方法存在兩大結(jié)構(gòu)性缺陷:
瓶頸一:空間感知"浮于表面"
現(xiàn)有VLA模型多采用端到端訓(xùn)練的RGB編碼器,其視覺(jué)表征偏向顏色、紋理等表層語(yǔ)義,缺乏對(duì)物體關(guān)系、場(chǎng)景布局、深度信息的顯式建模。這就像讓一位平面設(shè)計(jì)師去當(dāng)建筑師——審美在線,但看不懂施工圖。結(jié)果是:機(jī)器人能認(rèn)出"紅色積木",卻判斷不好"它離我有多遠(yuǎn)"、"該從哪個(gè)角度抓取"。
瓶頸二:時(shí)序建模"鼠目寸光"
絕大多數(shù)潛在動(dòng)作模型(LAM)僅輸入兩幀圖像(當(dāng)前幀+目標(biāo)幀)來(lái)預(yù)測(cè)動(dòng)作,這種"稀疏采樣"方式丟失了大量動(dòng)態(tài)信息:物體的運(yùn)動(dòng)趨勢(shì)、接觸瞬間的力學(xué)變化、長(zhǎng)程任務(wù)的階段性規(guī)劃。就像僅看一張起點(diǎn)和終點(diǎn)的照片,難以推斷中間經(jīng)歷了什么,導(dǎo)致動(dòng)作預(yù)測(cè)不穩(wěn)定、物理合理性差。
這兩大缺陷相互交織:缺乏幾何感知導(dǎo)致動(dòng)作在3D空間中"對(duì)不準(zhǔn)",缺乏時(shí)序建模導(dǎo)致動(dòng)作在時(shí)間維度上"接不上"。機(jī)器人看似在執(zhí)行任務(wù),實(shí)則在"盲人摸象"。
面對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)從空間編碼、時(shí)序建模、推理范式三個(gè)維度進(jìn)行系統(tǒng)性重構(gòu),提出SSM-VLA框架:
1. Farsighted-LAM:看得深、看得遠(yuǎn)的潛在動(dòng)作模型
幾何感知空間編碼:引入凍結(jié)的DINOv2編碼器,提取富含結(jié)構(gòu)先驗(yàn)的視覺(jué)特征(空間布局、隱式深度、物體關(guān)系),讓潛在動(dòng)作扎根于三維物理空間
多幀時(shí)序建模:突破傳統(tǒng)兩幀限制,同時(shí)處理當(dāng)前幀+未來(lái)N個(gè)關(guān)鍵幀,捕捉從細(xì)微操作到長(zhǎng)程規(guī)劃的完整動(dòng)態(tài)譜系
RGB-D聯(lián)合監(jiān)督:解碼器同時(shí)重建未來(lái)幀的RGB和深度圖,確保潛在動(dòng)作既包含語(yǔ)義內(nèi)容(外觀),也包含幾何結(jié)構(gòu)(空間)
2. 視覺(jué)思維鏈(Visual Chain-of-Thought):先想象、再行動(dòng)
受人類"三思而后行"的認(rèn)知模式啟發(fā),SSM-VLA在輸出最終動(dòng)作前,先顯式預(yù)測(cè)未來(lái)視覺(jué)狀態(tài)(RGB+深度)。這種"想象-推理-執(zhí)行"的級(jí)聯(lián)范式,不僅增強(qiáng)了模型的時(shí)空理解能力,更提供了可解釋的中間表征——你可以直觀地看到機(jī)器人"腦海中的畫(huà)面"是否與物理規(guī)律一致。
3. 多模態(tài)協(xié)同注意力:三階段漸進(jìn)式推理
通過(guò)精心設(shè)計(jì)的注意力掩碼機(jī)制,SSM-VLA在一個(gè)統(tǒng)一Transformer內(nèi)實(shí)現(xiàn)三階段協(xié)同:
階段1(視覺(jué)預(yù)測(cè)):基于歷史觀測(cè)和指令,生成下一幀視覺(jué)狀態(tài)
階段2(潛在動(dòng)作規(guī)劃):基于預(yù)測(cè)幀,生成長(zhǎng)程潛在動(dòng)作序列
階段3(動(dòng)作執(zhí)行):融合全部信息,輸出最終機(jī)器人動(dòng)作
這種"雙向+單向+因果"的混合注意力結(jié)構(gòu),既保證了信息流的完整性,又維持了時(shí)序因果性。
Farsighted-LAM:如何學(xué)習(xí)"空間-時(shí)序"統(tǒng)一的潛在動(dòng)作?

Farsighted-LAM架構(gòu)與 Latent action 可視化
編碼器處理DINOv2特征序列,預(yù)測(cè)離散潛在動(dòng)作;解碼器利用當(dāng)前幀和潛在動(dòng)作重建未來(lái)幀的RGB與深度。
編碼器設(shè)計(jì):
輸入:當(dāng)前幀RGB-D + 未來(lái)N幀RGB
特征提取:凍結(jié)DINOv2編碼器提取幾何-語(yǔ)義豐富的視覺(jué)特征
時(shí)空Transformer:通過(guò)可學(xué)習(xí)的潛在動(dòng)作查詢(Latent Action Queries),自回歸地生成未來(lái)N個(gè)時(shí)間步的連續(xù)潛在向量
向量量化:通過(guò)最近鄰查找映射到離散碼本,形成緊湊的潛在動(dòng)作表征
解碼器設(shè)計(jì):
輸入:當(dāng)前幀RGB-D + 離散潛在動(dòng)作
約束條件:禁止訪問(wèn)中間幀,強(qiáng)制潛在動(dòng)作承載從當(dāng)前到未來(lái)的全部空間-時(shí)序信息
輸出:重建未來(lái)幀的RGB和深度圖
損失函數(shù):L2+LPIPS光度損失 + 梯度感知深度損失,確保外觀真實(shí)且?guī)缀我恢?/span>

SSM-VLA三階段級(jí)聯(lián)架構(gòu)
Stage 1預(yù)測(cè)視覺(jué)狀態(tài),Stage 2推斷潛在動(dòng)作,Stage 3生成最終動(dòng)作。
Stage 1:視覺(jué)思維鏈預(yù)測(cè)
輸入:歷史觀測(cè)(t-H到t)+ 語(yǔ)言指令
輸出:下一幀視覺(jué)狀態(tài)(RGB+深度)
監(jiān)督:與真實(shí)下一幀計(jì)算重建損失
深度處理:對(duì)于無(wú)傳感器深度數(shù)據(jù),通過(guò)SfM稀疏對(duì)齊生成偽深度標(biāo)簽
Stage 2:遠(yuǎn)視潛在動(dòng)作推斷
輸入:歷史上下文 + 預(yù)測(cè)幀特征
輸出:未來(lái)N步的潛在動(dòng)作序列
監(jiān)督:與預(yù)訓(xùn)練Farsighted-LAM編碼器生成的ground-truth潛在動(dòng)作計(jì)算交叉熵?fù)p失
Stage 3:動(dòng)作生成
輸入:歷史上下文 + 預(yù)測(cè)幀 + 完整潛在動(dòng)作計(jì)劃
輸出:機(jī)器人動(dòng)作
實(shí)現(xiàn):基于條件流匹配(Flow Matching)的擴(kuò)散策略,DiT網(wǎng)絡(luò)作為去噪器
實(shí)驗(yàn)結(jié)果:全面刷新SOTA,零樣本泛化能力驚艷
在最具挑戰(zhàn)性的CALVIN ABC-D基準(zhǔn)上(訓(xùn)練于A/B/C環(huán)境,零樣本測(cè)試于未見(jiàn)過(guò)的D環(huán)境,完成1000條指令鏈、每條5個(gè)連續(xù)任務(wù)),SSM-VLA展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)與泛化能力:


SSM-VLA以平均4.38個(gè)連續(xù)任務(wù)的完成長(zhǎng)度,超越所有對(duì)比方法,創(chuàng)下新紀(jì)錄。
真實(shí)世界:AgileX Piper機(jī)器人驗(yàn)證

研究團(tuán)隊(duì)還在真實(shí)場(chǎng)景中使用AgileX Piper機(jī)械臂進(jìn)行驗(yàn)證,任務(wù)為"將粉色玩具放入盒子"。模型先在Open-X-Embodiment等大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練,僅通過(guò)50條人類演示微調(diào)即成功部署。面對(duì)雜亂、非結(jié)構(gòu)化的真實(shí)環(huán)境,機(jī)器人展現(xiàn)出優(yōu)異的泛化能力。
為證明各模塊的有效性,研究團(tuán)隊(duì)進(jìn)行了嚴(yán)謹(jǐn)?shù)南诜治觯?/span>
"遠(yuǎn)視"結(jié)構(gòu)的價(jià)值:使用3幀上下文(LAM 3-frame)相比單幀(LAM 1-frame)平均任務(wù)鏈長(zhǎng)度提升0.1,相比移除LAM(w/o LAM)提升0.21,證明多幀觀測(cè)對(duì)平滑、物理合理的動(dòng)作空間學(xué)習(xí)至關(guān)重要;
多模態(tài)協(xié)同注意力機(jī)制:相比簡(jiǎn)單的因果注意力,結(jié)構(gòu)化注意力機(jī)制將平均完成長(zhǎng)度從3.70大幅提升至4.38,凸顯了其整合過(guò)去、現(xiàn)在與未來(lái)預(yù)測(cè)信息的能力;
幾何先驗(yàn)的貢獻(xiàn):引入深度監(jiān)督后,平均完成長(zhǎng)度從4.27提升至4.38,驗(yàn)證了顯式3D幾何信息對(duì)空間關(guān)系推理與抓取姿態(tài)估計(jì)的積極作用。
從"看見(jiàn)"到"看懂",從"執(zhí)行"到"預(yù)判",SSM-VLA代表了VLA模型向空間智能與時(shí)序智能深度融合的重要邁進(jìn)。正如論文通訊作者黃汝琪教授所言:"當(dāng)機(jī)器人真正理解空間結(jié)構(gòu)、預(yù)判運(yùn)動(dòng)趨勢(shì),它們才能從'按圖索驥'的工具,進(jìn)化為'見(jiàn)微知著'的伙伴。"
本專題其他文章