97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給陳淑瑜
發(fā)送

0

ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:"空間感知+動(dòng)態(tài)預(yù)判",讓機(jī)器人"看見(jiàn)"物理世界

導(dǎo)語(yǔ):SSM-VLA(Seeing Space and Motion),通過(guò)創(chuàng)新的"遠(yuǎn)視潛動(dòng)作建模"技術(shù),讓機(jī)器人首次具備了幾何感知的場(chǎng)景理解能力和多尺度時(shí)序建模能力
來(lái)源:公眾號(hào)“高德技術(shù)”

原文鏈接:https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA


論文主題|Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA

論文鏈接|https://arxiv.org/abs/2509.26251


在機(jī)器人"大腦"的進(jìn)化之路上,如何讓AI真正理解三維空間的結(jié)構(gòu)關(guān)系,并預(yù)判物體的運(yùn)動(dòng)軌跡,一直是困擾業(yè)界的難題。近日,清華大學(xué)深圳國(guó)際研究生院阿里巴巴集團(tuán)旗下高德地圖聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——SSM-VLA(Seeing Space and Motion),通過(guò)創(chuàng)新的"遠(yuǎn)視潛動(dòng)作建模"技術(shù),讓機(jī)器人首次具備了幾何感知的場(chǎng)景理解能力多尺度時(shí)序建模能力,在多項(xiàng)機(jī)器人操控基準(zhǔn)測(cè)試中創(chuàng)下 SOTA 成績(jī)。


關(guān)鍵挑戰(zhàn):為什么機(jī)器人"看不準(zhǔn)、想不遠(yuǎn)"?


ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:

如果把機(jī)器人比作廚師,現(xiàn)有的VLA模型就像一位"色盲且健忘"的學(xué)徒:它能讀出菜譜(語(yǔ)言理解),卻分不清食材的遠(yuǎn)近深淺(空間感知弱);剛看一眼鍋里的狀態(tài)就忘了(時(shí)序建模差),導(dǎo)致動(dòng)作斷斷續(xù)續(xù)、缺乏連貫性。

具體而言,當(dāng)前主流方法存在兩大結(jié)構(gòu)性缺陷:

  • 瓶頸一:空間感知"浮于表面"

現(xiàn)有VLA模型多采用端到端訓(xùn)練的RGB編碼器,其視覺(jué)表征偏向顏色、紋理等表層語(yǔ)義,缺乏對(duì)物體關(guān)系、場(chǎng)景布局、深度信息的顯式建模。這就像讓一位平面設(shè)計(jì)師去當(dāng)建筑師——審美在線,但看不懂施工圖。結(jié)果是:機(jī)器人能認(rèn)出"紅色積木",卻判斷不好"它離我有多遠(yuǎn)"、"該從哪個(gè)角度抓取"。

  • 瓶頸二:時(shí)序建模"鼠目寸光"

絕大多數(shù)潛在動(dòng)作模型(LAM)僅輸入兩幀圖像(當(dāng)前幀+目標(biāo)幀)來(lái)預(yù)測(cè)動(dòng)作,這種"稀疏采樣"方式丟失了大量動(dòng)態(tài)信息:物體的運(yùn)動(dòng)趨勢(shì)、接觸瞬間的力學(xué)變化、長(zhǎng)程任務(wù)的階段性規(guī)劃。就像僅看一張起點(diǎn)和終點(diǎn)的照片,難以推斷中間經(jīng)歷了什么,導(dǎo)致動(dòng)作預(yù)測(cè)不穩(wěn)定、物理合理性差。


這兩大缺陷相互交織:缺乏幾何感知導(dǎo)致動(dòng)作在3D空間中"對(duì)不準(zhǔn)",缺乏時(shí)序建模導(dǎo)致動(dòng)作在時(shí)間維度上"接不上"。機(jī)器人看似在執(zhí)行任務(wù),實(shí)則在"盲人摸象"。


核心貢獻(xiàn):SSM-VLA的三大創(chuàng)新設(shè)計(jì)

面對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)從空間編碼、時(shí)序建模、推理范式三個(gè)維度進(jìn)行系統(tǒng)性重構(gòu),提出SSM-VLA框架:


1. Farsighted-LAM:看得深、看得遠(yuǎn)的潛在動(dòng)作模型

  • 幾何感知空間編碼:引入凍結(jié)的DINOv2編碼器,提取富含結(jié)構(gòu)先驗(yàn)的視覺(jué)特征(空間布局、隱式深度、物體關(guān)系),讓潛在動(dòng)作扎根于三維物理空間

  • 多幀時(shí)序建模:突破傳統(tǒng)兩幀限制,同時(shí)處理當(dāng)前幀+未來(lái)N個(gè)關(guān)鍵幀,捕捉從細(xì)微操作到長(zhǎng)程規(guī)劃的完整動(dòng)態(tài)譜系

  • RGB-D聯(lián)合監(jiān)督:解碼器同時(shí)重建未來(lái)幀的RGB和深度圖,確保潛在動(dòng)作既包含語(yǔ)義內(nèi)容(外觀),也包含幾何結(jié)構(gòu)(空間)

2. 視覺(jué)思維鏈(Visual Chain-of-Thought):先想象、再行動(dòng)

受人類"三思而后行"的認(rèn)知模式啟發(fā),SSM-VLA在輸出最終動(dòng)作前,先顯式預(yù)測(cè)未來(lái)視覺(jué)狀態(tài)(RGB+深度)。這種"想象-推理-執(zhí)行"的級(jí)聯(lián)范式,不僅增強(qiáng)了模型的時(shí)空理解能力,更提供了可解釋的中間表征——你可以直觀地看到機(jī)器人"腦海中的畫(huà)面"是否與物理規(guī)律一致。


3. 多模態(tài)協(xié)同注意力:三階段漸進(jìn)式推理

通過(guò)精心設(shè)計(jì)的注意力掩碼機(jī)制,SSM-VLA在一個(gè)統(tǒng)一Transformer內(nèi)實(shí)現(xiàn)三階段協(xié)同:

  • 階段1(視覺(jué)預(yù)測(cè)):基于歷史觀測(cè)和指令,生成下一幀視覺(jué)狀態(tài)

  • 階段2(潛在動(dòng)作規(guī)劃):基于預(yù)測(cè)幀,生成長(zhǎng)程潛在動(dòng)作序列

  • 階段3(動(dòng)作執(zhí)行):融合全部信息,輸出最終機(jī)器人動(dòng)作

這種"雙向+單向+因果"的混合注意力結(jié)構(gòu),既保證了信息流的完整性,又維持了時(shí)序因果性。


技術(shù)架構(gòu)詳解

  • Farsighted-LAM:如何學(xué)習(xí)"空間-時(shí)序"統(tǒng)一的潛在動(dòng)作?

    ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:

Farsighted-LAM架構(gòu)與 Latent action 可視化


編碼器處理DINOv2特征序列,預(yù)測(cè)離散潛在動(dòng)作;解碼器利用當(dāng)前幀和潛在動(dòng)作重建未來(lái)幀的RGB與深度。


編碼器設(shè)計(jì)

  • 輸入:當(dāng)前幀RGB-D + 未來(lái)N幀RGB

  • 特征提取:凍結(jié)DINOv2編碼器提取幾何-語(yǔ)義豐富的視覺(jué)特征

  • 時(shí)空Transformer:通過(guò)可學(xué)習(xí)的潛在動(dòng)作查詢(Latent Action Queries),自回歸地生成未來(lái)N個(gè)時(shí)間步的連續(xù)潛在向量

  • 向量量化:通過(guò)最近鄰查找映射到離散碼本,形成緊湊的潛在動(dòng)作表征


解碼器設(shè)計(jì)

  • 輸入:當(dāng)前幀RGB-D + 離散潛在動(dòng)作

  • 約束條件:禁止訪問(wèn)中間幀,強(qiáng)制潛在動(dòng)作承載從當(dāng)前到未來(lái)的全部空間-時(shí)序信息

  • 輸出:重建未來(lái)幀的RGB和深度圖

  • 損失函數(shù):L2+LPIPS光度損失 + 梯度感知深度損失,確保外觀真實(shí)且?guī)缀我恢?/span>

  • SSM-VLA三階段級(jí)聯(lián)策略

ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:

SSM-VLA三階段級(jí)聯(lián)架構(gòu)


Stage 1預(yù)測(cè)視覺(jué)狀態(tài),Stage 2推斷潛在動(dòng)作,Stage 3生成最終動(dòng)作。


Stage 1:視覺(jué)思維鏈預(yù)測(cè)

  • 輸入:歷史觀測(cè)(t-H到t)+ 語(yǔ)言指令

  • 輸出:下一幀視覺(jué)狀態(tài)(RGB+深度)

  • 監(jiān)督:與真實(shí)下一幀計(jì)算重建損失

  • 深度處理:對(duì)于無(wú)傳感器深度數(shù)據(jù),通過(guò)SfM稀疏對(duì)齊生成偽深度標(biāo)簽

Stage 2:遠(yuǎn)視潛在動(dòng)作推斷

  • 輸入:歷史上下文 + 預(yù)測(cè)幀特征

  • 輸出:未來(lái)N步的潛在動(dòng)作序列

  • 監(jiān)督:與預(yù)訓(xùn)練Farsighted-LAM編碼器生成的ground-truth潛在動(dòng)作計(jì)算交叉熵?fù)p失

Stage 3:動(dòng)作生成

  • 輸入:歷史上下文 + 預(yù)測(cè)幀 + 完整潛在動(dòng)作計(jì)劃

  • 輸出:機(jī)器人動(dòng)作

  • 實(shí)現(xiàn):基于條件流匹配(Flow Matching)的擴(kuò)散策略,DiT網(wǎng)絡(luò)作為去噪器


實(shí)驗(yàn)結(jié)果:全面刷新SOTA,零樣本泛化能力驚艷

  • 仿真環(huán)境:CALVIN基準(zhǔn)測(cè)試領(lǐng)跑

    在最具挑戰(zhàn)性的CALVIN ABC-D基準(zhǔn)上(訓(xùn)練于A/B/C環(huán)境,零樣本測(cè)試于未見(jiàn)過(guò)的D環(huán)境,完成1000條指令鏈、每條5個(gè)連續(xù)任務(wù)),SSM-VLA展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)與泛化能力:

    ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:


    ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:

    SSM-VLA以平均4.38個(gè)連續(xù)任務(wù)的完成長(zhǎng)度,超越所有對(duì)比方法,創(chuàng)下新紀(jì)錄。


  • 真實(shí)世界:AgileX Piper機(jī)器人驗(yàn)證

    ICRA 2026|清華大學(xué)&高德聯(lián)合發(fā)布SSM-VLA:

研究團(tuán)隊(duì)還在真實(shí)場(chǎng)景中使用AgileX Piper機(jī)械臂進(jìn)行驗(yàn)證,任務(wù)為"將粉色玩具放入盒子"。模型先在Open-X-Embodiment等大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練,僅通過(guò)50條人類演示微調(diào)即成功部署。面對(duì)雜亂、非結(jié)構(gòu)化的真實(shí)環(huán)境,機(jī)器人展現(xiàn)出優(yōu)異的泛化能力。


為證明各模塊的有效性,研究團(tuán)隊(duì)進(jìn)行了嚴(yán)謹(jǐn)?shù)南诜治觯?/span>

 "遠(yuǎn)視"結(jié)構(gòu)的價(jià)值:使用3幀上下文(LAM 3-frame)相比單幀(LAM 1-frame)平均任務(wù)鏈長(zhǎng)度提升0.1,相比移除LAM(w/o LAM)提升0.21,證明多幀觀測(cè)對(duì)平滑、物理合理的動(dòng)作空間學(xué)習(xí)至關(guān)重要;

多模態(tài)協(xié)同注意力機(jī)制:相比簡(jiǎn)單的因果注意力,結(jié)構(gòu)化注意力機(jī)制將平均完成長(zhǎng)度從3.70大幅提升至4.38,凸顯了其整合過(guò)去、現(xiàn)在與未來(lái)預(yù)測(cè)信息的能力;

 幾何先驗(yàn)的貢獻(xiàn):引入深度監(jiān)督后,平均完成長(zhǎng)度從4.27提升至4.38,驗(yàn)證了顯式3D幾何信息對(duì)空間關(guān)系推理與抓取姿態(tài)估計(jì)的積極作用。


結(jié)語(yǔ)

從"看見(jiàn)"到"看懂",從"執(zhí)行"到"預(yù)判",SSM-VLA代表了VLA模型向空間智能時(shí)序智能深度融合的重要邁進(jìn)。正如論文通訊作者黃汝琪教授所言:"當(dāng)機(jī)器人真正理解空間結(jié)構(gòu)、預(yù)判運(yùn)動(dòng)趨勢(shì),它們才能從'按圖索驥'的工具,進(jìn)化為'見(jiàn)微知著'的伙伴。"




分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
丹巴县| 天祝| 永兴县| 黔江区| 逊克县| 安新县| 高陵县| 如东县| 长沙市| 高雄市| 隆安县| 南充市| 洪泽县| 墨江| 福泉市| 彭州市| 乐都县| 社会| 浦县| 益阳市| 西和县| 钟山县| 澄江县| 丹巴县| 乐亭县| 保定市| 德清县| 汾西县| 县级市| 弥勒县| 淳化县| 甘德县| 铜川市| 仪陇县| 德清县| 博野县| 凤冈县| 电白县| 托克托县| 麻城市| 博湖县|