97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機(jī)器人 正文
發(fā)私信給陳淑瑜
發(fā)送

0

Goal-VLA——圖像生成式VLM化身「世界模型」,實(shí)現(xiàn)零樣本機(jī)器人操作 | ICRA 2026

導(dǎo)語:新加坡國立大學(xué)邵林團(tuán)隊(duì)提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,實(shí)現(xiàn)零樣本機(jī)器人操作

一、研究背景  

視覺-語言-動作(VLA)模型是當(dāng)前具身智能的主流架構(gòu),但主要分為兩大范式,各自面臨根本性局限:端到端VLA模型(如RT-2、OpenVLA)嚴(yán)重依賴海量的「指令-視覺-動作」成對數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)獲取成本極高且泛化能力有限;分層模型雖通過中間目標(biāo)表示連接高層語義與底層動作,但中間目標(biāo)通常需要3D點(diǎn)云等精確幾何輸入,在開放環(huán)境中難以獲取。

如何在不依賴任何任務(wù)特定微調(diào)和成對動作數(shù)據(jù)的情況下,讓機(jī)器人理解語言指令并執(zhí)行復(fù)雜的操控任務(wù),成為具身智能領(lǐng)域亟待突破的核心挑戰(zhàn)。

新加坡國立大學(xué)邵林團(tuán)隊(duì)提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,通過物體目標(biāo)狀態(tài)表示來連接高層語義推理與底層動作控制,僅需自然語言指令和單視角RGB-D圖像即可實(shí)現(xiàn)零樣本機(jī)器人操作。

Goal-VLA——圖像生成式VLM化身「世界模型」,實(shí)現(xiàn)零樣本機(jī)器人操作 | ICRA 2026 二、核心方法

  Goal-VLA的核心設(shè)計(jì)是一個解耦式分層框架,將機(jī)器人操作分解為目標(biāo)推理和動作執(zhí)行兩個獨(dú)立階段。

第一階段:目標(biāo)狀態(tài)推理(Goal State Inference)

利用文本VLM(如GPT-4V)對自然語言指令進(jìn)行語義豐富和場景理解,構(gòu)建詳細(xì)的物體目標(biāo)狀態(tài)描述。隨后調(diào)用圖像生成式VLM(如DALL-E 3、Stable Diffusion)根據(jù)豐富的提示詞生成目標(biāo)場景圖像。生成的圖像直觀地展示了任務(wù)完成后物體應(yīng)處的狀態(tài),作為「以物體為中心的世界模型」的輸出,無需任何3D幾何信息。

第二階段:空間基準(zhǔn)計(jì)算(Spatial Grounding)

將生成的目標(biāo)圖像與當(dāng)前觀測圖像進(jìn)行像素級語義特征匹配,結(jié)合深度圖信息,通過特征對應(yīng)關(guān)系求解從當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的3D變換矩陣(位姿增量)。這一步驟將2D視覺推理轉(zhuǎn)化為3D空間操作指令。

第三階段:底層策略執(zhí)行(Low-level Policy)

根據(jù)計(jì)算出的目標(biāo)位姿,生成無碰撞的運(yùn)動軌跡并驅(qū)動機(jī)械臂執(zhí)行。底層策略可復(fù)用現(xiàn)有的運(yùn)動規(guī)劃算法,無需額外訓(xùn)練。

核心創(chuàng)新:合成-反思迭代機(jī)制

將生成的虛擬目標(biāo)圖像疊加到真實(shí)場景中進(jìn)行視覺審查——檢查目標(biāo)位姿是否物理可行(如是否超出桌面范圍、是否與其他物體碰撞)。若不可行,則自動修正描述并重新生成,形成「合成-反思」的閉環(huán)迭代。消融實(shí)驗(yàn)顯示該機(jī)制將基礎(chǔ)成功率從40.0%大幅提升至88.8%。Goal-VLA——圖像生成式VLM化身「世界模型」,實(shí)現(xiàn)零樣本機(jī)器人操作 | ICRA 2026 

三、亮點(diǎn)總結(jié)

  亮點(diǎn)一:無需任何任務(wù)特定微調(diào),真正的零樣本泛化

 Goal-VLA在無需針對特定任務(wù)進(jìn)行任何微調(diào)、無需任何成對動作數(shù)據(jù)的情況下,實(shí)現(xiàn)了強(qiáng)大的機(jī)器人操控能力。在RLBench仿真環(huán)境的59個任務(wù)上,平均成功率達(dá)59.9%,顯著優(yōu)于OpenVLA(37.6%)、Pi0(48.9%)、MOKA(37.5%)等需要大量數(shù)據(jù)訓(xùn)練的基線方法。

亮點(diǎn)二:真實(shí)機(jī)器人上的卓越表現(xiàn) 

在真實(shí)的UFACTORY X-ARM 7機(jī)械臂上,Goal-VLA實(shí)現(xiàn)了60%的平均成功率,展示了從仿真到真實(shí)的良好遷移能力??缥矬w、跨環(huán)境、跨任務(wù)的泛化測試均表現(xiàn)優(yōu)異,證明了其作為通用機(jī)器人操作框架的潛力。

亮點(diǎn)三:圖像生成VLM作為世界模型的新范式

 Goal-VLA首次系統(tǒng)性地驗(yàn)證了圖像生成式VLM可以作為機(jī)器人操作中的「世界模型」——通過生成目標(biāo)場景圖像來預(yù)測任務(wù)完成后的狀態(tài),替代了傳統(tǒng)方法中昂貴的3D目標(biāo)表示。這一范式創(chuàng)新大幅降低了VLA模型的數(shù)據(jù)需求,為具身智能的普惠化發(fā)展開辟了新路徑。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成,更詳細(xì)信息參見兩個鏈接

原文鏈接:https://arxiv.org/abs/2506.23919

解讀來源:https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2


【封面圖片來源:網(wǎng)站名WXRedian,所有者:具身智能之心】

分享:
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
宜良县| 右玉县| 丽水市| 横峰县| 上高县| 甘德县| 浮梁县| 成都市| 邯郸县| 九寨沟县| 公主岭市| 子洲县| 股票| 台东市| 收藏| 乌海市| 红原县| 韶山市| 蕉岭县| 渝北区| 福建省| 乌鲁木齐县| 昌宁县| 新龙县| 彝良县| 连云港市| 忻州市| 古蔺县| 长治县| 陆河县| 且末县| 焦作市| 阳山县| 平南县| 长治县| 秦皇岛市| 辛集市| 黎平县| 和林格尔县| 竹溪县| 古交市|