97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給吳思?jí)?/span>
發(fā)送

0

ICRA 2026|北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act:讓機(jī)器人“先想象、再動(dòng)手”,攻克精細(xì)家務(wù)難題

導(dǎo)語(yǔ):該框架在仿真和真實(shí)世界的家庭服務(wù)任務(wù)中均表現(xiàn)出色,為家庭服務(wù)機(jī)器人的高精度操作提供了一種可解釋、可泛化的解決方案。

來(lái)源:公眾號(hào)“北京大學(xué)前沿計(jì)算研究中心”

原文鏈接:https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

論?地址:https://arxiv.org/abs/2509.17125


前言:本文是對(duì)發(fā)表于機(jī)器人和自動(dòng)化領(lǐng)域頂級(jí)會(huì)議 ICRA 2026 的論文 Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals for Robotic Manipulation 的解讀。該論文由北京大學(xué)董豪團(tuán)隊(duì)主導(dǎo)完成。

 

該研究聚焦家庭服務(wù)機(jī)器人高精度操作的核心難題,為插花,放盤(pán),疊杯等關(guān)系性物體重排任務(wù)提供了全新的解決方案。

  

01

研究背景

關(guān)系性物體重排是家庭服務(wù)機(jī)器人的核心能力之一,典型任務(wù)包括“將花插入花瓶”“將盤(pán)子放入碗架”“將筆插入筆筒”等。這類任務(wù)不僅需要機(jī)器人理解“什么物體應(yīng)該放在哪里”的語(yǔ)義關(guān)系,還必須滿足精確的幾何約束——例如,盤(pán)子必須垂直插入碗架的狹窄槽位,存在微小偏差就可能導(dǎo)致任務(wù)失敗。

 

當(dāng)前機(jī)器人操作的主流方法存在兩大明顯瓶頸:


傳統(tǒng) 3D 模仿學(xué)習(xí)方法,雖然能夠直接從 RGB-D 觀測(cè)映射到機(jī)器人動(dòng)作,但它們通常缺乏對(duì)物體間復(fù)雜幾何關(guān)系的顯式推理能力,只能在隱式空間學(xué)習(xí)約束,高精度對(duì)齊任務(wù)中表現(xiàn)極不穩(wěn)定;

一些方法嘗試?yán)蒙赡P蜕赡繕?biāo)狀態(tài)觀測(cè),為策略提供語(yǔ)義幾何先驗(yàn),然而這些方法往往直接將生成的物體變換作為機(jī)器人動(dòng)作執(zhí)行,或者僅將其作為策略的輔助輸入而未建立顯式關(guān)聯(lián)。由于生成過(guò)程不可避免地存在噪聲,直接執(zhí)行會(huì)導(dǎo)致誤差累積,而松散關(guān)聯(lián)則無(wú)法有效利用幾何信息。

 

于是,我們提出了 Imagine2Act——一個(gè)將物體的語(yǔ)義幾何約束融入策略學(xué)習(xí)的 3D 模仿學(xué)習(xí)框架,旨在增強(qiáng)幾何感知能力,并通過(guò)想象物體變換信號(hào)的引導(dǎo)實(shí)現(xiàn)精確的動(dòng)作預(yù)測(cè)。

 

02

核心方法

ICRA 2026|北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act:讓機(jī)器人“先想象、再動(dòng)手”,攻克精細(xì)家務(wù)難題

如上圖所示,Imagine2Act 的整體架構(gòu)包含語(yǔ)義幾何約束生成模塊和物體-動(dòng)作一致性學(xué)習(xí)模塊兩大核心,整個(gè)流程包括在機(jī)器人執(zhí)行前生成想象目標(biāo),并在訓(xùn)練中通過(guò)軟監(jiān)督機(jī)制對(duì)齊動(dòng)作與物體變換。

ICRA 2026|北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act:讓機(jī)器人“先想象、再動(dòng)手”,攻克精細(xì)家務(wù)難題

上圖為 Imagine2Act 兩大核心模塊的詳細(xì)執(zhí)行流程圖。

 

語(yǔ)義幾何約束生成模塊:生成與真實(shí)場(chǎng)景對(duì)齊的想象目標(biāo)

這個(gè)模塊的核心是基于人類的語(yǔ)言指令,生成一個(gè)與實(shí)際場(chǎng)景對(duì)齊的、包含正確語(yǔ)義幾何關(guān)系的目標(biāo)圖像,再將其轉(zhuǎn)化為 3D 點(diǎn)云,為機(jī)器人提供高質(zhì)量的幾何先驗(yàn),如上圖左下方所示,整個(gè)過(guò)程分為三步:

 

第一步是圖像編輯:如上圖左下方所示,我們首先使用圖像編輯模型(如 GPT-Image),輸入初始觀測(cè)圖像與語(yǔ)言指令,生成一幅描繪任務(wù)完成場(chǎng)景的圖像。生成圖像與初始觀測(cè)保持相同的相機(jī)視角,為后續(xù) 3D 對(duì)齊奠定基礎(chǔ);

 

第二步是點(diǎn)云重建:為了減少生成噪聲,我們確保只修改與任務(wù)相關(guān)的物體,而保持場(chǎng)景其余部分不變。具體來(lái)說(shuō),我們通過(guò)分割模型(如 Grounded-SAM)從生成圖像中分割出前景物體(即運(yùn)動(dòng)物體和錨定物體),利用 3D 重建模型(如 TripoSR)為前景物體生成點(diǎn)云。這些點(diǎn)云編碼了想象中的幾何約束;

 

第三步是幾何對(duì)齊:從初始觀測(cè)中估計(jì)錨定物體的 6D 姿態(tài),并將生成的前景點(diǎn)云以該姿態(tài)和適當(dāng)比例變換到世界坐標(biāo)系中。背景點(diǎn)云則直接從初始觀測(cè)中提取,保持不變。最終拼接得到的想象目標(biāo)點(diǎn)云既包含了任務(wù)所需的語(yǔ)義布局,又與實(shí)際場(chǎng)景在幾何上對(duì)齊。

 

有了想象目標(biāo)點(diǎn)云后,我們對(duì)它進(jìn)行投影以獲得相應(yīng)的想象目標(biāo)觀測(cè)的 RGB 圖和深度圖,進(jìn)而以對(duì)當(dāng)前觀測(cè)數(shù)據(jù)的處理方式來(lái)對(duì)想象目標(biāo)觀測(cè)進(jìn)行特征提取處理,將其作為模型的額外輸入。

 

物體-動(dòng)作一致性學(xué)習(xí)模塊:讓機(jī)器人動(dòng)作匹配物體變換

如上圖右下方所示,通過(guò)想象的目標(biāo)觀測(cè),我們可以計(jì)算將可移動(dòng)物體從初始姿態(tài)移動(dòng)到想象目標(biāo)姿態(tài)所需的剛體變換。由于末端執(zhí)行器是物體運(yùn)動(dòng)的直接執(zhí)行器,其軌跡本質(zhì)上與物體的變換相似,使兩者高度相關(guān)。然而,直接將生成物體運(yùn)動(dòng)作為末端執(zhí)行器的作用運(yùn)動(dòng),可能導(dǎo)致生成過(guò)程中潛在的誤差,導(dǎo)致誤差累積。因此我們?cè)O(shè)計(jì)了雙重對(duì)齊機(jī)制:編碼變換 token 與軟姿態(tài)一致性損失。

 

編碼變換 token:通過(guò)計(jì)算運(yùn)動(dòng)物體從初始狀態(tài)到想象目標(biāo)狀態(tài)的剛性變換(旋轉(zhuǎn)矩陣與平移向量),將其編碼為一個(gè)緊湊的變換 token。該 token 與視覺(jué)、語(yǔ)言、歷史狀態(tài) tokens 一同輸入動(dòng)作生成模塊,為動(dòng)作預(yù)測(cè)提供明確的物體運(yùn)動(dòng)先驗(yàn);

 

軟姿態(tài)一致性損失:設(shè)計(jì)了一種閾值化的損失函數(shù),僅在預(yù)測(cè)的末端執(zhí)行器運(yùn)動(dòng)與物體變換之間的偏差超過(guò)容忍閾值時(shí)才施加懲罰。具體包括計(jì)算預(yù)測(cè)旋轉(zhuǎn)與物體旋轉(zhuǎn)之間的測(cè)地距離,以及計(jì)算平移的歐幾里得距離,使用 Sigmoid 函數(shù)實(shí)現(xiàn)平滑懲罰,避免硬約束導(dǎo)致的訓(xùn)練不穩(wěn)定。這一設(shè)計(jì)既利用了物體變換的強(qiáng)信號(hào)引導(dǎo)策略,又通過(guò)軟監(jiān)督容忍了生成噪聲與小偏差,防止誤差在動(dòng)作序列中累積。

 

03

實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證 Imagine2Act 的效果,我們?cè)诜抡姝h(huán)境 RLBench 和真實(shí)世界機(jī)器人平臺(tái)開(kāi)展了全面實(shí)驗(yàn),測(cè)試任務(wù)均圍繞家庭服務(wù)機(jī)器人的日常家務(wù)操作展開(kāi),同時(shí)設(shè)置了 3D Diffuser Actor、Imagine Policy 等主流基線模型進(jìn)行對(duì)比。

 

仿真實(shí)驗(yàn):高精度完成家庭物體重排任務(wù)

我們?cè)诜抡姝h(huán)境 RLBench 與真實(shí)世界機(jī)器人平臺(tái)上進(jìn)行了全面驗(yàn)證,并進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。RLBench 仿真實(shí)驗(yàn)中,我們選取了 7 個(gè)具有挑戰(zhàn)性的關(guān)系性重排任務(wù),如 Put-Knife、Stack-Wine、Place-Cups 等,每個(gè)任務(wù)需 100 條演示進(jìn)行訓(xùn)練,25 次測(cè)試評(píng)估。對(duì)比基線包括基于 3D 場(chǎng)景表示的擴(kuò)散策略 3D Diffuser Actor、生成目標(biāo)點(diǎn)云并直接作為動(dòng)作執(zhí)行的 Imagine Policy,以及基于語(yǔ)言條件點(diǎn)云 Transformer 的 3D-LOTUS。實(shí)驗(yàn)所涉及的任務(wù)類型與驗(yàn)證維度如下圖所示。

ICRA 2026|北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act:讓機(jī)器人“先想象、再動(dòng)手”,攻克精細(xì)家務(wù)難題

實(shí)驗(yàn)結(jié)果顯示,Imagine2Act 在 7 個(gè)任務(wù)上的平均成功率達(dá)到 0.79,顯著優(yōu)于所有基線模型:相比 3D Diffuser Actor,通過(guò)語(yǔ)義幾何約束大幅提升了空間推理精度;相比 Imagine Policy,通過(guò)物體-動(dòng)作對(duì)齊機(jī)制徹底避免了生成噪聲的直接傳播。

 

通過(guò)系統(tǒng)的消融實(shí)驗(yàn),我們驗(yàn)證了各模塊的貢獻(xiàn)。完整模型在變換 token、軟損失和想象點(diǎn)云都使用的情況下取得了 0.79 的平均成功率。相比之下,當(dāng)移除想象模塊時(shí),性能下降至 0.67,這證明了語(yǔ)義幾何先驗(yàn)的有效性。僅使用想象目標(biāo)生成的配置取得了 0.72 的成功率,與使用真實(shí)目標(biāo)狀態(tài)的 0.74 接近,說(shuō)明我們的生成模塊能高質(zhì)量逼近真實(shí)目標(biāo)狀態(tài)。分別添加變換 token 或軟損失都帶來(lái)了性能提升,且二者結(jié)合效果最佳,驗(yàn)證了雙重對(duì)齊機(jī)制的必要性。這些結(jié)果表明,想象目標(biāo)生成、變換 token 輸入和軟姿態(tài)一致性損失共同構(gòu)成了一個(gè)有效的學(xué)習(xí)框架。

 

為了進(jìn)一步測(cè)試方法的泛化性,我們還在 RLBench 上額外評(píng)估了 5 個(gè)鉸鏈物體操作任務(wù),包括關(guān)盒子、關(guān)抽屜、開(kāi)微波爐等。Imagine2Act 在這些任務(wù)上取得了與 3D Diffuser Actor 相當(dāng)?shù)男阅?,證明了其對(duì)不同任務(wù)類型的適應(yīng)性。

 

真實(shí)世界實(shí)驗(yàn):適配真實(shí)家庭的噪聲環(huán)境

ICRA 2026|北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act:讓機(jī)器人“先想象、再動(dòng)手”,攻克精細(xì)家務(wù)難題

真實(shí)世界實(shí)驗(yàn)中,如上圖所示,我們?cè)?Franka Emika 機(jī)器人平臺(tái)上部署了 Imagine2Act,執(zhí)行包括疊杯子、關(guān)罐子、插花、放盤(pán)子等 6 個(gè)日常操作任務(wù)。

 

實(shí)驗(yàn)結(jié)果顯示,Imagine2Act 在真實(shí)世界的平均成功率達(dá)到 0.68,遠(yuǎn)高于 3D Diffuser Actor 的 0.43,這些結(jié)果證明了該框架不僅能解決仿真任務(wù),更能遷移到真實(shí)世界的噪聲、不確定性環(huán)境中,具備實(shí)際部署潛力。

 

04

總結(jié)與展望

Imagine2Act 的核心創(chuàng)新,是讓家庭服務(wù)機(jī)器人學(xué)會(huì) “先想象、再動(dòng)手”:通過(guò)生成與真實(shí)場(chǎng)景對(duì)齊的想象目標(biāo)點(diǎn)云,為機(jī)器人提供了豐富的語(yǔ)義幾何先驗(yàn),解決了傳統(tǒng)方法缺乏空間推理能力的問(wèn)題;通過(guò)物體-動(dòng)作一致性學(xué)習(xí)的雙重對(duì)齊機(jī)制,在利用生成目標(biāo)信號(hào)的同時(shí)避免了生成噪聲的誤差累積,解決了高精度操作的核心難題。

 

該框架在仿真和真實(shí)世界的家庭服務(wù)任務(wù)中均表現(xiàn)出色,為家庭服務(wù)機(jī)器人的高精度操作提供了一種可解釋、可泛化的解決方案。未來(lái),我們將進(jìn)一步優(yōu)化想象目標(biāo)生成的效率和精度,適配更多樣、更復(fù)雜的家庭服務(wù)場(chǎng)景,讓家庭服務(wù)機(jī)器人能更精準(zhǔn)、更智能地完成各類家務(wù),真正走進(jìn)普通家庭的日常生活。

 

團(tuán)隊(duì)介紹

實(shí)驗(yàn)室由北京大學(xué)前沿計(jì)算研究中心長(zhǎng)聘副教授董豪指導(dǎo),團(tuán)隊(duì)專注于機(jī)器人視覺(jué),物體操作,語(yǔ)義導(dǎo)航和具身自主決策等領(lǐng)域的前沿技術(shù),致力于為家用、商用和工業(yè)場(chǎng)景創(chuàng)建具有成本效益的人形機(jī)器人。


雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

 

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
台湾省| 山阳县| 深泽县| 望都县| 凤庆县| 万年县| 乐至县| 湄潭县| 化隆| 石楼县| 龙口市| 吉水县| 许昌县| 星子县| 靖江市| 西充县| 西昌市| 上蔡县| 公主岭市| 镶黄旗| 阜城县| 平安县| 泌阳县| 四平市| 贡山| 固始县| 马公市| 南城县| 陇南市| 临海市| 梁河县| 义乌市| 嵩明县| 峨山| 西充县| 前郭尔| 屏东市| 环江| 黎平县| 凯里市| 罗平县|