ICRA 2026｜北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act：讓機(jī)器人“先想象、再動(dòng)手”，攻克精細(xì)家務(wù)難題

2026-05-27 18:11

導(dǎo)語(yǔ)：該框架在仿真和真實(shí)世界的家庭服務(wù)任務(wù)中均表現(xiàn)出色，為家庭服務(wù)機(jī)器人的高精度操作提供了一種可解釋、可泛化的解決方案。

來(lái)源：公眾號(hào)“北京大學(xué)前沿計(jì)算研究中心”

原文鏈接：https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

論?地址：https://arxiv.org/abs/2509.17125

前言：本文是對(duì)發(fā)表于機(jī)器人和自動(dòng)化領(lǐng)域頂級(jí)會(huì)議 ICRA 2026 的論文 Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals for Robotic Manipulation 的解讀。該論文由北京大學(xué)董豪團(tuán)隊(duì)主導(dǎo)完成。

該研究聚焦家庭服務(wù)機(jī)器人高精度操作的核心難題，為插花，放盤(pán)，疊杯等關(guān)系性物體重排任務(wù)提供了全新的解決方案。

研究背景

關(guān)系性物體重排是家庭服務(wù)機(jī)器人的核心能力之一，典型任務(wù)包括“將花插入花瓶”“將盤(pán)子放入碗架”“將筆插入筆筒”等。這類任務(wù)不僅需要機(jī)器人理解“什么物體應(yīng)該放在哪里”的語(yǔ)義關(guān)系，還必須滿足精確的幾何約束——例如，盤(pán)子必須垂直插入碗架的狹窄槽位，存在微小偏差就可能導(dǎo)致任務(wù)失敗。

當(dāng)前機(jī)器人操作的主流方法存在兩大明顯瓶頸：

傳統(tǒng) 3D 模仿學(xué)習(xí)方法，雖然能夠直接從 RGB-D 觀測(cè)映射到機(jī)器人動(dòng)作，但它們通常缺乏對(duì)物體間復(fù)雜幾何關(guān)系的顯式推理能力，只能在隱式空間學(xué)習(xí)約束，高精度對(duì)齊任務(wù)中表現(xiàn)極不穩(wěn)定；

一些方法嘗試?yán)蒙赡Ｐ蜕赡繕?biāo)狀態(tài)觀測(cè)，為策略提供語(yǔ)義幾何先驗(yàn)，然而這些方法往往直接將生成的物體變換作為機(jī)器人動(dòng)作執(zhí)行，或者僅將其作為策略的輔助輸入而未建立顯式關(guān)聯(lián)。由于生成過(guò)程不可避免地存在噪聲，直接執(zhí)行會(huì)導(dǎo)致誤差累積，而松散關(guān)聯(lián)則無(wú)法有效利用幾何信息。

于是，我們提出了 Imagine2Act——一個(gè)將物體的語(yǔ)義幾何約束融入策略學(xué)習(xí)的 3D 模仿學(xué)習(xí)框架，旨在增強(qiáng)幾何感知能力，并通過(guò)想象物體變換信號(hào)的引導(dǎo)實(shí)現(xiàn)精確的動(dòng)作預(yù)測(cè)。

核心方法

ICRA 2026｜北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act：讓機(jī)器人“先想象、再動(dòng)手”，攻克精細(xì)家務(wù)難題

如上圖所示，Imagine2Act 的整體架構(gòu)包含語(yǔ)義幾何約束生成模塊和物體-動(dòng)作一致性學(xué)習(xí)模塊兩大核心，整個(gè)流程包括在機(jī)器人執(zhí)行前生成想象目標(biāo)，并在訓(xùn)練中通過(guò)軟監(jiān)督機(jī)制對(duì)齊動(dòng)作與物體變換。

ICRA 2026｜北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act：讓機(jī)器人“先想象、再動(dòng)手”，攻克精細(xì)家務(wù)難題

上圖為 Imagine2Act 兩大核心模塊的詳細(xì)執(zhí)行流程圖。

語(yǔ)義幾何約束生成模塊：生成與真實(shí)場(chǎng)景對(duì)齊的想象目標(biāo)

這個(gè)模塊的核心是基于人類的語(yǔ)言指令，生成一個(gè)與實(shí)際場(chǎng)景對(duì)齊的、包含正確語(yǔ)義幾何關(guān)系的目標(biāo)圖像，再將其轉(zhuǎn)化為 3D 點(diǎn)云，為機(jī)器人提供高質(zhì)量的幾何先驗(yàn)，如上圖左下方所示，整個(gè)過(guò)程分為三步：

第一步是圖像編輯：如上圖左下方所示，我們首先使用圖像編輯模型（如 GPT-Image），輸入初始觀測(cè)圖像與語(yǔ)言指令，生成一幅描繪任務(wù)完成場(chǎng)景的圖像。生成圖像與初始觀測(cè)保持相同的相機(jī)視角，為后續(xù) 3D 對(duì)齊奠定基礎(chǔ)；

第二步是點(diǎn)云重建：為了減少生成噪聲，我們確保只修改與任務(wù)相關(guān)的物體，而保持場(chǎng)景其余部分不變。具體來(lái)說(shuō)，我們通過(guò)分割模型（如 Grounded-SAM）從生成圖像中分割出前景物體（即運(yùn)動(dòng)物體和錨定物體），利用 3D 重建模型（如 TripoSR）為前景物體生成點(diǎn)云。這些點(diǎn)云編碼了想象中的幾何約束；

第三步是幾何對(duì)齊：從初始觀測(cè)中估計(jì)錨定物體的 6D 姿態(tài)，并將生成的前景點(diǎn)云以該姿態(tài)和適當(dāng)比例變換到世界坐標(biāo)系中。背景點(diǎn)云則直接從初始觀測(cè)中提取，保持不變。最終拼接得到的想象目標(biāo)點(diǎn)云既包含了任務(wù)所需的語(yǔ)義布局，又與實(shí)際場(chǎng)景在幾何上對(duì)齊。

有了想象目標(biāo)點(diǎn)云后，我們對(duì)它進(jìn)行投影以獲得相應(yīng)的想象目標(biāo)觀測(cè)的 RGB 圖和深度圖，進(jìn)而以對(duì)當(dāng)前觀測(cè)數(shù)據(jù)的處理方式來(lái)對(duì)想象目標(biāo)觀測(cè)進(jìn)行特征提取處理，將其作為模型的額外輸入。

物體-動(dòng)作一致性學(xué)習(xí)模塊：讓機(jī)器人動(dòng)作匹配物體變換

如上圖右下方所示，通過(guò)想象的目標(biāo)觀測(cè)，我們可以計(jì)算將可移動(dòng)物體從初始姿態(tài)移動(dòng)到想象目標(biāo)姿態(tài)所需的剛體變換。由于末端執(zhí)行器是物體運(yùn)動(dòng)的直接執(zhí)行器，其軌跡本質(zhì)上與物體的變換相似，使兩者高度相關(guān)。然而，直接將生成物體運(yùn)動(dòng)作為末端執(zhí)行器的作用運(yùn)動(dòng)，可能導(dǎo)致生成過(guò)程中潛在的誤差，導(dǎo)致誤差累積。因此我們?cè)O(shè)計(jì)了雙重對(duì)齊機(jī)制：編碼變換 token 與軟姿態(tài)一致性損失。

編碼變換 token：通過(guò)計(jì)算運(yùn)動(dòng)物體從初始狀態(tài)到想象目標(biāo)狀態(tài)的剛性變換（旋轉(zhuǎn)矩陣與平移向量），將其編碼為一個(gè)緊湊的變換 token。該 token 與視覺(jué)、語(yǔ)言、歷史狀態(tài) tokens 一同輸入動(dòng)作生成模塊，為動(dòng)作預(yù)測(cè)提供明確的物體運(yùn)動(dòng)先驗(yàn)；

軟姿態(tài)一致性損失：設(shè)計(jì)了一種閾值化的損失函數(shù)，僅在預(yù)測(cè)的末端執(zhí)行器運(yùn)動(dòng)與物體變換之間的偏差超過(guò)容忍閾值時(shí)才施加懲罰。具體包括計(jì)算預(yù)測(cè)旋轉(zhuǎn)與物體旋轉(zhuǎn)之間的測(cè)地距離，以及計(jì)算平移的歐幾里得距離，使用 Sigmoid 函數(shù)實(shí)現(xiàn)平滑懲罰，避免硬約束導(dǎo)致的訓(xùn)練不穩(wěn)定。這一設(shè)計(jì)既利用了物體變換的強(qiáng)信號(hào)引導(dǎo)策略，又通過(guò)軟監(jiān)督容忍了生成噪聲與小偏差，防止誤差在動(dòng)作序列中累積。

實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證 Imagine2Act 的效果，我們?cè)诜抡姝h(huán)境 RLBench 和真實(shí)世界機(jī)器人平臺(tái)開(kāi)展了全面實(shí)驗(yàn)，測(cè)試任務(wù)均圍繞家庭服務(wù)機(jī)器人的日常家務(wù)操作展開(kāi)，同時(shí)設(shè)置了 3D Diffuser Actor、Imagine Policy 等主流基線模型進(jìn)行對(duì)比。

仿真實(shí)驗(yàn)：高精度完成家庭物體重排任務(wù)

我們?cè)诜抡姝h(huán)境 RLBench 與真實(shí)世界機(jī)器人平臺(tái)上進(jìn)行了全面驗(yàn)證，并進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。RLBench 仿真實(shí)驗(yàn)中，我們選取了 7 個(gè)具有挑戰(zhàn)性的關(guān)系性重排任務(wù)，如 Put-Knife、Stack-Wine、Place-Cups 等，每個(gè)任務(wù)需 100 條演示進(jìn)行訓(xùn)練，25 次測(cè)試評(píng)估。對(duì)比基線包括基于 3D 場(chǎng)景表示的擴(kuò)散策略 3D Diffuser Actor、生成目標(biāo)點(diǎn)云并直接作為動(dòng)作執(zhí)行的 Imagine Policy，以及基于語(yǔ)言條件點(diǎn)云 Transformer 的 3D-LOTUS。實(shí)驗(yàn)所涉及的任務(wù)類型與驗(yàn)證維度如下圖所示。

ICRA 2026｜北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act：讓機(jī)器人“先想象、再動(dòng)手”，攻克精細(xì)家務(wù)難題

實(shí)驗(yàn)結(jié)果顯示，Imagine2Act 在 7 個(gè)任務(wù)上的平均成功率達(dá)到 0.79，顯著優(yōu)于所有基線模型：相比 3D Diffuser Actor，通過(guò)語(yǔ)義幾何約束大幅提升了空間推理精度；相比 Imagine Policy，通過(guò)物體-動(dòng)作對(duì)齊機(jī)制徹底避免了生成噪聲的直接傳播。

通過(guò)系統(tǒng)的消融實(shí)驗(yàn)，我們驗(yàn)證了各模塊的貢獻(xiàn)。完整模型在變換 token、軟損失和想象點(diǎn)云都使用的情況下取得了 0.79 的平均成功率。相比之下，當(dāng)移除想象模塊時(shí)，性能下降至 0.67，這證明了語(yǔ)義幾何先驗(yàn)的有效性。僅使用想象目標(biāo)生成的配置取得了 0.72 的成功率，與使用真實(shí)目標(biāo)狀態(tài)的 0.74 接近，說(shuō)明我們的生成模塊能高質(zhì)量逼近真實(shí)目標(biāo)狀態(tài)。分別添加變換 token 或軟損失都帶來(lái)了性能提升，且二者結(jié)合效果最佳，驗(yàn)證了雙重對(duì)齊機(jī)制的必要性。這些結(jié)果表明，想象目標(biāo)生成、變換 token 輸入和軟姿態(tài)一致性損失共同構(gòu)成了一個(gè)有效的學(xué)習(xí)框架。

為了進(jìn)一步測(cè)試方法的泛化性，我們還在 RLBench 上額外評(píng)估了 5 個(gè)鉸鏈物體操作任務(wù)，包括關(guān)盒子、關(guān)抽屜、開(kāi)微波爐等。Imagine2Act 在這些任務(wù)上取得了與 3D Diffuser Actor 相當(dāng)?shù)男阅?，證明了其對(duì)不同任務(wù)類型的適應(yīng)性。

真實(shí)世界實(shí)驗(yàn)：適配真實(shí)家庭的噪聲環(huán)境

ICRA 2026｜北京大學(xué)董豪團(tuán)隊(duì)Imagine2Act：讓機(jī)器人“先想象、再動(dòng)手”，攻克精細(xì)家務(wù)難題

真實(shí)世界實(shí)驗(yàn)中，如上圖所示，我們?cè)?Franka Emika 機(jī)器人平臺(tái)上部署了 Imagine2Act，執(zhí)行包括疊杯子、關(guān)罐子、插花、放盤(pán)子等 6 個(gè)日常操作任務(wù)。

實(shí)驗(yàn)結(jié)果顯示，Imagine2Act 在真實(shí)世界的平均成功率達(dá)到 0.68，遠(yuǎn)高于 3D Diffuser Actor 的 0.43，這些結(jié)果證明了該框架不僅能解決仿真任務(wù)，更能遷移到真實(shí)世界的噪聲、不確定性環(huán)境中，具備實(shí)際部署潛力。

總結(jié)與展望

Imagine2Act 的核心創(chuàng)新，是讓家庭服務(wù)機(jī)器人學(xué)會(huì) “先想象、再動(dòng)手”：通過(guò)生成與真實(shí)場(chǎng)景對(duì)齊的想象目標(biāo)點(diǎn)云，為機(jī)器人提供了豐富的語(yǔ)義幾何先驗(yàn)，解決了傳統(tǒng)方法缺乏空間推理能力的問(wèn)題；通過(guò)物體-動(dòng)作一致性學(xué)習(xí)的雙重對(duì)齊機(jī)制，在利用生成目標(biāo)信號(hào)的同時(shí)避免了生成噪聲的誤差累積，解決了高精度操作的核心難題。

該框架在仿真和真實(shí)世界的家庭服務(wù)任務(wù)中均表現(xiàn)出色，為家庭服務(wù)機(jī)器人的高精度操作提供了一種可解釋、可泛化的解決方案。未來(lái)，我們將進(jìn)一步優(yōu)化想象目標(biāo)生成的效率和精度，適配更多樣、更復(fù)雜的家庭服務(wù)場(chǎng)景，讓家庭服務(wù)機(jī)器人能更精準(zhǔn)、更智能地完成各類家務(wù)，真正走進(jìn)普通家庭的日常生活。

團(tuán)隊(duì)介紹

實(shí)驗(yàn)室由北京大學(xué)前沿計(jì)算研究中心長(zhǎng)聘副教授董豪指導(dǎo)，團(tuán)隊(duì)專注于機(jī)器人視覺(jué)，物體操作，語(yǔ)義導(dǎo)航和具身自主決策等領(lǐng)域的前沿技術(shù)，致力于為家用、商用和工業(yè)場(chǎng)景創(chuàng)建具有成本效益的人形機(jī)器人。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章