ICRA 2026 | 深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)工作速覽

本文作者：吳思夢

2026-06-01 14:07

導(dǎo)語：本系列文章將介紹深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)在本屆會議上的錄用論文成果

原文作者：公眾號“深度強(qiáng)化學(xué)習(xí) CASIA”

原文鏈接：https://mp.weixin.qq.com/s/amDj0sH1O1fr1OalrJr9Qw

01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving

作者：Yupeng Zheng，Pengxuan Yang，Zhongpu Xia，Qichao Zhang，Yuhang Zheng，Bu Jin，Teng Zhang，Ben Lu，Chao Han，Xianpeng Lang，Xiangyuan Lan，Dongbin Zhao

端到端自動(dòng)駕駛因其強(qiáng)大的可擴(kuò)展性，正在成為自動(dòng)駕駛領(lǐng)域的重要發(fā)展方向。然而，現(xiàn)有方法始終受限于真實(shí)駕駛數(shù)據(jù)規(guī)模不足，導(dǎo)致人們對端到端自動(dòng)駕駛“數(shù)據(jù) scaling law（規(guī)模規(guī)律）”的理解仍然十分有限。為深入探索這一問題，我們構(gòu)建了大規(guī)模真實(shí)駕駛數(shù)據(jù)集，并系統(tǒng)研究了模仿學(xué)習(xí)范式下端到端自動(dòng)駕駛模型的數(shù)據(jù)規(guī)模規(guī)律。該工作累計(jì)采集了覆蓋23類駕駛場景的約400萬條駕駛演示數(shù)據(jù)，總時(shí)長超過3萬小時(shí)，是目前少有的大規(guī)模系統(tǒng)性研究之一。同時(shí)，我們在1400段復(fù)雜駕駛?cè)蝿?wù)中進(jìn)行了嚴(yán)格評測，包括開放環(huán)（open-loop）與閉環(huán)仿真（closed-loop）兩類測試，全面分析數(shù)據(jù)規(guī)模、數(shù)據(jù)分布與模型性能之間的關(guān)系。實(shí)驗(yàn)結(jié)果揭示了多個(gè)重要發(fā)現(xiàn)：首先，模型性能與數(shù)據(jù)量之間在開放環(huán)評測中呈現(xiàn)明顯的冪律（power-law）關(guān)系，但這一規(guī)律在更貼近真實(shí)駕駛的閉環(huán)評測中并不成立。這意味著，僅僅擴(kuò)大數(shù)據(jù)規(guī)模并不足以解決自動(dòng)駕駛問題，數(shù)據(jù)分布質(zhì)量與場景覆蓋度同樣至關(guān)重要。其次，少量長尾場景數(shù)據(jù)的增加，就能夠顯著提升模型在對應(yīng)復(fù)雜場景中的表現(xiàn)。更進(jìn)一步，合理的數(shù)據(jù)擴(kuò)展策略還能使模型具備對新場景與新動(dòng)作組合的泛化能力，實(shí)現(xiàn)真正意義上的組合泛化（compositional generalization）。該研究首次系統(tǒng)揭示了端到端自動(dòng)駕駛中的數(shù)據(jù) scaling law，為未來構(gòu)建更安全、更泛化、更可靠的自動(dòng)駕駛系統(tǒng)提供了重要參考，也進(jìn)一步說明：自動(dòng)駕駛的核心競爭力，正在從“模型設(shè)計(jì)”逐步轉(zhuǎn)向“高質(zhì)量數(shù)據(jù)與場景覆蓋能力”。

ICRA 2026 | 深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)工作速覽

02. ConsistencyPlanner: Real-time Planning with Fast-Sampling Consistency Models

作者：Qichao Zhang，Xing Fang，Jiaqi Fang，Zhenwen Cai，Jie Ling，Qiankun Yu，Dongbin Zhao

在復(fù)雜真實(shí)交通環(huán)境中，實(shí)現(xiàn)安全、高效的閉環(huán)規(guī)劃，一直是自動(dòng)駕駛系統(tǒng)面臨的核心挑戰(zhàn)。傳統(tǒng)基于規(guī)則的方法雖然具備較強(qiáng)可解釋性，但依賴人工設(shè)計(jì)的啟發(fā)式規(guī)則，難以適應(yīng)動(dòng)態(tài)、多變的真實(shí)交通場景；而近年來快速發(fā)展的學(xué)習(xí)式方法，雖然具備更強(qiáng)的數(shù)據(jù)驅(qū)動(dòng)能力，卻往往難以兼顧“多樣化駕駛行為建?！迸c“實(shí)時(shí)規(guī)劃效率”，容易出現(xiàn)猶豫、不穩(wěn)定甚至危險(xiǎn)的決策行為。針對這一問題，我們提出了全新的實(shí)時(shí)自動(dòng)駕駛規(guī)劃框架 ConsistencyPlanner。該方法基于近年來興起的 Consistency Model，實(shí)現(xiàn)了兼具多模態(tài)行為生成能力與實(shí)時(shí)性的閉環(huán)規(guī)劃，為復(fù)雜動(dòng)態(tài)交通場景下的自動(dòng)駕駛提供了新的解決方案。ConsistencyPlanner包含兩項(xiàng)關(guān)鍵創(chuàng)新。首先，我們提出了基于快速采樣一致性模型（fast-sampling consistency model）的多模態(tài)軌跡生成機(jī)制，能夠在極短時(shí)間內(nèi)高效生成多種合理未來軌跡，實(shí)現(xiàn)對復(fù)雜駕駛行為的實(shí)時(shí)探索，突破了傳統(tǒng)生成式規(guī)劃方法需要多步迭代采樣、推理速度慢的問題。其次，我們設(shè)計(jì)了注意力增強(qiáng)的異構(gòu)特征融合解碼器，將場景特征（scene feature）與動(dòng)作 token 等不同類型輸入進(jìn)行動(dòng)態(tài)融合，從而提升系統(tǒng)對復(fù)雜環(huán)境的理解與規(guī)劃魯棒性。在Waymax仿真平臺上的大量實(shí)驗(yàn)表明，ConsistencyPlanner在安全性指標(biāo)上顯著優(yōu)于現(xiàn)有方法，尤其在復(fù)雜動(dòng)態(tài)場景中展現(xiàn)出更穩(wěn)定、更安全的規(guī)劃能力。該工作展示了生成式模型在自動(dòng)駕駛實(shí)時(shí)規(guī)劃中的巨大潛力，也為下一代兼具實(shí)時(shí)性與多樣性決策能力的自動(dòng)駕駛系統(tǒng)提供了新的研究方向。

03. TakeAD: Preference-Based Post-Optimization for End-to-End Autonomous Driving With Expert Takeover Data（RA-L）

作者：Deqing Liu，Yinfeng Gao，Deheng Qian，Qichao Zhang，Xiaoqing Ye，Junyu Han，Yupeng Zheng，Xueyi Liu，Zhongpu Xia，Dawei Ding，Yifeng Pan，Dongbin Zhao

當(dāng)前主流的端到端自動(dòng)駕駛方法大多基于模仿學(xué)習(xí)（Imitation Learning, IL），但始終面臨一個(gè)關(guān)鍵難題：訓(xùn)練階段采用開放環(huán)（open-loop）學(xué)習(xí)，而真實(shí)部署時(shí)卻需要在閉環(huán)（closed-loop）環(huán)境中連續(xù)決策。這種訓(xùn)練與部署之間的不一致，往往會導(dǎo)致系統(tǒng)在復(fù)雜場景下出現(xiàn)失誤，進(jìn)而觸發(fā)人工接管（takeover）甚至系統(tǒng)退出（disengagement）。然而，這些真實(shí)接管場景中蘊(yùn)含的大量專家糾正行為，實(shí)際上是極具價(jià)值的數(shù)據(jù)資源。如何有效利用這些“系統(tǒng)失敗后的專家干預(yù)數(shù)據(jù)”，進(jìn)一步提升自動(dòng)駕駛策略能力，仍然是一個(gè)尚未被充分探索的重要問題。針對這一挑戰(zhàn)，我們提出了全新的偏好驅(qū)動(dòng)后優(yōu)化框架 TakeAD。該方法能夠利用自動(dòng)駕駛系統(tǒng)中的接管數(shù)據(jù)，對已有模仿學(xué)習(xí)策略進(jìn)行后訓(xùn)練優(yōu)化，從而顯著提升閉環(huán)駕駛性能。TakeAD首先設(shè)計(jì)了一套高效的專家接管數(shù)據(jù)采集流程，模擬真實(shí)自動(dòng)駕駛系統(tǒng)中的人類接管機(jī)制，自動(dòng)收集系統(tǒng)失效狀態(tài)下的專家糾正行為。在此基礎(chǔ)上，框架進(jìn)一步結(jié)合了兩種關(guān)鍵學(xué)習(xí)機(jī)制：一方面，通過迭代式 Dataset Aggregation（DAgger）讓模型直接學(xué)習(xí)專家在危險(xiǎn)狀態(tài)下的恢復(fù)行為，使策略具備處理 disengagement 狀態(tài)的基礎(chǔ)能力；另一方面，引入 Direct Preference Optimization（DPO）進(jìn)行偏好對齊，使模型不僅“會模仿”，還能逐漸學(xué)習(xí)更符合專家駕駛偏好的決策方式。通過多輪迭代訓(xùn)練，TakeAD能夠持續(xù)增強(qiáng)系統(tǒng)在危險(xiǎn)狀態(tài)下的恢復(fù)能力，有效緩解端到端自動(dòng)駕駛中長期存在的 open-loop gap 問題。在閉環(huán) Bench2Drive 基準(zhǔn)測試中的實(shí)驗(yàn)結(jié)果表明，相較于傳統(tǒng)純模仿學(xué)習(xí)方法，TakeAD顯著提升了自動(dòng)駕駛系統(tǒng)在復(fù)雜場景中的穩(wěn)定性與安全性。該工作也首次展示了“專家接管數(shù)據(jù) + 偏好優(yōu)化”在自動(dòng)駕駛后訓(xùn)練中的巨大潛力，為端到端自動(dòng)駕駛系統(tǒng)的持續(xù)學(xué)習(xí)與安全增強(qiáng)提供了新的方向。

04. Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving（RA-L）

作者：Zebin Xing，Yupeng Zheng，Qichao Zhang，Zhixing Ding，Pengxuan Yang，Songen Gu，Zhongpu Xia，Dongbin Zhao

代碼：https://github.com/ZebinX/Mimir-Uncertainty-Driving

端到端自動(dòng)駕駛正在成為自動(dòng)駕駛領(lǐng)域的重要發(fā)展方向。近年來，大量研究開始通過引入高層語義引導(dǎo)（high-level guidance）來輔助底層軌跡規(guī)劃，從而提升車輛在復(fù)雜場景中的決策能力。然而，現(xiàn)有方法仍存在兩個(gè)關(guān)鍵瓶頸：一方面，高層引導(dǎo)信息本身可能存在誤差，導(dǎo)致規(guī)劃結(jié)果不穩(wěn)定；另一方面，復(fù)雜引導(dǎo)模塊帶來的高計(jì)算開銷，也嚴(yán)重限制了系統(tǒng)的實(shí)時(shí)性與實(shí)際部署能力。針對這些問題，我們提出了全新的分層雙系統(tǒng)自動(dòng)駕駛框架 Mimir，實(shí)現(xiàn)了兼具魯棒性與高效率的軌跡生成能力。與以往依賴確定性目標(biāo)點(diǎn)建模的方法不同，Mimir首次通過拉普拉斯分布（Laplace Distribution）對目標(biāo)點(diǎn)不確定性進(jìn)行建模，使系統(tǒng)能夠顯式感知高層引導(dǎo)中的不確定信息，從而在復(fù)雜駕駛環(huán)境中生成更加穩(wěn)定、安全的駕駛軌跡。此外，為了解決高層引導(dǎo)模塊推理速度慢的問題，Mimir進(jìn)一步提出了多速率引導(dǎo)機(jī)制（Multi-rate Guidance Mechanism），通過提前預(yù)測更長時(shí)間范圍內(nèi)的目標(biāo)點(diǎn)，有效降低高層模塊的調(diào)用頻率，在保證規(guī)劃精度的同時(shí)顯著提升推理效率。在具有挑戰(zhàn)性的 Navhard 與 Navtest 基準(zhǔn)測試中，Mimir相較于此前最先進(jìn)方法實(shí)現(xiàn)了20%的 EPDMS 駕駛評分提升，同時(shí)高層模塊推理速度提升達(dá)到1.6倍，在性能與效率之間取得了優(yōu)異平衡。該工作展示了“高層語義引導(dǎo) + 不確定性建模”在端到端自動(dòng)駕駛中的巨大潛力，也為未來高魯棒、強(qiáng)實(shí)時(shí)性的自動(dòng)駕駛系統(tǒng)設(shè)計(jì)提供了新的思路。

05. CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

作者：Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang

主頁：https://cwb0106.github.io/CLAR/

機(jī)器人操作中的感知能力一直是制約具身智能發(fā)展的核心問題。盡管近年來大量工作開始將預(yù)訓(xùn)練2D視覺基礎(chǔ)模型引入機(jī)器人系統(tǒng)，以利用其強(qiáng)大的語義理解能力，但這類方法往往缺乏對三維空間結(jié)構(gòu)的感知能力，并且在面對不同相機(jī)視角時(shí)泛化能力有限，尤其難以勝任精細(xì)化機(jī)器人操作任務(wù)。針對這一挑戰(zhàn)，我們提出了全新的3D預(yù)訓(xùn)練框架 CL3R，旨在為機(jī)器人操作策略提供更強(qiáng)大的視覺感知能力。CL3R首次將三維空間感知與語義理解有效結(jié)合：一方面，通過基于點(diǎn)云的Masked Autoencoder學(xué)習(xí)豐富的3D空間表示；另一方面，利用對比學(xué)習(xí)從預(yù)訓(xùn)練2D基礎(chǔ)模型中遷移語義知識，實(shí)現(xiàn)高效的視覺語義對齊。同時(shí)，我們進(jìn)一步提出統(tǒng)一坐標(biāo)系的3D視覺預(yù)訓(xùn)練方案，并通過多視角點(diǎn)云隨機(jī)融合機(jī)制，有效緩解相機(jī)視角歧義問題，大幅提升模型在新視角下的泛化能力。大量仿真與真實(shí)機(jī)器人實(shí)驗(yàn)表明，CL3R能夠顯著提升機(jī)器人視覺運(yùn)動(dòng)策略學(xué)習(xí)效果，在復(fù)雜操作任務(wù)中展現(xiàn)出更強(qiáng)的魯棒性與泛化性能，為具身智能中的3D視覺感知與機(jī)器人操作學(xué)習(xí)提供了新的解決方案。

06. DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping

作者：Yingting Zhou, Wenbo Cui, Weiheng Liu, Guixing Chen, Haoran Li, Dongbin Zhao

主頁：https://diffudepgrasp.github.io/

如何讓機(jī)器人在仿真中學(xué)會抓取，并能夠“零樣本”遷移到真實(shí)世界，一直是機(jī)器人學(xué)習(xí)中的關(guān)鍵難題。尤其是在基于深度圖的抓取任務(wù)中，真實(shí)傳感器產(chǎn)生的空洞、噪聲等偽影，會與仿真環(huán)境中的理想深度圖形成巨大的 sim2real gap，嚴(yán)重影響策略在真實(shí)機(jī)器人上的落地效果。為了解決這一問題，我們提出了全新的高效 sim2real 抓取框架 DiffuDepGrasp。與依賴復(fù)雜噪聲建模、成對的數(shù)據(jù)集或額外基礎(chǔ)模型的方法不同，DiffuDepGrasp能夠僅通過仿真數(shù)據(jù)訓(xùn)練，實(shí)現(xiàn)真實(shí)機(jī)器人上的零樣本遷移，同時(shí)在部署階段無需額外計(jì)算開銷。其核心創(chuàng)新在于提出了 Diffusion Depth Generator，用于生成兼具幾何精度與真實(shí)傳感器噪聲特性的深度圖。該模塊包含兩個(gè)關(guān)鍵部分：首先，Diffusion Depth Module 利用時(shí)間幾何先驗(yàn)訓(xùn)練條件擴(kuò)散模型，高效學(xué)習(xí)真實(shí)深度傳感器復(fù)雜的噪聲分布；其次，Noise Grafting Module 在注入真實(shí)感知偽影的同時(shí)，保持深度圖的幾何與尺度準(zhǔn)確性，從而兼顧真實(shí)感與抓取精度。值得注意的是，DiffuDepGrasp在實(shí)際部署時(shí)僅需輸入原始深度圖，無需額外中間表示或基礎(chǔ)模型推理，因此具備極高的部署效率。實(shí)驗(yàn)結(jié)果表明，該方法在12類物體抓取任務(wù)中實(shí)現(xiàn)了95.7%的平均成功率，并對未見過的新物體展現(xiàn)出優(yōu)異的泛化能力，為機(jī)器人抓取中的 sim2real 問題提供了一種兼具性能與效率的新思路。

07. Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots

作者：Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, B?rje F. Karlsson, Dongbin Zhao, Yehui Tang, Zongqing Lu

多模態(tài)大語言模型（MLLM）在機(jī)器人高層任務(wù)規(guī)劃中展現(xiàn)出了巨大潛力，使機(jī)器人能夠理解并執(zhí)行復(fù)雜的人類指令。然而，在涉及雙臂人形機(jī)器人的長時(shí)程任務(wù)中，現(xiàn)有方法仍面臨明顯瓶頸：一方面，缺乏能夠系統(tǒng)支持雙臂人形機(jī)器人任務(wù)評測與數(shù)據(jù)采集的仿真平臺；另一方面，當(dāng)前MLLM對機(jī)器人“身體本身”的理解不足，難以在規(guī)劃過程中準(zhǔn)確推理雙臂選擇邏輯與身體位姿關(guān)系。針對這些挑戰(zhàn)，我們提出了全新的雙臂人形機(jī)器人仿真平臺 DualTHOR，支持連續(xù)動(dòng)作切換與任務(wù)應(yīng)急機(jī)制，為復(fù)雜長時(shí)程任務(wù)提供了更加真實(shí)、完整的交互環(huán)境。在此基礎(chǔ)上，我們進(jìn)一步提出了具備更強(qiáng)具身感知能力的模型 Proprio-MLLM。該方法將機(jī)器人本體感知信息（proprioception）引入多模態(tài)大模型，通過運(yùn)動(dòng)驅(qū)動(dòng)的位置編碼與跨空間編碼器，增強(qiáng)模型對機(jī)器人身體結(jié)構(gòu)、動(dòng)作狀態(tài)以及空間關(guān)系的理解能力，從而提升復(fù)雜任務(wù)中的規(guī)劃與決策能力。實(shí)驗(yàn)結(jié)果表明，現(xiàn)有MLLM在雙臂人形機(jī)器人任務(wù)中普遍表現(xiàn)受限，而Proprio-MLLM能夠?qū)崿F(xiàn)平均19.75%的規(guī)劃性能提升，顯著增強(qiáng)機(jī)器人在復(fù)雜場景中的任務(wù)執(zhí)行能力。該工作不僅提供了關(guān)鍵的雙臂人形機(jī)器人仿真平臺，也為具身智能中的“身體感知+大模型推理”融合研究提供了新的方向。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

0人收藏

相關(guān)文章

ICRA2026頂會賽事 | REAL-I具身智能挑戰(zhàn)賽現(xiàn)場賽來襲 ...

專題

ICRA 國際機(jī)器人與自動(dòng)化會議

本專題其他文章

吳思夢

編輯

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

ICRA 2026 | 深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)工作速覽

ICRA 國際機(jī)器人與自動(dòng)化會議