0
| 本文作者: 吳思夢 | 2026-06-01 14:07 | 專題:ICRA 國際機(jī)器人與自動(dòng)化會議 |
原文作者:公眾號“深度強(qiáng)化學(xué)習(xí) CASIA”
原文鏈接:https://mp.weixin.qq.com/s/amDj0sH1O1fr1OalrJr9Qw
01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving
作者:Yupeng Zheng,Pengxuan Yang,Zhongpu Xia,Qichao Zhang,Yuhang Zheng,Bu Jin,Teng Zhang,Ben Lu,Chao Han,Xianpeng Lang,Xiangyuan Lan,Dongbin Zhao
端到端自動(dòng)駕駛因其強(qiáng)大的可擴(kuò)展性,正在成為自動(dòng)駕駛領(lǐng)域的重要發(fā)展方向。然而,現(xiàn)有方法始終受限于真實(shí)駕駛數(shù)據(jù)規(guī)模不足,導(dǎo)致人們對端到端自動(dòng)駕駛“數(shù)據(jù) scaling law(規(guī)模規(guī)律)”的理解仍然十分有限。為深入探索這一問題,我們構(gòu)建了大規(guī)模真實(shí)駕駛數(shù)據(jù)集,并系統(tǒng)研究了模仿學(xué)習(xí)范式下端到端自動(dòng)駕駛模型的數(shù)據(jù)規(guī)模規(guī)律。該工作累計(jì)采集了覆蓋23類駕駛場景的約400萬條駕駛演示數(shù)據(jù),總時(shí)長超過3萬小時(shí),是目前少有的大規(guī)模系統(tǒng)性研究之一。同時(shí),我們在1400段復(fù)雜駕駛?cè)蝿?wù)中進(jìn)行了嚴(yán)格評測,包括開放環(huán)(open-loop)與閉環(huán)仿真(closed-loop)兩類測試,全面分析數(shù)據(jù)規(guī)模、數(shù)據(jù)分布與模型性能之間的關(guān)系。實(shí)驗(yàn)結(jié)果揭示了多個(gè)重要發(fā)現(xiàn):首先,模型性能與數(shù)據(jù)量之間在開放環(huán)評測中呈現(xiàn)明顯的冪律(power-law)關(guān)系,但這一規(guī)律在更貼近真實(shí)駕駛的閉環(huán)評測中并不成立。這意味著,僅僅擴(kuò)大數(shù)據(jù)規(guī)模并不足以解決自動(dòng)駕駛問題,數(shù)據(jù)分布質(zhì)量與場景覆蓋度同樣至關(guān)重要。其次,少量長尾場景數(shù)據(jù)的增加,就能夠顯著提升模型在對應(yīng)復(fù)雜場景中的表現(xiàn)。更進(jìn)一步,合理的數(shù)據(jù)擴(kuò)展策略還能使模型具備對新場景與新動(dòng)作組合的泛化能力,實(shí)現(xiàn)真正意義上的組合泛化(compositional generalization)。該研究首次系統(tǒng)揭示了端到端自動(dòng)駕駛中的數(shù)據(jù) scaling law,為未來構(gòu)建更安全、更泛化、更可靠的自動(dòng)駕駛系統(tǒng)提供了重要參考,也進(jìn)一步說明:自動(dòng)駕駛的核心競爭力,正在從“模型設(shè)計(jì)”逐步轉(zhuǎn)向“高質(zhì)量數(shù)據(jù)與場景覆蓋能力”。

02. ConsistencyPlanner: Real-time Planning with Fast-Sampling Consistency Models
作者:Qichao Zhang,Xing Fang,Jiaqi Fang,Zhenwen Cai,Jie Ling,Qiankun Yu,Dongbin Zhao
在復(fù)雜真實(shí)交通環(huán)境中,實(shí)現(xiàn)安全、高效的閉環(huán)規(guī)劃,一直是自動(dòng)駕駛系統(tǒng)面臨的核心挑戰(zhàn)。傳統(tǒng)基于規(guī)則的方法雖然具備較強(qiáng)可解釋性,但依賴人工設(shè)計(jì)的啟發(fā)式規(guī)則,難以適應(yīng)動(dòng)態(tài)、多變的真實(shí)交通場景;而近年來快速發(fā)展的學(xué)習(xí)式方法,雖然具備更強(qiáng)的數(shù)據(jù)驅(qū)動(dòng)能力,卻往往難以兼顧“多樣化駕駛行為建?!迸c“實(shí)時(shí)規(guī)劃效率”,容易出現(xiàn)猶豫、不穩(wěn)定甚至危險(xiǎn)的決策行為。針對這一問題,我們提出了全新的實(shí)時(shí)自動(dòng)駕駛規(guī)劃框架 ConsistencyPlanner。該方法基于近年來興起的 Consistency Model,實(shí)現(xiàn)了兼具多模態(tài)行為生成能力與實(shí)時(shí)性的閉環(huán)規(guī)劃,為復(fù)雜動(dòng)態(tài)交通場景下的自動(dòng)駕駛提供了新的解決方案。ConsistencyPlanner包含兩項(xiàng)關(guān)鍵創(chuàng)新。首先,我們提出了基于快速采樣一致性模型(fast-sampling consistency model)的多模態(tài)軌跡生成機(jī)制,能夠在極短時(shí)間內(nèi)高效生成多種合理未來軌跡,實(shí)現(xiàn)對復(fù)雜駕駛行為的實(shí)時(shí)探索,突破了傳統(tǒng)生成式規(guī)劃方法需要多步迭代采樣、推理速度慢的問題。其次,我們設(shè)計(jì)了注意力增強(qiáng)的異構(gòu)特征融合解碼器,將場景特征(scene feature)與動(dòng)作 token 等不同類型輸入進(jìn)行動(dòng)態(tài)融合,從而提升系統(tǒng)對復(fù)雜環(huán)境的理解與規(guī)劃魯棒性。在Waymax仿真平臺上的大量實(shí)驗(yàn)表明,ConsistencyPlanner在安全性指標(biāo)上顯著優(yōu)于現(xiàn)有方法,尤其在復(fù)雜動(dòng)態(tài)場景中展現(xiàn)出更穩(wěn)定、更安全的規(guī)劃能力。該工作展示了生成式模型在自動(dòng)駕駛實(shí)時(shí)規(guī)劃中的巨大潛力,也為下一代兼具實(shí)時(shí)性與多樣性決策能力的自動(dòng)駕駛系統(tǒng)提供了新的研究方向。

作者:Deqing Liu,Yinfeng Gao,Deheng Qian,Qichao Zhang,Xiaoqing Ye,Junyu Han,Yupeng Zheng,Xueyi Liu,Zhongpu Xia,Dawei Ding,Yifeng Pan,Dongbin Zhao
當(dāng)前主流的端到端自動(dòng)駕駛方法大多基于模仿學(xué)習(xí)(Imitation Learning, IL),但始終面臨一個(gè)關(guān)鍵難題:訓(xùn)練階段采用開放環(huán)(open-loop)學(xué)習(xí),而真實(shí)部署時(shí)卻需要在閉環(huán)(closed-loop)環(huán)境中連續(xù)決策。這種訓(xùn)練與部署之間的不一致,往往會導(dǎo)致系統(tǒng)在復(fù)雜場景下出現(xiàn)失誤,進(jìn)而觸發(fā)人工接管(takeover)甚至系統(tǒng)退出(disengagement)。然而,這些真實(shí)接管場景中蘊(yùn)含的大量專家糾正行為,實(shí)際上是極具價(jià)值的數(shù)據(jù)資源。如何有效利用這些“系統(tǒng)失敗后的專家干預(yù)數(shù)據(jù)”,進(jìn)一步提升自動(dòng)駕駛策略能力,仍然是一個(gè)尚未被充分探索的重要問題。針對這一挑戰(zhàn),我們提出了全新的偏好驅(qū)動(dòng)后優(yōu)化框架 TakeAD。該方法能夠利用自動(dòng)駕駛系統(tǒng)中的接管數(shù)據(jù),對已有模仿學(xué)習(xí)策略進(jìn)行后訓(xùn)練優(yōu)化,從而顯著提升閉環(huán)駕駛性能。TakeAD首先設(shè)計(jì)了一套高效的專家接管數(shù)據(jù)采集流程,模擬真實(shí)自動(dòng)駕駛系統(tǒng)中的人類接管機(jī)制,自動(dòng)收集系統(tǒng)失效狀態(tài)下的專家糾正行為。在此基礎(chǔ)上,框架進(jìn)一步結(jié)合了兩種關(guān)鍵學(xué)習(xí)機(jī)制:一方面,通過迭代式 Dataset Aggregation(DAgger)讓模型直接學(xué)習(xí)專家在危險(xiǎn)狀態(tài)下的恢復(fù)行為,使策略具備處理 disengagement 狀態(tài)的基礎(chǔ)能力;另一方面,引入 Direct Preference Optimization(DPO)進(jìn)行偏好對齊,使模型不僅“會模仿”,還能逐漸學(xué)習(xí)更符合專家駕駛偏好的決策方式。通過多輪迭代訓(xùn)練,TakeAD能夠持續(xù)增強(qiáng)系統(tǒng)在危險(xiǎn)狀態(tài)下的恢復(fù)能力,有效緩解端到端自動(dòng)駕駛中長期存在的 open-loop gap 問題。在閉環(huán) Bench2Drive 基準(zhǔn)測試中的實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)純模仿學(xué)習(xí)方法,TakeAD顯著提升了自動(dòng)駕駛系統(tǒng)在復(fù)雜場景中的穩(wěn)定性與安全性。該工作也首次展示了“專家接管數(shù)據(jù) + 偏好優(yōu)化”在自動(dòng)駕駛后訓(xùn)練中的巨大潛力,為端到端自動(dòng)駕駛系統(tǒng)的持續(xù)學(xué)習(xí)與安全增強(qiáng)提供了新的方向。

04. Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving(RA-L)
作者:Zebin Xing,Yupeng Zheng,Qichao Zhang,Zhixing Ding,Pengxuan Yang,Songen Gu,Zhongpu Xia,Dongbin Zhao
代碼:https://github.com/ZebinX/Mimir-Uncertainty-Driving
端到端自動(dòng)駕駛正在成為自動(dòng)駕駛領(lǐng)域的重要發(fā)展方向。近年來,大量研究開始通過引入高層語義引導(dǎo)(high-level guidance)來輔助底層軌跡規(guī)劃,從而提升車輛在復(fù)雜場景中的決策能力。然而,現(xiàn)有方法仍存在兩個(gè)關(guān)鍵瓶頸:一方面,高層引導(dǎo)信息本身可能存在誤差,導(dǎo)致規(guī)劃結(jié)果不穩(wěn)定;另一方面,復(fù)雜引導(dǎo)模塊帶來的高計(jì)算開銷,也嚴(yán)重限制了系統(tǒng)的實(shí)時(shí)性與實(shí)際部署能力。針對這些問題,我們提出了全新的分層雙系統(tǒng)自動(dòng)駕駛框架 Mimir,實(shí)現(xiàn)了兼具魯棒性與高效率的軌跡生成能力。與以往依賴確定性目標(biāo)點(diǎn)建模的方法不同,Mimir首次通過拉普拉斯分布(Laplace Distribution)對目標(biāo)點(diǎn)不確定性進(jìn)行建模,使系統(tǒng)能夠顯式感知高層引導(dǎo)中的不確定信息,從而在復(fù)雜駕駛環(huán)境中生成更加穩(wěn)定、安全的駕駛軌跡。此外,為了解決高層引導(dǎo)模塊推理速度慢的問題,Mimir進(jìn)一步提出了多速率引導(dǎo)機(jī)制(Multi-rate Guidance Mechanism),通過提前預(yù)測更長時(shí)間范圍內(nèi)的目標(biāo)點(diǎn),有效降低高層模塊的調(diào)用頻率,在保證規(guī)劃精度的同時(shí)顯著提升推理效率。在具有挑戰(zhàn)性的 Navhard 與 Navtest 基準(zhǔn)測試中,Mimir相較于此前最先進(jìn)方法實(shí)現(xiàn)了20%的 EPDMS 駕駛評分提升,同時(shí)高層模塊推理速度提升達(dá)到1.6倍,在性能與效率之間取得了優(yōu)異平衡。該工作展示了“高層語義引導(dǎo) + 不確定性建模”在端到端自動(dòng)駕駛中的巨大潛力,也為未來高魯棒、強(qiáng)實(shí)時(shí)性的自動(dòng)駕駛系統(tǒng)設(shè)計(jì)提供了新的思路。

05. CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations
作者:Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang
主頁:https://cwb0106.github.io/CLAR/
機(jī)器人操作中的感知能力一直是制約具身智能發(fā)展的核心問題。盡管近年來大量工作開始將預(yù)訓(xùn)練2D視覺基礎(chǔ)模型引入機(jī)器人系統(tǒng),以利用其強(qiáng)大的語義理解能力,但這類方法往往缺乏對三維空間結(jié)構(gòu)的感知能力,并且在面對不同相機(jī)視角時(shí)泛化能力有限,尤其難以勝任精細(xì)化機(jī)器人操作任務(wù)。針對這一挑戰(zhàn),我們提出了全新的3D預(yù)訓(xùn)練框架 CL3R,旨在為機(jī)器人操作策略提供更強(qiáng)大的視覺感知能力。CL3R首次將三維空間感知與語義理解有效結(jié)合:一方面,通過基于點(diǎn)云的Masked Autoencoder學(xué)習(xí)豐富的3D空間表示;另一方面,利用對比學(xué)習(xí)從預(yù)訓(xùn)練2D基礎(chǔ)模型中遷移語義知識,實(shí)現(xiàn)高效的視覺語義對齊。同時(shí),我們進(jìn)一步提出統(tǒng)一坐標(biāo)系的3D視覺預(yù)訓(xùn)練方案,并通過多視角點(diǎn)云隨機(jī)融合機(jī)制,有效緩解相機(jī)視角歧義問題,大幅提升模型在新視角下的泛化能力。大量仿真與真實(shí)機(jī)器人實(shí)驗(yàn)表明,CL3R能夠顯著提升機(jī)器人視覺運(yùn)動(dòng)策略學(xué)習(xí)效果,在復(fù)雜操作任務(wù)中展現(xiàn)出更強(qiáng)的魯棒性與泛化性能,為具身智能中的3D視覺感知與機(jī)器人操作學(xué)習(xí)提供了新的解決方案。

06. DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping
作者:Yingting Zhou, Wenbo Cui, Weiheng Liu, Guixing Chen, Haoran Li, Dongbin Zhao
主頁:https://diffudepgrasp.github.io/
如何讓機(jī)器人在仿真中學(xué)會抓取,并能夠“零樣本”遷移到真實(shí)世界,一直是機(jī)器人學(xué)習(xí)中的關(guān)鍵難題。尤其是在基于深度圖的抓取任務(wù)中,真實(shí)傳感器產(chǎn)生的空洞、噪聲等偽影,會與仿真環(huán)境中的理想深度圖形成巨大的 sim2real gap,嚴(yán)重影響策略在真實(shí)機(jī)器人上的落地效果。為了解決這一問題,我們提出了全新的高效 sim2real 抓取框架 DiffuDepGrasp。與依賴復(fù)雜噪聲建模、 成對的數(shù)據(jù)集或額外基礎(chǔ)模型的方法不同,DiffuDepGrasp能夠僅通過仿真數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)真實(shí)機(jī)器人上的零樣本遷移,同時(shí)在部署階段無需額外計(jì)算開銷。其核心創(chuàng)新在于提出了 Diffusion Depth Generator,用于生成兼具幾何精度與真實(shí)傳感器噪聲特性的深度圖。該模塊包含兩個(gè)關(guān)鍵部分:首先,Diffusion Depth Module 利用時(shí)間幾何先驗(yàn)訓(xùn)練條件擴(kuò)散模型,高效學(xué)習(xí)真實(shí)深度傳感器復(fù)雜的噪聲分布;其次,Noise Grafting Module 在注入真實(shí)感知偽影的同時(shí),保持深度圖的幾何與尺度準(zhǔn)確性,從而兼顧真實(shí)感與抓取精度。值得注意的是,DiffuDepGrasp在實(shí)際部署時(shí)僅需輸入原始深度圖,無需額外中間表示或基礎(chǔ)模型推理,因此具備極高的部署效率。實(shí)驗(yàn)結(jié)果表明,該方法在12類物體抓取任務(wù)中實(shí)現(xiàn)了95.7%的平均成功率,并對未見過的新物體展現(xiàn)出優(yōu)異的泛化能力,為機(jī)器人抓取中的 sim2real 問題提供了一種兼具性能與效率的新思路。

07. Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots
作者:Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, B?rje F. Karlsson, Dongbin Zhao, Yehui Tang, Zongqing Lu
多模態(tài)大語言模型(MLLM)在機(jī)器人高層任務(wù)規(guī)劃中展現(xiàn)出了巨大潛力,使機(jī)器人能夠理解并執(zhí)行復(fù)雜的人類指令。然而,在涉及雙臂人形機(jī)器人的長時(shí)程任務(wù)中,現(xiàn)有方法仍面臨明顯瓶頸:一方面,缺乏能夠系統(tǒng)支持雙臂人形機(jī)器人任務(wù)評測與數(shù)據(jù)采集的仿真平臺;另一方面,當(dāng)前MLLM對機(jī)器人“身體本身”的理解不足,難以在規(guī)劃過程中準(zhǔn)確推理雙臂選擇邏輯與身體位姿關(guān)系。針對這些挑戰(zhàn),我們提出了全新的雙臂人形機(jī)器人仿真平臺 DualTHOR,支持連續(xù)動(dòng)作切換與任務(wù)應(yīng)急機(jī)制,為復(fù)雜長時(shí)程任務(wù)提供了更加真實(shí)、完整的交互環(huán)境。在此基礎(chǔ)上,我們進(jìn)一步提出了具備更強(qiáng)具身感知能力的模型 Proprio-MLLM。該方法將機(jī)器人本體感知信息(proprioception)引入多模態(tài)大模型,通過運(yùn)動(dòng)驅(qū)動(dòng)的位置編碼與跨空間編碼器,增強(qiáng)模型對機(jī)器人身體結(jié)構(gòu)、動(dòng)作狀態(tài)以及空間關(guān)系的理解能力,從而提升復(fù)雜任務(wù)中的規(guī)劃與決策能力。實(shí)驗(yàn)結(jié)果表明,現(xiàn)有MLLM在雙臂人形機(jī)器人任務(wù)中普遍表現(xiàn)受限,而Proprio-MLLM能夠?qū)崿F(xiàn)平均19.75%的規(guī)劃性能提升,顯著增強(qiáng)機(jī)器人在復(fù)雜場景中的任務(wù)執(zhí)行能力。該工作不僅提供了關(guān)鍵的雙臂人形機(jī)器人仿真平臺,也為具身智能中的“身體感知+大模型推理”融合研究提供了新的方向。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))
本專題其他文章