ICRA 2026 收錄成果：Agentic Fast-Slow Planning打通大模型推理與實(shí)時(shí)控制，讓具身智能更穩(wěn)、更快

2026-06-02 10:38

導(dǎo)語(yǔ)：AFSP不僅在技術(shù)上打通了“大模型推理→實(shí)時(shí)控制”的關(guān)鍵路徑，也在實(shí)際駕駛?cè)蝿?wù)中同時(shí)做到了更穩(wěn)、更快、更安全。

原文作者：公眾號(hào)“深圳市大數(shù)據(jù)研究院”

原文鏈接：https://mp.weixin.qq.com/s/j3Ph76mVsyunjALjcCp0Sg

編者按：

隨著大語(yǔ)言模型與視覺語(yǔ)言模型逐步展現(xiàn)出強(qiáng)大的理解、推理與任務(wù)規(guī)劃能力，如何在保證實(shí)時(shí)性、可驗(yàn)證性與工程可部署性的前提下，將高層語(yǔ)義決策穩(wěn)定地傳遞到規(guī)劃與控制層，成為具身智能系統(tǒng)邁向真實(shí)落地的一項(xiàng)關(guān)鍵挑戰(zhàn)。

針對(duì)這一問題，深圳市大數(shù)據(jù)研究院、香港中文大學(xué)（深圳）、中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院、澳門大學(xué)研究團(tuán)隊(duì)在論文“Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning”提出了 Agentic Fast-Slow Planning（AFSP）分層框架，聚焦大模型推理與自動(dòng)駕駛實(shí)時(shí)控制之間的“橋接”問題。

該框架核心思路是“快慢結(jié)合”：AFSP將感知、推理、規(guī)劃與控制按時(shí)間尺度解耦——大模型負(fù)責(zé)慢速、高層的語(yǔ)義理解與決策，經(jīng)典規(guī)劃器負(fù)責(zé)可解釋的長(zhǎng)程軌跡生成，MPC控制器負(fù)責(zé)快速閉環(huán)跟蹤與安全執(zhí)行。實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了這條路的效果：在CARLA仿真場(chǎng)景中，AFSP相比純MPC和A*引導(dǎo)的MPC基線，展現(xiàn)出更強(qiáng)的魯棒性與效率——最大橫向偏差最高降低約45%，任務(wù)完成時(shí)間縮短超過12%。

這意味著，AFSP不僅在技術(shù)上打通了“大模型推理→實(shí)時(shí)控制”的關(guān)鍵路徑，也在實(shí)際駕駛?cè)蝿?wù)中同時(shí)做到了更穩(wěn)、更快、更安全。

該論文現(xiàn)已被 ICRA 2026接收，作者為陳嘉易、王帥、朱光旭、須成忠。

論文鏈接：

https://arxiv.org/abs/2604.01681

Github 鏈接：

https://github.com/cjychenjiayi/icra2026_AFSP

ICRA 2026 收錄成果：Agentic Fast-Slow Planning打通大模型推理與實(shí)時(shí)控制，讓具身智能更穩(wěn)、更快

圖1：Agentic Fast-Slow Planning 概念層級(jí)圖。大模型負(fù)責(zé)慢速語(yǔ)義決策，A* 負(fù)責(zé)中層路徑規(guī)劃，MPC 負(fù)責(zé)快速閉環(huán)控制。

研究背景

近年來，大模型正逐步從“感知工具”演變?yōu)樽灾飨到y(tǒng)中的“推理引擎”。在自動(dòng)駕駛中，它們有望承擔(dān)復(fù)雜場(chǎng)景理解、風(fēng)險(xiǎn)判斷與任務(wù)決策等高層認(rèn)知工作。

然而，一旦繼續(xù)向下延伸到軌跡規(guī)劃和底層控制，就會(huì)立即遇到一個(gè)核心矛盾：大模型能力強(qiáng)，但時(shí)延高、輸出形式偏語(yǔ)言；控制與優(yōu)化模塊則需要低延遲、可驗(yàn)證、可部署。

已有研究主要沿著兩條路線推進(jìn)：一類嘗試讓大模型直接輸出軌跡或控制參數(shù)，雖然形式上“端到端”，但往往脆弱、難驗(yàn)證，也難以滿足實(shí)時(shí)閉環(huán)的工程約束；另一類則讓大模型在線調(diào)整 MPC 目標(biāo)或參數(shù)，在一定程度上緩解了運(yùn)行問題，卻將慢速推理與快速控制混在一起，仍然沒有真正回答“高層語(yǔ)義如何穩(wěn)定影響中層規(guī)劃”的問題。

也正因如此，“快慢思考”框架的價(jià)值不僅在于把大模型從實(shí)時(shí)環(huán)路中解放出來，更在于建立一套跨層橋接邏輯：讓慢速的大模型負(fù)責(zé)理解和決策，讓快速的經(jīng)典模塊負(fù)責(zé)執(zhí)行，并通過清晰、可解釋的接口把兩者連接起來。AFSP 正是在這一思路下提出的。

核心方法

圖2：AFSP 系統(tǒng)架構(gòu)圖。系統(tǒng)通過 Perception2Decision 與 Decision2Trajectory 兩座橋，將拓?fù)涓兄?、語(yǔ)義決策、路徑生成與實(shí)時(shí)控制連接起來。

Perception2Decision：

只保留與交通決策最相關(guān)的信息

如果直接把原始圖像送入大模型，不僅計(jì)算開銷高、帶寬成本大，而且圖像中還包含大量與駕駛決策無(wú)關(guān)的細(xì)節(jié)。為此，AFSP 采用一種更加 task-oriented 的表示方式：先在端側(cè)使用輕量化 VLM 提取交通場(chǎng)景中的拓?fù)鋱D，僅保留車輛、障礙物、距離、方位、相對(duì)關(guān)系等與決策最相關(guān)的結(jié)構(gòu)信息；再將這一緊湊的拓?fù)浔硎舅屯贫?，?LLM 輸出符號(hào)化駕駛決策，例如 LEFT、RIGHT、KEEP 以及相應(yīng)駕駛風(fēng)格。

這種做法的關(guān)鍵并不只是“壓縮數(shù)據(jù)”，而是把視覺輸入轉(zhuǎn)換為更貼近交通決策邏輯的中間表示。它讓大模型的推理聚焦于真正相關(guān)的結(jié)構(gòu)關(guān)系，減少冗余視覺細(xì)節(jié)干擾，也為下游規(guī)劃層提供了清晰、可解釋的語(yǔ)義接口。

圖3：Perception2Decision 示例。端側(cè) VLM 從圖像中提取拓?fù)潢P(guān)系，云端 LLM 在此基礎(chǔ)上輸出結(jié)構(gòu)化駕駛決策與駕駛風(fēng)格。

圖4：VLM 微調(diào)數(shù)據(jù)格式與兩階段訓(xùn)練策略。模型學(xué)習(xí)將前視圖像轉(zhuǎn)換為包含類別、位置、距離、方向的結(jié)構(gòu)化拓?fù)涿枋觥?/span>

Decision2Trajectory：

讓擅長(zhǎng)輸出語(yǔ)言的大模型穩(wěn)定影響長(zhǎng)程軌跡

大模型天然擅長(zhǎng)輸出語(yǔ)言，但并不擅長(zhǎng)直接給出長(zhǎng)程、可執(zhí)行、可驗(yàn)證的軌跡。相較之下，VLA 或 VLN 類方法雖然能夠輸出參考軌跡，但本質(zhì)上仍然是在學(xué)習(xí)“軌跡本身”，在長(zhǎng)程一致性、可解釋性與工程穩(wěn)定性方面仍存在挑戰(zhàn)。AFSP 的思路不是要求 LLM 直接生成完整軌跡，而是只保留其中真正有價(jià)值的“交通決策邏輯”，再將這些邏輯翻譯為對(duì)經(jīng)典規(guī)劃算法有意義的啟發(fā)式代價(jià)。

具體來說，AFSP 將 LLM 輸出的語(yǔ)義決策注入 A* 規(guī)劃器，以軟約束（soft semantic cost）的方式影響搜索過程。這樣做有兩個(gè)好處：一方面，可以讓生成軌跡朝著符合語(yǔ)義意圖的方向偏置；另一方面，又避免把語(yǔ)言決策當(dāng)作硬約束，從而保留經(jīng)典搜索在幾何可行性與魯棒性上的優(yōu)勢(shì)。換句話說，系統(tǒng)不是讓大模型“替代”傳統(tǒng)規(guī)劃，而是讓大模型以一種可落地、可解釋的方式“指導(dǎo)”傳統(tǒng)規(guī)劃。

圖5：Semantic-Guided A* 的語(yǔ)義代價(jià)設(shè)計(jì)與調(diào)參觀察。左側(cè)展示 Correct / Delay / Wrong / Overact 四類語(yǔ)義代價(jià)，右側(cè)展示不同超參數(shù)對(duì)軌跡行為的影響。

Agentic Refinement：

把“人工調(diào)參”變成“智能調(diào)參”

僅有語(yǔ)義引導(dǎo)還不夠，經(jīng)典規(guī)劃算法在實(shí)際使用中往往還依賴大量經(jīng)驗(yàn)性超參數(shù)。研究團(tuán)隊(duì)觀察到，不同超參數(shù)會(huì)顯著影響路徑生成的行為：有的會(huì)導(dǎo)致動(dòng)作過早發(fā)生，有的會(huì)造成語(yǔ)義不匹配，還有的會(huì)引入不必要的振蕩。這意味著，即便橋接邏輯設(shè)計(jì)得再好，如果仍然依賴人工反復(fù)調(diào)參，系統(tǒng)的可遷移性與可部署性也會(huì)受到限制。

為此，AFSP 進(jìn)一步引入 Agentic Refinement Module。該模塊借助大模型的推理能力，把“觀察反饋—分析問題—調(diào)整參數(shù)—再次嘗試”的人工調(diào)參流程自動(dòng)化：系統(tǒng)會(huì)從云端記憶中檢索相似場(chǎng)景的初始參數(shù)配置，再根據(jù)當(dāng)前軌跡反饋迭代優(yōu)化超參數(shù)，直到獲得更合適的規(guī)劃結(jié)果。由此，AFSP 不僅讓大模型參與高層決策，也讓其參與規(guī)劃器的自適應(yīng)優(yōu)化。

圖6：Agentic Refinement 自動(dòng)調(diào)參案例。系統(tǒng)從初始參數(shù)出發(fā)，觀察動(dòng)作發(fā)生過早等問題，并逐步降低 C_DELAY，使語(yǔ)義動(dòng)作與障礙物邊界更好對(duì)齊。

實(shí)驗(yàn)驗(yàn)證

拓?fù)漭斎肽芙档蜁r(shí)延，同時(shí)保留決策質(zhì)量

在 Perception2Decision 部分，團(tuán)隊(duì)首先驗(yàn)證拓?fù)浔硎臼欠褡阋灾未竽Ｐ蜎Q策。實(shí)驗(yàn)結(jié)果表明，在相同提示詞下，基于拓?fù)鋱D輸入的 LLM 能夠獲得與 VLM 直接決策相近的結(jié)果，同時(shí)顯著降低推理時(shí)間：場(chǎng)景決策匹配得分平均達(dá)到 0.73，而平均推理時(shí)延從 VLM 方案的 10.24 秒降低到 4.13 秒。

表1：VLM 微調(diào)策略對(duì)比。兩階段微調(diào)在類別錯(cuò)誤率、距離/方向誤差等指標(biāo)上取得較好平衡。

圖7：LLM 與 VLM 決策的一致性得分分布及推理時(shí)延分布。拓?fù)鋱D輸入在保持較好決策質(zhì)量的同時(shí)顯著降低推理時(shí)間

語(yǔ)義引導(dǎo) A* 提升長(zhǎng)程意圖一致性

在 Decision2Trajectory 部分，團(tuán)隊(duì)考察了地圖偏移與障礙物擾動(dòng)條件下的路徑生成行為。結(jié)果顯示，普通 A* 在環(huán)境發(fā)生輕微變化時(shí)，容易偏離預(yù)期決策語(yǔ)義；而引入語(yǔ)義引導(dǎo)后，規(guī)劃結(jié)果在 Shift 1、Shift 2、Shift 3 等不同設(shè)定下仍能較好保持 left / keep / right 等高層交通意圖，體現(xiàn)出更強(qiáng)的長(zhǎng)程一致性與魯棒性。

這也從另一個(gè)側(cè)面驗(yàn)證了 AFSP 的橋接邏輯：大模型不必直接生成長(zhǎng)程軌跡，只要把高層決策穩(wěn)定地翻譯為中層規(guī)劃中的代價(jià)偏置，就可以讓經(jīng)典搜索自然地生成更符合語(yǔ)義意圖的路徑。

圖8：Semantic-Guided A* 在不同地圖擾動(dòng)下的路徑生成結(jié)果。相比普通 A*，語(yǔ)義引導(dǎo)路徑更能保持指定駕駛意圖。Guide1 = [right, keep, left], Guide2 = [left, keep, right], Guide3 = [left, left].

CARLA 閉環(huán)驗(yàn)證：更快、更穩(wěn)、更可解釋

圖9：CARLA 實(shí)驗(yàn)場(chǎng)景示意。車輛需要在包含多類障礙物的道路環(huán)境中完成從起點(diǎn)到終點(diǎn)的導(dǎo)航。

在完整系統(tǒng)層面，研究團(tuán)隊(duì)將 AFSP 與純 MPC 以及 A* + MPC 兩個(gè)基線進(jìn)行比較。實(shí)驗(yàn)分別在正常地圖和多種擾動(dòng)地圖下重復(fù)開展，評(píng)價(jià)指標(biāo)包括完成時(shí)間、軌跡長(zhǎng)度、平均橫向偏差、速度波動(dòng)和最大橫向偏差。結(jié)果顯示，AFSP 在三種場(chǎng)景下均取得了更優(yōu)或更穩(wěn)健的表現(xiàn)：平均完成時(shí)間相比純 MPC 縮短約 12%，相比 A* 縮短約 11%；最大橫向偏差相比純 MPC 下降約 45%，相比 A* 下降約 35%。

圖10：Scenario 2 中 A* 與 AFSP 的軌跡細(xì)節(jié)對(duì)比。AFSP 在擾動(dòng)地圖下仍能保持更穩(wěn)健的路徑行為。

這表明，AFSP 不只是“想法新”，更重要的是它在不犧牲傳統(tǒng)優(yōu)化方法穩(wěn)定性與可部署性的前提下，真正把大模型的認(rèn)知與推理能力系統(tǒng)性地融入了自主系統(tǒng)決策閉環(huán)。

圖11：三種規(guī)劃與控制方案在 Scenario 1 中的表現(xiàn)對(duì)比。AFSP 能生成更平滑、更符合動(dòng)態(tài)可行性的軌跡。

圖12：完成時(shí)間與最大橫向偏差對(duì)比。AFSP 在三個(gè)場(chǎng)景中均表現(xiàn)出更短完成時(shí)間和更低最大橫向偏差。

表2：CARLA 閉環(huán)實(shí)驗(yàn)量化對(duì)比。指標(biāo)包括完成時(shí)間、軌跡長(zhǎng)度、平均橫向偏差、速度變化和最大橫向偏差。

總結(jié)與展望

整體來看，AFSP試圖回答的并非“大模型能否指導(dǎo)具身智能實(shí)時(shí)控制”，而是“能否以工程可落地、系統(tǒng)可解釋的方式，使其真正具備這一能力”。相比直接讓大模型接管底層控制，AFSP 選擇了一條更穩(wěn)健的技術(shù)路線：把大模型放在其最擅長(zhǎng)的認(rèn)知與推理層，把經(jīng)典算法放在其最擅長(zhǎng)的規(guī)劃與控制層，再通過清晰的接口完成跨層橋接。

從這個(gè)意義上說，AFSP 不僅是一種具體方法，也代表了一種面向真實(shí)自主系統(tǒng)的設(shè)計(jì)范式：先做結(jié)構(gòu)化抽象，再做語(yǔ)義決策；先保留高層邏輯，再翻譯為中層規(guī)劃偏置；在此基礎(chǔ)上結(jié)合反饋閉環(huán)，實(shí)現(xiàn)持續(xù)自適應(yīng)優(yōu)化。未來，這一方向有望進(jìn)一步推動(dòng)大模型從“會(huì)說、會(huì)看”走向“能落地、可部署、可驗(yàn)證”的真實(shí)自主系統(tǒng)應(yīng)用。

研究團(tuán)隊(duì)

陳嘉易第一作者

香港中文大學(xué)（深圳）-深圳市大數(shù)據(jù)研究院聯(lián)培博士生

2024年本科畢業(yè)于北京郵電大學(xué)，現(xiàn)為香港中文大學(xué)（深圳）-深圳市大數(shù)據(jù)研究院聯(lián)合培養(yǎng)博士生。研究方向?yàn)榫呱碇悄埽劢箍炻伎技軜?gòu)下的大模型與底層控制算法協(xié)同系統(tǒng)設(shè)計(jì)。

朱光旭 指導(dǎo)導(dǎo)師

深圳市大數(shù)據(jù)研究院網(wǎng)絡(luò)與機(jī)器智能研究中心，研究員

朱光旭，國(guó)家級(jí)青年人才，深圳市大數(shù)據(jù)研究院，網(wǎng)絡(luò)與機(jī)器智能研究中心常務(wù)副主任、研究員，香港中文大學(xué)（深圳）客座副教授、博士生導(dǎo)師。主要研究興趣包括：分布式機(jī)器學(xué)習(xí)，多模態(tài)感知，網(wǎng)絡(luò)智能，具身智能等?，F(xiàn)任IEEE TMC 與 TWC 等計(jì)算與通信領(lǐng)域國(guó)際頂級(jí)期刊編委，IEEE 通信學(xué)會(huì)青年專業(yè)委員會(huì)副主席，曾獲IEEE通信學(xué)會(huì)亞太區(qū)最杰出青年學(xué)者獎(jiǎng)（年度亞太區(qū)唯一）以及最佳論文獎(jiǎng)、中國(guó)通信學(xué)會(huì)自然科學(xué)一等獎(jiǎng)、吳文俊人工智能青年科技獎(jiǎng)，浙江省自然科學(xué)二等獎(jiǎng)，中國(guó)電子學(xué)會(huì)自然科學(xué)二等獎(jiǎng)等榮譽(yù)，主持包括國(guó)自然青年科學(xué)基金（B類）及面青項(xiàng)目、國(guó)家重點(diǎn)研發(fā)計(jì)劃子課題、廣東省基礎(chǔ)研究重大項(xiàng)目課題、廣東省青年拔尖人才等國(guó)家級(jí)省部級(jí)項(xiàng)目課題、以及華為，中移動(dòng)、中國(guó)信通院等產(chǎn)研合作課題十余項(xiàng)。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章