0
| 本文作者: 陳淑瑜 | 2026-05-25 15:39 | 專題:ICRA 國際機器人與自動化會議 |
原文鏈接:https://mp.weixin.qq.com/s/k-C_8ZHWktTRGa3kaq0Lcw
大語言模型驅動的代碼生成技術,正在深刻重塑機器人控制軟件的開發(fā)范式。曾經(jīng)高度依賴人工的繁瑣編程,如今只需簡單的自然語言指令即可完成,開發(fā)效率實現(xiàn)了巨大的躍升。
然而,當我們將這項技術推向真實工業(yè)生產(chǎn)線時,一個關鍵問題凸顯出來:面對工業(yè)場景對程序錯誤零容忍的嚴苛要求,現(xiàn)有大模型真的能克服幻覺,勝任復雜的多機器人協(xié)作任務嗎?
在真實的工業(yè)車間中,制造任務往往具有極其嚴格的時序依賴和資源沖突限制。對于規(guī)劃與代碼生成系統(tǒng)而言,若僅依賴大模型純粹的「黑盒」推理,極易產(chǎn)生邏輯幻覺,生成的規(guī)劃和代碼往往看似合理,卻在底層執(zhí)行時因為資源搶占或前置條件不滿足等原因導致整個產(chǎn)線停滯。為了解決這一痛點,由深圳大學視比特機器人、卡爾頓大學與中科院工業(yè)人工智能研究所組成的聯(lián)合研究團隊提出了一種全新的框架——IMR-LLM。該方法首次將大模型的泛化理解能力與工業(yè)運籌學中的確定性算法融合,為工業(yè)多機器人任務規(guī)劃與執(zhí)行程序生成提供了系統(tǒng)性的解決方案,相關成果已被ICRA 2026接收。

圖1: IMR-LLM 框架概覽
論文標題:
IMR-LLM: Industrial Multi-Robot Task Planning and Program Generation using Large Language Models
論文鏈接:
https://arxiv.org/pdf/2603.02669
項目主頁:
https://xiangyusu611.github.io/imr-llm/
代碼鏈接:
https://github.com/XiangyuSu611/IMR-LLM-Code
現(xiàn)有范式的瓶頸:跨不過的物理與邏輯雙重「硬約束」
在工業(yè)多機器人協(xié)作任務中,系統(tǒng)通常需要回答兩個核心問題:“由哪臺機器人在什么時間完成任務的哪一部分?”以及“具體該怎么做?”。這兩個核心問題對應了算法的兩項核心能力:高層任務規(guī)劃和底層執(zhí)行程序生成。
當前主流的基于大模型的方法通常試圖讓 LLM 直接輸出規(guī)劃結果和執(zhí)行代碼。研究團隊發(fā)現(xiàn),這種方法在面對復雜的工業(yè)約束時存在雙重瓶頸:
復雜依賴與資源互斥導致的“邏輯崩盤”:工業(yè)制造不僅有著極其嚴格的工序時序依賴,還存在無法逾越的互斥約束(例如多臺機器人競爭獨占同一個加工機器)。面對這種復雜的資源搶占,純靠大模型的“黑盒”推理極易產(chǎn)生邏輯幻覺,給出的調(diào)度規(guī)劃往往看似合理,實則會引發(fā)死鎖與產(chǎn)線停滯。
“照貓畫虎”導致代碼難落地:在底層執(zhí)行程序的生成上,現(xiàn)有方法多依賴少樣本提示。這種方式極易讓生成的程序“過擬合”于特定的輸入示例,無法靈活適應不同生產(chǎn)線實際的硬件配置與物理狀態(tài),最終導致大模型寫出的代碼可執(zhí)行性較低,難以真正在生產(chǎn)車間中部署。
簡而言之,現(xiàn)有范式既無法在宏觀上保證多機調(diào)度的安全與高效,也難以在微觀上確保底層代碼的精準執(zhí)行。這表明,想要讓大模型真正從“聰明的玩具”蛻變?yōu)楣I(yè)產(chǎn)線上的“可靠指揮官”,就必須打破純粹依賴語言大模型進行端到端生成的“黑盒”,引入嚴謹?shù)慕Y構化約束。
IMR-LLM 核心揭秘:大模型與結構化約束的「強強聯(lián)合」
為了打破上述雙重瓶頸,解答好“宏觀如何調(diào)度”與“微觀如何執(zhí)行”這兩個核心問題,研究團隊提出了 IMR-LLM 框架。

圖2: IMR-LLM 方法整體流程
該框架的核心想法是:不強迫大模型去強行求解復雜的數(shù)學調(diào)度,也不讓它依賴有限示例去機械套用底層的控制代碼;相反,應充分發(fā)揮大模型強大的語義理解與情境匹配能力,讓它專注扮演高層約束的「翻譯官」與底層執(zhí)行的「導航員」。為此,IMR-LLM 將規(guī)劃與執(zhí)行徹底解耦,引入了兩種強大的結構化約束工具:
1. 用析取圖建模時序與資源限制
為了克服大模型自由生成規(guī)劃所導致的邏輯缺陷,IMR-LLM引入了工業(yè)運籌學中的經(jīng)典數(shù)學模型——析取圖,作為高層調(diào)度的核心約束。在此階段,大模型僅作為「翻譯官」,從指令與場景描述中推理并提取出完整的操作工序集、機器人分配方案以及工件內(nèi)部的執(zhí)行先后順序。這些具象化的要素隨即被嚴謹?shù)赜成錇槲鋈D中的頂點與有向邊。借助析取圖的圖結構,系統(tǒng)將所有復雜的工序先后順序與多機器人資源競爭沖突進行了硬性物理約束。通過調(diào)用確定性算法對該圖進行求解,系統(tǒng)從根本上遏制了大模型的“邏輯幻覺”,確保得到的高層任務規(guī)劃無死鎖且全局最優(yōu)。
2. 用工序流程樹規(guī)范代碼生成流程
在獲取宏觀調(diào)度方案后,為避免傳統(tǒng)少樣本提示帶來的“機械套用、難以落地”問題,研究團隊引入了第二個核心約束工具——工序流程樹。該樹形結構將各類工序(如打磨、搬運、焊接)的標準化流程與分支邏輯進行了高度的結構化編碼。在生成底層代碼時,大模型在流程樹的「導航」下,實際上是將開放式的代碼生成轉化為了嚴謹?shù)?/span>“路徑選擇問題”。結合真實的物理環(huán)境狀態(tài),大模型只需在樹中推斷出一條從起點到終點的唯一分支,并將該分支上各節(jié)點預定義的代碼片段進行拼接,即可獲得特定場景下的執(zhí)行函數(shù)。這種基于樹狀結構引導的生成方式,為大模型劃定了安全的生成邊界,確保最終輸出的 Python 控制代碼契合當前產(chǎn)線配置,具備較強的可執(zhí)行性。
實驗表現(xiàn):在專屬工業(yè)基準 IMR-Bench 上的大幅超越
為了系統(tǒng)性且公平地評估大模型在真實制造環(huán)境中的能力,研究者基于視比特 KunWu 平臺,專門構建了挑戰(zhàn)性的工業(yè)多機器人協(xié)作基準測試集——IMR-Bench 。該基準提取自真實的工業(yè)環(huán)境,共包含 23 個復雜的物理場景,并根據(jù)實際生產(chǎn)需求設計了 50 個制造任務。為了全面探測模型的極限,這些任務被劃分為三個難度梯隊:從基礎的單機操作,到簡單的多機協(xié)同,再到最多涉及 7 臺機器人、多達 24 道工序混合并行的復雜協(xié)同任務。

圖3: IMR-Bench數(shù)據(jù)集概覽
在IMR-Bench的所有任務中,所提方法均展現(xiàn)了穩(wěn)定的性能提升。研究團隊將IMR-LLM 與現(xiàn)有基于大模型的基線方法(如 SMART-LLM、LaMMA 及 LiP-LLM 的變體)進行了綜合對比。

圖4: 與現(xiàn)有基線方法的對比
實驗結果表明,得益于「析取圖」的宏觀約束與「工序流程樹」的微觀導航,IMR-LLM 在各項評估指標上均取得了顯著的提升。尤其在面對“復雜多機器人任務”時,基線方法常因邏輯缺陷或代碼執(zhí)行失敗導致其任務成功率(Success Rate, SR)出現(xiàn)明顯下降。相比之下,IMR-LLM 憑借嚴謹?shù)慕Y構化約束,不僅保持了較高的調(diào)度效率(Scheduling Efficiency, SE),還有效保障了生成代碼的可執(zhí)行性(Executability, Exe),在最終的綜合成功率上實現(xiàn)了對現(xiàn)有范式的超越。
為了驗證 IMR-LLM 在真實物理環(huán)境中的部署能力,研究團隊在一個包含 3 臺真實機械臂的協(xié)作產(chǎn)線上進行了測試,該實驗場景涵蓋了視覺定位、工件抓取與多機協(xié)作搬運等典型的工業(yè)操作流程。
在真機測試中,研究團隊向系統(tǒng)輸入了自然語言任務指令及當前產(chǎn)線的環(huán)境狀態(tài)描述。IMR-LLM 隨后自動生成全局調(diào)度圖,并精準匹配輸出了對應的底層 Python 執(zhí)行代碼。為確保物理執(zhí)行的安全,研究團隊首先在仿真引擎中對生成的代碼進行運行校驗;在確認無死鎖與碰撞風險后,將代碼直接下發(fā)至物理機器人的底層控制器中執(zhí)行。最終,順利且準確地完成了既定的多機協(xié)同任務。這一完整的部署流程,客觀驗證了 IMR-LLM 框架在真實制造場景下從指令理解到機器人控制的可靠性。
總結與展望
IMR-LLM框架為大語言模型在嚴苛工業(yè)多機協(xié)作環(huán)境下的應用提供了一種切實可行的解題思路。研究團隊通過將任務規(guī)劃與底層代碼生成徹底解耦,并分別引入“析取圖”與“工序流程樹”作為宏觀與微觀的結構化約束,成功彌合了大模型發(fā)散性推理與工業(yè)制造絕對正確性要求之間的鴻溝。IMR-Bench 與物理實機實驗共同證明,該方法有效克服了傳統(tǒng)端到端生成易引發(fā)的邏輯死鎖與代碼失效問題,顯著提升了系統(tǒng)的綜合任務成功率與調(diào)度效率。
然而,真實的工業(yè)生產(chǎn)環(huán)境往往伴隨著不可預見的動態(tài)干擾與不確定性。目前的 IMR-LLM 框架主要側重于靜態(tài)場景下的前置規(guī)劃與可靠執(zhí)行。在未來的工作中,研究團隊計劃進一步探索底層執(zhí)行反饋機制的引入。通過構建一個實時的“感知-推理-執(zhí)行-糾錯”閉環(huán)系統(tǒng),團隊期望增強IMR-LLM 在面對突發(fā)硬件故障或動態(tài)需求變化時的自適應能力,從而推動大模型在更復雜、更開放的工業(yè)具身智能場景中扎實落地。
本專題其他文章