3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

2026-06-08 10:05

導(dǎo)語：結(jié)合了結(jié)構(gòu)的“結(jié)構(gòu)化世界模型”，完全可以作為一種無限可擴(kuò)展的數(shù)據(jù)引擎，扛起大規(guī)模機(jī)器人模型訓(xùn)練與驗(yàn)證的重任

作者｜岑峰

2026年6月1日，機(jī)器人領(lǐng)域最重要的學(xué)術(shù)會(huì)議國際機(jī)器人與自動(dòng)化會(huì)議（ICRA）在奧地利維也納召開。

在首日舉行的“Synthetic Data for Robot Learning” Workshop上，哥倫比亞大學(xué)助理教授李昀燭（Yunzhu Li）發(fā)表了題為“Structured World Models as Scalable Data Enginesfor Robot Policy Training and Evaluation”的演講，直擊了當(dāng)今具身智能領(lǐng)域面臨的核心痛點(diǎn)：真實(shí)物理交互數(shù)據(jù)采集成本極高，且模型試錯(cuò)與評(píng)估極其困難。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

為此，他提出將結(jié)構(gòu)化世界模型（Structured World Models）作為機(jī)器人策略訓(xùn)練與評(píng)估的“無限數(shù)據(jù)引擎”。演講指出，純端到端大模型缺乏物理常識(shí)，而純物理引擎又受限于嚴(yán)苛的觀測(cè)條件。團(tuán)隊(duì)從而開辟了一條融合兩者優(yōu)勢(shì)的“中間路線”：

總結(jié)而言，將3D物理先驗(yàn)與海量2D數(shù)據(jù)學(xué)習(xí)深度融合，是突破機(jī)器人基礎(chǔ)模型（Foundation Models）數(shù)據(jù)瓶頸的必由之路。

（編者按：雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))·AI科技評(píng)論此前在《MIT具身智能達(dá)人志》一文中有提及李昀燭親歷 Learning 深刻改變機(jī)器人領(lǐng)域的經(jīng)歷，MIT博士畢業(yè)后，李昀燭在哥倫比亞大學(xué)任職推進(jìn)世界模型與多模態(tài)感知。）

以下是李昀燭在ICRA 2026大會(huì)發(fā)表的演講精編稿，AI科技評(píng)論基于原英文演講內(nèi)容進(jìn)行了不改原意的翻譯編輯：

《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》

主講人：李昀竹（Yunzhu Li），哥倫比亞大學(xué)

從剛體環(huán)境到“結(jié)構(gòu)化世界模型”

感謝主持人的介紹。今天我非常榮幸能與各位分享我們?cè)凇皹?gòu)建環(huán)境結(jié)構(gòu)化世界模型”方向上的最新探索。我將向大家展示，如何將這些世界模型轉(zhuǎn)化為強(qiáng)大的數(shù)據(jù)引擎，以賦能機(jī)器人策略的訓(xùn)練與評(píng)估。

最近，機(jī)器人的某些子領(lǐng)域正經(jīng)歷著爆炸式的突破——比如現(xiàn)在滿地跑的人形機(jī)器人，或者越來越普及的自動(dòng)駕駛。但當(dāng)我們把目光轉(zhuǎn)向“與環(huán)境的復(fù)雜物理交互”時(shí)，我們到底走到了哪一步？離真正人類水平的操作能力還有多遠(yuǎn)？

盡管學(xué)術(shù)界每天都有各種炫酷的 Demo刷屏，但工業(yè)界真正大規(guī)模部署的，依然是針對(duì)規(guī)則幾何體的簡(jiǎn)單“拾取與放置”機(jī)器人。這顯然不是我們的終極愿景。不僅能駕馭結(jié)構(gòu)化環(huán)境，還能在充滿未知的非結(jié)構(gòu)化場(chǎng)景中游刃有余；不僅能擺弄?jiǎng)傆驳蔫F塊，還能處理柔軟易變的柔性物體，從而勝任長(zhǎng)周期、大跨度的復(fù)雜任務(wù)。要做到這些，系統(tǒng)所需的泛化與適應(yīng)能力，必須遠(yuǎn)遠(yuǎn)甩開現(xiàn)有的技術(shù)基線。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

看到大語言模型和視覺模型的驚人成功后，很多人自然會(huì)問：這套基礎(chǔ)模型的打法能直接復(fù)刻到機(jī)器人上嗎？目前主要有兩條路線：一種類似“搭積木”，將基礎(chǔ)模型與系統(tǒng)結(jié)合，構(gòu)建一些結(jié)構(gòu)化的中間接口，以便將基礎(chǔ)模型的知識(shí)傳達(dá)給機(jī)器人；另一條路線則是“端到端”。構(gòu)建這種端到端模型通常有兩種方式：從視覺語言模型（VLM）進(jìn)行預(yù)訓(xùn)練，或者從世界模型/視頻模型進(jìn)行預(yù)訓(xùn)練。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

然而挑戰(zhàn)依然如影隨形：比如可控性，模型真的會(huì)聽從你對(duì)機(jī)器人的指令嗎？能否僅僅通過改變語言指令，就能輕松引導(dǎo)機(jī)器人從一個(gè)任務(wù)無縫切換到另一個(gè)任務(wù)？更致命的是，視覺語言大模型根本不懂底層的物理法則，如何將預(yù)測(cè)的視頻畫面落實(shí)到下游底層的物理運(yùn)動(dòng)控制中，仍然是一個(gè)未解決的問題。此外系統(tǒng)還面臨著可調(diào)試性和可擴(kuò)展性的問題。盡管人們?cè)谕苿?dòng)“基礎(chǔ)模型與機(jī)器人操作結(jié)合”方面取得了很大進(jìn)展，但仍有許多需要解答的問題。

我認(rèn)為，在這個(gè)拼圖中缺失的最關(guān)鍵一環(huán)，就是環(huán)境模型（Models of the environment）。這個(gè)模型可以是基于物理的、基于學(xué)習(xí)的，回顧一下，正是因?yàn)檫@種模型的存在，火箭才能升空、無人機(jī)才能翱翔，甚至四足機(jī)器狗能在野外狂奔。雖然模型永遠(yuǎn)不可能 100%完美，但正是它們，讓機(jī)器在真實(shí)的物理世界中擁有了立足之本。

對(duì)于機(jī)器人的靈巧操作而言，我們也必須在它的大腦里建立一個(gè)物理世界的“心理模型（Mental Model）”。我們需要能夠預(yù)測(cè)：當(dāng)機(jī)械臂推出去時(shí)，面團(tuán)會(huì)怎么變形？洋蔥塊會(huì)如何滾落？正是這種正向預(yù)測(cè)能力，賦能了機(jī)器人的行為規(guī)劃。

那么，如何構(gòu)建這個(gè)模型？如果把技術(shù)路線比作一個(gè)光譜：光譜最左邊是純基于學(xué)習(xí)（Pure learning-based）的方法，例如DeepMind 的 Genie 3就是這個(gè)方向上的絕佳代表；光譜最右邊則是純依賴物理規(guī)則的方法，比如NVIDIA Warp/Flex。這兩端各有千秋，但我最核心的考量是：這兩端的中間地帶是否存在某種“黃金地帶”，能把兩者的優(yōu)勢(shì)一網(wǎng)打盡？

過去幾年，我們的答案是：以圖（Graph）為核心的神經(jīng)動(dòng)力學(xué)模型。我們將物體拆解為無數(shù)個(gè)粒子，以此來描述剛性和可變形物體內(nèi)部及相互之間的物理約束規(guī)則。我們?cè)贑oRL 大會(huì)上拿過最佳系統(tǒng)論文的一個(gè)案例，就是讓機(jī)器人捏面團(tuán)。機(jī)器人可以使用隨機(jī)3D打印的工具，在面團(tuán)上隨便“把玩”十幾分鐘，我們的神經(jīng)動(dòng)力學(xué)模型能夠預(yù)測(cè)出：當(dāng)你使用特定工具施加特定動(dòng)作時(shí)，面團(tuán)的形狀會(huì)如何發(fā)生形變。這種預(yù)測(cè)能力讓機(jī)器人能夠進(jìn)行行為的逆向規(guī)劃，并最終成功把面團(tuán)做成餃子。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

同樣的邏輯，我們也完美應(yīng)用到了不規(guī)則的顆粒物重排、多物體復(fù)雜碰撞等高難度任務(wù)中。例如我們可以規(guī)劃機(jī)器人的行為，將顆粒重新分布成不同的目標(biāo)形狀，也就是從字母 A 到 Z 的形狀。這是一個(gè)高度復(fù)雜的任務(wù)，涉及到顆粒物極不規(guī)則的重新分布，以及與目標(biāo)字母形狀的細(xì)粒度對(duì)齊。

前兩年的年底，我們?cè)凇禨cience Robotics》上發(fā)表了一篇綜述論文，回顧了過去十多年里關(guān)于“用于機(jī)器人操作的基于學(xué)習(xí)的動(dòng)力學(xué)模型”研究。這篇論文的整體結(jié)構(gòu)正是建立在我當(dāng)年博士論文的框架之上的。它真正反映了過去幾年我們?cè)跇?gòu)建該領(lǐng)域模型時(shí)，對(duì)其中無數(shù)細(xì)微差別與權(quán)衡的深度思考。

數(shù)字孿生：突破真機(jī)測(cè)試的效率瓶頸

沿著這個(gè)思路往下走，我們不禁會(huì)問：“接下來呢？”

我們絕不能永遠(yuǎn)被困在實(shí)驗(yàn)室的桌面上，而是要擴(kuò)展到更廣泛的自然場(chǎng)景數(shù)據(jù)收集中去。行業(yè)內(nèi)正投入量的人力物力去真實(shí)世界里采集物理交互數(shù)據(jù)。如果這些帶著極高“物理含金量”的數(shù)據(jù)，最后僅僅被拿去跑一個(gè)簡(jiǎn)單的模仿學(xué)習(xí)，那簡(jiǎn)直是暴殄天物！在這些帶有動(dòng)作條件的真實(shí)數(shù)據(jù)中，蘊(yùn)含著非常豐富的物理定律。我們完全可以把它們提煉成動(dòng)力學(xué)模型，進(jìn)而向構(gòu)建“用于機(jī)器人策略訓(xùn)練和評(píng)估的可擴(kuò)展數(shù)據(jù)引擎”的目標(biāo)邁進(jìn)。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

我們?cè)倩仡櫼幌聞偛盘岬降哪莻€(gè)技術(shù)光譜，我們?cè)谄颉盎谖锢斫！狈较蛏献隽艘豁?xiàng)核心工作：建可變形物體的數(shù)字孿生數(shù)字孿生是什么意思是一個(gè)包含可變形物體外觀、幾何形狀和動(dòng)力學(xué)特征的物理學(xué)實(shí)體副本。

大家在左邊看到的是輸入我們系統(tǒng)的實(shí)拍視頻。中間，我們展示了重建出的、隨時(shí)間追蹤的物體幾何形狀，以及用于描述人類手部輸入動(dòng)作軌跡的球體網(wǎng)絡(luò)；在右側(cè)，背景是實(shí)拍視頻，前景是我們基于動(dòng)作條件渲染出來的3D視頻預(yù)測(cè)它們完美重合。有了這個(gè)數(shù)字孿生體，你甚至可以用鼠標(biāo)鍵盤像玩沙盒游戲一樣去揉捏那塊虛擬布料。這個(gè)框架同樣適用于布料、繩索等其他可變形物體。

這項(xiàng)工作一經(jīng)發(fā)布，Google 機(jī)器人團(tuán)隊(duì)的朋友就找上門來，希望用這套模型來做策略評(píng)估。為什么？因?yàn)閷?duì)于 Google這樣的大廠，訓(xùn)練一個(gè)基礎(chǔ)模型可能會(huì)產(chǎn)出成百上千個(gè)Checkpoints，但由于真機(jī)測(cè)試太慢，他們只能挑屈指可數(shù)的幾個(gè)扔到物理世界里去跑，測(cè)一輪就得等上一兩天。

這是當(dāng)前機(jī)器人研發(fā)最致命的效率瓶頸。他們當(dāng)時(shí)向我吐槽：“哪怕全靠燒錢堆真機(jī)，我們硬磕也能磨出結(jié)果來。”——但前提只是針對(duì)桌面環(huán)境的簡(jiǎn)單Gemini 機(jī)器人任務(wù)。如果他們轉(zhuǎn)向運(yùn)行周期更長(zhǎng)、規(guī)模更大、更復(fù)雜的任務(wù)，這種砸錢堆真機(jī)的迭代速度就會(huì)斷崖式下跌。

為了解決這個(gè)痛點(diǎn)，我們徹底簡(jiǎn)化了這種“數(shù)字孿生”的構(gòu)建流程?，F(xiàn)在，我們只需要拿著相機(jī)繞著物體走一圈，就能捕獲機(jī)器人、背景和物體的外觀及幾何形狀，并通過幾次簡(jiǎn)短的實(shí)際交互來捕捉物體的動(dòng)力學(xué)特性。

大家可以對(duì)比第一排的仿真環(huán)境和第二排的真實(shí)環(huán)境。一個(gè)僅僅用真實(shí)數(shù)據(jù)訓(xùn)練出的策略，在數(shù)字世界里表現(xiàn)出的成功率與失敗姿態(tài)，與物理真實(shí)世界實(shí)現(xiàn)了極其驚人的線性相關(guān)性。

于是我們真正將這個(gè)數(shù)字引擎用于模型評(píng)估。在這里，我們?cè)u(píng)估了一系列當(dāng)下最流行的策略算法，以及輕量級(jí)的 VLA模型，并跨越了多個(gè)不同的 Checkpoints。你可以看到，在許多不同的任務(wù)中，我們的數(shù)字仿真環(huán)境在成功率預(yù)測(cè)上，與真實(shí)環(huán)境實(shí)現(xiàn)了高度線性的相關(guān)。

但這里我必須嚴(yán)肅強(qiáng)調(diào)：任何做“模型評(píng)估”的研究，都必須對(duì)測(cè)試協(xié)議懷有敬畏之心。我們借鑒了豐田研究院（TRI）的嚴(yán)苛標(biāo)準(zhǔn)：我們必須極其嚴(yán)格地控制并理解訓(xùn)練和評(píng)估時(shí)的數(shù)據(jù)分布，以此來確保在不同模型間進(jìn)行的是完全公平的比較。

在我的實(shí)驗(yàn)室，我甚至定下一條鐵律：學(xué)生在真機(jī)評(píng)估時(shí)，必須向我展示初始狀態(tài)的半透明疊影，我直接對(duì)他們說，如果不給我看這個(gè)疊加圖，我就完全不相信你們的測(cè)試結(jié)果。

為了確保所有的初始狀態(tài)在不同策略間、尤其是在真實(shí)環(huán)境與數(shù)字仿真環(huán)境間絕對(duì)一致，每次我們?cè)谡鏅C(jī)上擺放測(cè)試物體時(shí)，都會(huì)像左圖那樣使用半透明疊加輪廓。學(xué)生必須將實(shí)物嚴(yán)絲合縫地對(duì)齊在輪廓內(nèi)，確保初始配置的一致性。

憑借這種嚴(yán)謹(jǐn)，我們可以在同一個(gè)策略架構(gòu)內(nèi)篩選出最佳的Checkpoint，如這個(gè)折線圖所示，仿真引擎測(cè)出的成功率（數(shù)字圖）與真機(jī)成功率完美對(duì)齊。有趣的是，有時(shí)候表現(xiàn)最好的Checkpoint 未必是你訓(xùn)練到最后的那一個(gè)，反而往往出現(xiàn)在訓(xùn)練的中期。

最近，我也聯(lián)合創(chuàng)立了一家初創(chuàng)公司，推進(jìn)這一理念落地，看看這種數(shù)字環(huán)境究竟能無限逼近真實(shí)世界到什么地步。如視頻所示，左邊是真實(shí)環(huán)境，右邊是孿生數(shù)字環(huán)境。這是一個(gè)極其復(fù)雜的操作任務(wù)，最終機(jī)器人必須將這兩個(gè)齒輪插入一個(gè)公差非常小的孔位中。大家在這里看到的是一個(gè)完全“只用純仿真數(shù)據(jù)”訓(xùn)練出來的策略模型，但它的真機(jī)行為表現(xiàn)，與數(shù)字環(huán)境中的推演依然保持了極高的相關(guān)性。

我們可以利用這個(gè)數(shù)字孿生引擎源源不斷地生成海量訓(xùn)練數(shù)據(jù)。由這些數(shù)據(jù)訓(xùn)練出的模型策略，能夠直接部署在真實(shí)環(huán)境中，不間斷且非常可靠地工作。這有力地證明了，由底層物理規(guī)則驅(qū)動(dòng)的結(jié)構(gòu)化世界模型，完全有能力捕捉現(xiàn)實(shí)中物理交互的細(xì)微偏差與復(fù)雜性，從而幫我們訓(xùn)練出足以真機(jī)落地的魯棒策略。

這里是柔性線纜的插拔操作的演示。你不僅能看到兩者在渲染外觀上匹配得極其逼真，甚至在操作過程中，系統(tǒng)也完美重現(xiàn)了線纜由于受力不均所表現(xiàn)出的各種異質(zhì)物理形變。我們?cè)谡褂[廳的 72 號(hào)展位與 Analog Devices聯(lián)合進(jìn)行現(xiàn)場(chǎng)實(shí)機(jī)演示。如果大家感興趣，非常歡迎過去圍觀。

純AI構(gòu)造的世界模擬器：零真實(shí)數(shù)據(jù)實(shí)現(xiàn)真機(jī)落地

剛才是偏向“物理先驗(yàn)”的路徑，接著，我們把目光投向光譜的另一端，即“擁抱數(shù)據(jù)、相信大力出奇跡”的純基于學(xué)習(xí)的方向。由此，我們開發(fā)了一項(xiàng)名為“交互式世界模擬器”的工作。

這是一個(gè)物理交互語境下的、基于動(dòng)作條件的視頻生成/預(yù)測(cè)模型，也是該領(lǐng)域首個(gè)真正讓我感覺突破的成果。它證明了純AI的視頻預(yù)測(cè)模型完全能勝任長(zhǎng)周期的、包含高度非平庸的柔性物體交互任務(wù)。

各位現(xiàn)在屏幕上看到的這些操作畫面，完完全全是純 AI 生成的視頻，這里沒有任何一臺(tái)真實(shí)的機(jī)器人在參與。

它不僅能以 15 幀/秒的速率，生成了超過 10 分鐘的動(dòng)作條件預(yù)測(cè)視頻，它不僅能推演剛體與柔性體的交織互動(dòng)，甚至還能實(shí)時(shí)響應(yīng)。我的學(xué)生在這邊操控著遙操作手柄，馬上就能在那個(gè)平行宇宙里的AI模擬器中瞬間渲染出對(duì)應(yīng)的物理反饋。這套系統(tǒng)同樣適用于推T型、抓杯子以及多物體交互等復(fù)雜操作。

我想重點(diǎn)強(qiáng)調(diào)幾個(gè)極其炸裂的技術(shù)細(xì)節(jié)：

第一，你可以看到視頻預(yù)測(cè)模型完全理解了夾爪與繩索之間的物理拓?fù)浼s束。它具備真實(shí)的 3D深度理解能力，知道這根繩子是在夾子的上方，還是已經(jīng)被塞進(jìn)了夾子內(nèi)部；

第二，模型精準(zhǔn)地捕捉了夾爪與馬克杯之間細(xì)微的接觸交互。當(dāng)你張開夾爪、閉合夾爪，或者是去推杯子的邊緣、推杯子的把手時(shí)，模型都會(huì)相應(yīng)地預(yù)測(cè)出杯子不同的旋轉(zhuǎn)軌跡；

第三，你甚至能在這個(gè)純AI生成的視頻里，把杯子從 3D空間中舉起來，放在高處的盤子上。系統(tǒng)確保了不同攝像機(jī)視角在三維空間中的絕對(duì)一致性。

我們已經(jīng)將這項(xiàng)工作開源，最近它也剛被頂會(huì) RSS 接收。如果你訪問我們的官方主頁，可以找到并親自上手體驗(yàn)這些交互式 Demo。

那么，這個(gè)“極其逼真的幻覺世界”到底有什么用？正如我開篇所述，這依然服務(wù)于我們的核心愿景：一是策略訓(xùn)練，二是策略評(píng)估。

我們?cè)谟?xùn)練時(shí)，沒有采集哪怕一條真實(shí)的物理世界數(shù)據(jù)，所有數(shù)據(jù)全都是在這個(gè)世界模擬器里生成的虛擬軌跡。然而令人吃驚的是，靠純虛構(gòu)數(shù)據(jù)喂出來的策略模型，居然可以在復(fù)雜的“繩索布線”、“雜物清掃”中實(shí)現(xiàn)現(xiàn)實(shí)世界零樣本落地。即使畫面里有外人不斷伸手去干擾機(jī)器人，機(jī)器人的表現(xiàn)依然堅(jiān)如磐石。這種表現(xiàn)同樣適用于抓取馬克杯、掃除雜物以及井字棋任務(wù)。

這就引出了一個(gè)終極問題：多少條虛擬數(shù)據(jù)，才能抵得上一條真實(shí)的數(shù)據(jù)？為了回答這個(gè)問題，我們做了一項(xiàng)消融實(shí)驗(yàn)，從 100%虛擬到 100% 真實(shí)，不斷調(diào)節(jié)訓(xùn)練集里虛實(shí)數(shù)據(jù)的配比。

我們橫向評(píng)測(cè)了當(dāng)今最能打的幾套策略算法：Diffusion Policy、ACT以及Pi0模型。甚至最新的大模型架構(gòu)\pi_0。得出的結(jié)論非常震撼：所有模型的表現(xiàn)都保持了跨度極高的一致性。而且這種規(guī)律在不同任務(wù)間完美遷移。

我可以大膽放言：在我們的世界模擬器中生成的一條虛擬軌跡數(shù)據(jù)，在訓(xùn)練價(jià)值上，幾乎 100%等效于你在真機(jī)上辛苦采集的一條真實(shí)數(shù)據(jù)。

我們也會(huì)拿這個(gè)世界模型來做策略評(píng)估。大家現(xiàn)在看到的是僅用真實(shí)數(shù)據(jù)訓(xùn)練好的策略，我們將它同時(shí)部署在上面這排的虛擬世界模擬器中，和下面這排的真實(shí)物理空間中。兩條軌跡幾乎完美同步；如果在底層做定量的誤差評(píng)估，它們的數(shù)值對(duì)齊程度也非常高。

我順帶提個(gè)有趣的插曲：幾個(gè)拿著Y Combinator投資的年輕創(chuàng)業(yè)者，直接拿我們開源的模型去搞商業(yè)化融資。我去看了眼他們宣發(fā)的BP博客，心想：“好家伙，這圖看著可真眼熟??！”

總之，這完美印證了我的核心觀點(diǎn)：結(jié)合了結(jié)構(gòu)的“結(jié)構(gòu)化世界模型”，完全可以作為一種無限可擴(kuò)展的數(shù)據(jù)引擎，扛起大規(guī)模機(jī)器人模型訓(xùn)練與驗(yàn)證的重任。我們完全可以把這些數(shù)據(jù)的價(jià)值榨干：通過它們訓(xùn)練出極度豐富的世界模型，再用世界模型反哺數(shù)據(jù)的生成。

最后，我想向我所有的合作者致以最深切的感謝。沒有他們，完成這些龐大的工程系統(tǒng)簡(jiǎn)直是天方夜譚，尤其是我的學(xué)生們，他們承擔(dān)了我剛才所展示工作里幾乎所有最繁重的開發(fā)和推演。我還要感謝我實(shí)驗(yàn)室的贊助商們，他們常常提供非常敏銳的行業(yè)需求視角，啟發(fā)了我們今天的很多研究方向。

這就是我演講的全部?jī)?nèi)容，我非常樂意回答大家的提問。謝謝大家！

Q&A 問答環(huán)節(jié)

聽眾A：這種基于圖的神經(jīng)模擬器，在底層算力上會(huì)不會(huì)有瓶頸？如果是極其動(dòng)態(tài)的高速操作，還能擴(kuò)展嗎？

李昀燭：這是一個(gè)非常好的問題。圖本質(zhì)上是對(duì)物理環(huán)境的一種降維抽象。你可以自由調(diào)節(jié)參與計(jì)算的節(jié)點(diǎn)或粒子數(shù)量，算力緊張時(shí)，你可以把它當(dāng)成稀疏的“關(guān)鍵點(diǎn)”來算。

所以，這本質(zhì)上是一個(gè)在“算力”與“精度”如何平衡的問題。你可以動(dòng)態(tài)調(diào)整這個(gè)參數(shù)，從而在計(jì)算效率和仿真效果之間找到最佳折中點(diǎn)。你需要找到那個(gè)最精簡(jiǎn)、卻又能剛好兜住下游任務(wù)所需物理信息的平衡點(diǎn)。

聽眾B：您能詳細(xì)講講 3D 高斯濺射與基于圖的表征在您系統(tǒng)里的關(guān)系嗎？另外，在評(píng)估時(shí)到底要給算法喂多少演示數(shù)據(jù)才算公平？由于不同算法需要的演示形態(tài)不一樣，您怎么定義泛化能力的基準(zhǔn)呢？

李昀燭：這是一個(gè)非常內(nèi)行的提問，我必須要澄清：在我們的架構(gòu)里，高斯點(diǎn)僅僅負(fù)責(zé)環(huán)境的光影和外觀渲染。而涉及系統(tǒng)最核心的物理底層，也就是我們說的實(shí)際動(dòng)力學(xué)建模，我們完全使用的是圖節(jié)點(diǎn)和粒子網(wǎng)絡(luò)。

以面團(tuán)的仿真為例，我們用基于圖的神經(jīng)動(dòng)力學(xué)模型來算面團(tuán)的變形，并在圖的網(wǎng)絡(luò)結(jié)構(gòu)上套上密集彈簧質(zhì)點(diǎn)約束來控制它的物理拉伸。這意味著，在我們的架構(gòu)里，動(dòng)力學(xué)建模引擎與視覺渲染引擎本質(zhì)上是相互解耦的：高斯管渲染，Graph管物理。兩者在解耦的同時(shí)，通過圖形學(xué)里經(jīng)典的“線性混合蒙皮”技術(shù)綁定在一起。

關(guān)于評(píng)估的嚴(yán)謹(jǐn)性，我們?cè)趯?shí)證數(shù)據(jù)上極其苛刻，如我幻燈片所示，我們硬性規(guī)定了極其嚴(yán)苛的同一套初始構(gòu)型。在對(duì)比時(shí)，對(duì)于每種算法策略的每一個(gè)Checkpoint，我們雷打不動(dòng)地在真實(shí)環(huán)境里跑 20 次實(shí)測(cè)，在數(shù)字環(huán)境里也跑 20次。雖然在數(shù)字環(huán)境里我們一鍵就能跑一萬次，但為了絕對(duì)的側(cè)邊比對(duì)（Side-by-side），我們?nèi)?20對(duì) 20。

我幻燈片上那密密麻麻的散點(diǎn)圖，每一個(gè)點(diǎn)背后都是學(xué)生在臺(tái)子上一絲不茍擺放 20次換來的真金白銀的數(shù)據(jù)。你可以數(shù)數(shù)我學(xué)生為了出這幾張圖到底肝了多久，這絕對(duì)是苦力活。至于訓(xùn)練階段，我們就采用行業(yè)通行的標(biāo)準(zhǔn)做法，也就是喂給策略大概 50到 200 條演示數(shù)據(jù)。

聽眾C：您的模型泛化能力如何？比如，如果現(xiàn)在換一個(gè)形狀完全不同的小孩玩具，或者換一條材質(zhì)完全不同的繩子，您的模型還能直接泛化嗎？它是能直接泛化，還是說我要重頭為它訓(xùn)練一個(gè)新模型？

李昀燭：這是個(gè)極其直擊痛點(diǎn)的問題！因?yàn)槲覀儸F(xiàn)在的數(shù)字孿生是通過“現(xiàn)實(shí)到仿真（Real-to-Sim）”的管線為眼前這個(gè)“特定物體”量身定制的，所以它并不能零樣本直接遷移到新物體上。好在現(xiàn)在的極簡(jiǎn)流程，只需要幾分鐘就能構(gòu)建出一個(gè)新數(shù)字孿生體。

3D 還是 2D？哥大李昀燭：通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

但是我們的星辰大海不止于此，我們正在全力攻堅(jiān)的一項(xiàng)工作，就是從這批已經(jīng)被辨識(shí)出的各種物體中，“蒸餾”出一個(gè)更高維度的通用神經(jīng)動(dòng)力學(xué)模型。我們的終極愿景是：只用這一個(gè)通用模型，就能自然而然地泛化到所有奇形怪狀的未知可變形物體上。

聽眾D：我非常震撼于您能把偏向 2D數(shù)據(jù)驅(qū)動(dòng)的視頻生成和偏向 3D 物理先驗(yàn)驅(qū)動(dòng)的結(jié)構(gòu)化重建完美結(jié)合。我知道您的學(xué)術(shù)背景很偏向 CV，都在狂堆 2D 端到端模型，甚至有人喊出“3D 路線已死”，站在您的視角，您對(duì)未來的技術(shù)版圖有什么樣的愿景？這兩條路線最終將以何種形態(tài)融合？

李昀燭：這是一個(gè)非常宏大的問題，如果私下聊，這個(gè)話題我們能激辯幾個(gè)小時(shí)，但我長(zhǎng)話短說以表立場(chǎng)：我是 3D技術(shù)死心塌地的信徒。

只要有一絲可能讓系統(tǒng)跑在 3D 空間里，我就會(huì)不惜一切代價(jià)往三維靠攏。哪怕是我在做“生成式視頻預(yù)測(cè)”這項(xiàng)工作時(shí)，我的底線也是必須做“多攝像機(jī)視角的聯(lián)合推演”。也就是說，即使是跑 2D 的視頻大模型，它的大腦里也必須含有一定程度的三維空間理解能力。

從長(zhǎng)遠(yuǎn)來看，我絕對(duì)承認(rèn)純數(shù)據(jù)驅(qū)動(dòng)路線那可怕的潛力——只要算力不斷，但至少現(xiàn)在，它的泛化性、多視角的物理一致性，還差得太遠(yuǎn)。

反過來看另一端的純物理引擎呢？邏輯雖然絕對(duì)嚴(yán)密，但它苛求完整的環(huán)境狀態(tài)信息，這種理想條件在自然場(chǎng)景里根本不現(xiàn)實(shí)。正因?yàn)榭吹搅藘烧叩臉O限，我才一直死磕這個(gè)問題：我到底能在光譜兩端的中間地帶找到什么？

我堅(jiān)信，最終能改變世界的那個(gè)大模型，一定會(huì)坐落在 3D 物理結(jié)構(gòu)與 2D海量數(shù)據(jù)的交匯處。我們要尋找的是那把最精簡(jiǎn)的“物理先驗(yàn)”鑰匙，并讓它在無盡的真實(shí)數(shù)據(jù)浪潮中自我進(jìn)化。這，才是通向通用機(jī)器人時(shí)代的終極配方。

謝謝大家！

0人收藏

相關(guān)文章