97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給吳思?jí)?/span>
發(fā)送

0

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶” | ICRA 2026

導(dǎo)語:結(jié)合了結(jié)構(gòu)的“結(jié)構(gòu)化世界模型”,完全可以作為一種無限可擴(kuò)展的數(shù)據(jù)引擎,扛起大規(guī)模機(jī)器人模型訓(xùn)練與驗(yàn)證的重任

 

作者|岑峰


2026年6月1日,機(jī)器人領(lǐng)域最重要的學(xué)術(shù)會(huì)議國際機(jī)器人與自動(dòng)化會(huì)議(ICRA)在奧地利維也納召開。

在首日舉行的“Synthetic Data for Robot Learning” Workshop上,哥倫比亞大學(xué)助理教授李昀燭(Yunzhu Li)發(fā)表了題為“Structured  World Models as Scalable Data Enginesfor Robot Policy Training and Evaluation”的演講,直擊了當(dāng)今具身智能領(lǐng)域面臨的核心痛點(diǎn):真實(shí)物理交互數(shù)據(jù)采集成本極高,且模型試錯(cuò)與評(píng)估極其困難。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

為此,他提出將結(jié)構(gòu)化世界模型(Structured World Models)作為機(jī)器人策略訓(xùn)練與評(píng)估的“無限數(shù)據(jù)引擎”。演講指出,純端到端大模型缺乏物理常識(shí),而純物理引擎又受限于嚴(yán)苛的觀測(cè)條件。團(tuán)隊(duì)從而開辟了一條融合兩者優(yōu)勢(shì)的“中間路線”:

總結(jié)而言,將3D物理先驗(yàn)與海量2D數(shù)據(jù)學(xué)習(xí)深度融合,是突破機(jī)器人基礎(chǔ)模型(Foundation Models)數(shù)據(jù)瓶頸的必由之路。

(編者按:雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))·AI科技評(píng)論此前在《MIT具身智能達(dá)人志》一文中有提及李昀燭親歷 Learning 深刻改變機(jī)器人領(lǐng)域的經(jīng)歷,MIT博士畢業(yè)后,李昀燭在哥倫比亞大學(xué)任職推進(jìn)世界模型與多模態(tài)感知。)

 

以下是李昀燭在ICRA 2026大會(huì)發(fā)表的演講精編稿,AI科技評(píng)論基于原英文演講內(nèi)容進(jìn)行了不改原意的翻譯編輯:

 

《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》

主講人:李昀竹(Yunzhu Li),哥倫比亞大學(xué)

 

從剛體環(huán)境到“結(jié)構(gòu)化世界模型”

感謝主持人的介紹。今天我非常榮幸能與各位分享我們?cè)凇皹?gòu)建環(huán)境結(jié)構(gòu)化世界模型”方向上的最新探索。我將向大家展示,如何將這些世界模型轉(zhuǎn)化為強(qiáng)大的數(shù)據(jù)引擎,以賦能機(jī)器人策略的訓(xùn)練與評(píng)估。

最近,機(jī)器人的某些子領(lǐng)域正經(jīng)歷著爆炸式的突破——比如現(xiàn)在滿地跑的人形機(jī)器人,或者越來越普及的自動(dòng)駕駛。但當(dāng)我們把目光轉(zhuǎn)向“與環(huán)境的復(fù)雜物理交互”時(shí),我們到底走到了哪一步?離真正人類水平的操作能力還有多遠(yuǎn)?

盡管學(xué)術(shù)界每天都有各種炫酷的 Demo刷屏,但工業(yè)界真正大規(guī)模部署的,依然是針對(duì)規(guī)則幾何體的簡(jiǎn)單“拾取與放置”機(jī)器人。這顯然不是我們的終極愿景。不僅能駕馭結(jié)構(gòu)化環(huán)境,還能在充滿未知的非結(jié)構(gòu)化場(chǎng)景中游刃有余;不僅能擺弄?jiǎng)傆驳蔫F塊,還能處理柔軟易變的柔性物體,從而勝任長(zhǎng)周期、大跨度的復(fù)雜任務(wù)。要做到這些,系統(tǒng)所需的泛化與適應(yīng)能力,必須遠(yuǎn)遠(yuǎn)甩開現(xiàn)有的技術(shù)基線。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

看到大語言模型和視覺模型的驚人成功后,很多人自然會(huì)問:這套基礎(chǔ)模型的打法能直接復(fù)刻到機(jī)器人上嗎?目前主要有兩條路線:一種類似“搭積木”,將基礎(chǔ)模型與系統(tǒng)結(jié)合,構(gòu)建一些結(jié)構(gòu)化的中間接口,以便將基礎(chǔ)模型的知識(shí)傳達(dá)給機(jī)器人;另一條路線則是“端到端”。構(gòu)建這種端到端模型通常有兩種方式:從視覺語言模型(VLM)進(jìn)行預(yù)訓(xùn)練,或者從世界模型/視頻模型進(jìn)行預(yù)訓(xùn)練。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

然而挑戰(zhàn)依然如影隨形:比如可控性,模型真的會(huì)聽從你對(duì)機(jī)器人的指令嗎?能否僅僅通過改變語言指令,就能輕松引導(dǎo)機(jī)器人從一個(gè)任務(wù)無縫切換到另一個(gè)任務(wù)?更致命的是,視覺語言大模型根本不懂底層的物理法則,如何將預(yù)測(cè)的視頻畫面落實(shí)到下游底層的物理運(yùn)動(dòng)控制中,仍然是一個(gè)未解決的問題。此外系統(tǒng)還面臨著可調(diào)試性和可擴(kuò)展性的問題。盡管人們?cè)谕苿?dòng)“基礎(chǔ)模型與機(jī)器人操作結(jié)合”方面取得了很大進(jìn)展,但仍有許多需要解答的問題。

我認(rèn)為,在這個(gè)拼圖中缺失的最關(guān)鍵一環(huán),就是環(huán)境模型(Models of the environment)。這個(gè)模型可以是基于物理的、基于學(xué)習(xí)的,回顧一下,正是因?yàn)檫@種模型的存在,火箭才能升空、無人機(jī)才能翱翔,甚至四足機(jī)器狗能在野外狂奔。雖然模型永遠(yuǎn)不可能 100%完美,但正是它們,讓機(jī)器在真實(shí)的物理世界中擁有了立足之本。

對(duì)于機(jī)器人的靈巧操作而言,我們也必須在它的大腦里建立一個(gè)物理世界的“心理模型(Mental Model)”。我們需要能夠預(yù)測(cè):當(dāng)機(jī)械臂推出去時(shí),面團(tuán)會(huì)怎么變形?洋蔥塊會(huì)如何滾落?正是這種正向預(yù)測(cè)能力,賦能了機(jī)器人的行為規(guī)劃。

那么,如何構(gòu)建這個(gè)模型?如果把技術(shù)路線比作一個(gè)光譜:光譜最左邊是純基于學(xué)習(xí)(Pure learning-based)的方法,例如DeepMind 的 Genie  3就是這個(gè)方向上的絕佳代表;光譜最右邊則是純依賴物理規(guī)則的方法,比如NVIDIA Warp/Flex。這兩端各有千秋,但我最核心的考量是:這兩端的中間地帶是否存在某種“黃金地帶”,能把兩者的優(yōu)勢(shì)一網(wǎng)打盡?

過去幾年,我們的答案是:以圖(Graph)為核心的神經(jīng)動(dòng)力學(xué)模型。我們將物體拆解為無數(shù)個(gè)粒子,以此來描述剛性和可變形物體內(nèi)部及相互之間的物理約束規(guī)則。我們?cè)贑oRL 大會(huì)上拿過最佳系統(tǒng)論文的一個(gè)案例,就是讓機(jī)器人捏面團(tuán)。機(jī)器人可以使用隨機(jī)3D打印的工具,在面團(tuán)上隨便“把玩”十幾分鐘,我們的神經(jīng)動(dòng)力學(xué)模型能夠預(yù)測(cè)出:當(dāng)你使用特定工具施加特定動(dòng)作時(shí),面團(tuán)的形狀會(huì)如何發(fā)生形變。這種預(yù)測(cè)能力讓機(jī)器人能夠進(jìn)行行為的逆向規(guī)劃,并最終成功把面團(tuán)做成餃子。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

同樣的邏輯,我們也完美應(yīng)用到了不規(guī)則的顆粒物重排、多物體復(fù)雜碰撞等高難度任務(wù)中。例如我們可以規(guī)劃機(jī)器人的行為,將顆粒重新分布成不同的目標(biāo)形狀,也就是從字母 A 到 Z 的形狀。這是一個(gè)高度復(fù)雜的任務(wù),涉及到顆粒物極不規(guī)則的重新分布,以及與目標(biāo)字母形狀的細(xì)粒度對(duì)齊。

前兩年的年底,我們?cè)凇禨cience Robotics》上發(fā)表了一篇綜述論文,回顧了過去十多年里關(guān)于“用于機(jī)器人操作的基于學(xué)習(xí)的動(dòng)力學(xué)模型”研究。這篇論文的整體結(jié)構(gòu)正是建立在我當(dāng)年博士論文的框架之上的。它真正反映了過去幾年我們?cè)跇?gòu)建該領(lǐng)域模型時(shí),對(duì)其中無數(shù)細(xì)微差別與權(quán)衡的深度思考。

 

數(shù)字孿生:突破真機(jī)測(cè)試的效率瓶頸

沿著這個(gè)思路往下走,我們不禁會(huì)問:“接下來呢?”

我們絕不能永遠(yuǎn)被困在實(shí)驗(yàn)室的桌面上,而是要擴(kuò)展到更廣泛的自然場(chǎng)景數(shù)據(jù)收集中去。行業(yè)內(nèi)正投入量的人力物力去真實(shí)世界里采集物理交互數(shù)據(jù)。如果這些帶著極高“物理含金量”的數(shù)據(jù),最后僅僅被拿去跑一個(gè)簡(jiǎn)單的模仿學(xué)習(xí),那簡(jiǎn)直是暴殄天物!在這些帶有動(dòng)作條件的真實(shí)數(shù)據(jù)中,蘊(yùn)含著非常豐富的物理定律。我們完全可以把它們提煉成動(dòng)力學(xué)模型,進(jìn)而向構(gòu)建“用于機(jī)器人策略訓(xùn)練和評(píng)估的可擴(kuò)展數(shù)據(jù)引擎”的目標(biāo)邁進(jìn)。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

我們?cè)倩仡櫼幌聞偛盘岬降哪莻€(gè)技術(shù)光譜,我們?cè)谄颉盎谖锢斫!狈较蛏献隽艘豁?xiàng)核心工作:建可變形物體的數(shù)字孿生數(shù)字孿生是什么意思是一個(gè)包含可變形物體外觀、幾何形狀和動(dòng)力學(xué)特征的物理學(xué)實(shí)體副本。

大家在左邊看到的是輸入我們系統(tǒng)的實(shí)拍視頻。中間,我們展示了重建出的、隨時(shí)間追蹤的物體幾何形狀,以及用于描述人類手部輸入動(dòng)作軌跡的球體網(wǎng)絡(luò);在右側(cè),背景是實(shí)拍視頻,前景是我們基于動(dòng)作條件渲染出來的3D視頻預(yù)測(cè)它們完美重合。有了這個(gè)數(shù)字孿生體,你甚至可以用鼠標(biāo)鍵盤像玩沙盒游戲一樣去揉捏那塊虛擬布料。這個(gè)框架同樣適用于布料、繩索等其他可變形物體。

這項(xiàng)工作一經(jīng)發(fā)布,Google 機(jī)器人團(tuán)隊(duì)的朋友就找上門來,希望用這套模型來做策略評(píng)估。為什么?因?yàn)閷?duì)于 Google這樣的大廠,訓(xùn)練一個(gè)基礎(chǔ)模型可能會(huì)產(chǎn)出成百上千個(gè)Checkpoints,但由于真機(jī)測(cè)試太慢,他們只能挑屈指可數(shù)的幾個(gè)扔到物理世界里去跑,測(cè)一輪就得等上一兩天。

這是當(dāng)前機(jī)器人研發(fā)最致命的效率瓶頸。他們當(dāng)時(shí)向我吐槽:“哪怕全靠燒錢堆真機(jī),我們硬磕也能磨出結(jié)果來。”——但前提只是針對(duì)桌面環(huán)境的簡(jiǎn)單Gemini 機(jī)器人任務(wù)。如果他們轉(zhuǎn)向運(yùn)行周期更長(zhǎng)、規(guī)模更大、更復(fù)雜的任務(wù),這種砸錢堆真機(jī)的迭代速度就會(huì)斷崖式下跌。

為了解決這個(gè)痛點(diǎn),我們徹底簡(jiǎn)化了這種“數(shù)字孿生”的構(gòu)建流程?,F(xiàn)在,我們只需要拿著相機(jī)繞著物體走一圈,就能捕獲機(jī)器人、背景和物體的外觀及幾何形狀,并通過幾次簡(jiǎn)短的實(shí)際交互來捕捉物體的動(dòng)力學(xué)特性。

大家可以對(duì)比第一排的仿真環(huán)境和第二排的真實(shí)環(huán)境。一個(gè)僅僅用真實(shí)數(shù)據(jù)訓(xùn)練出的策略,在數(shù)字世界里表現(xiàn)出的成功率與失敗姿態(tài),與物理真實(shí)世界實(shí)現(xiàn)了極其驚人的線性相關(guān)性。

于是我們真正將這個(gè)數(shù)字引擎用于模型評(píng)估。在這里,我們?cè)u(píng)估了一系列當(dāng)下最流行的策略算法,以及輕量級(jí)的 VLA模型,并跨越了多個(gè)不同的 Checkpoints。你可以看到,在許多不同的任務(wù)中,我們的數(shù)字仿真環(huán)境在成功率預(yù)測(cè)上,與真實(shí)環(huán)境實(shí)現(xiàn)了高度線性的相關(guān)。

但這里我必須嚴(yán)肅強(qiáng)調(diào):任何做“模型評(píng)估”的研究,都必須對(duì)測(cè)試協(xié)議懷有敬畏之心。我們借鑒了豐田研究院(TRI)的嚴(yán)苛標(biāo)準(zhǔn):我們必須極其嚴(yán)格地控制并理解訓(xùn)練和評(píng)估時(shí)的數(shù)據(jù)分布,以此來確保在不同模型間進(jìn)行的是完全公平的比較。

在我的實(shí)驗(yàn)室,我甚至定下一條鐵律:學(xué)生在真機(jī)評(píng)估時(shí),必須向我展示初始狀態(tài)的半透明疊影,我直接對(duì)他們說,如果不給我看這個(gè)疊加圖,我就完全不相信你們的測(cè)試結(jié)果。

為了確保所有的初始狀態(tài)在不同策略間、尤其是在真實(shí)環(huán)境與數(shù)字仿真環(huán)境間絕對(duì)一致,每次我們?cè)谡鏅C(jī)上擺放測(cè)試物體時(shí),都會(huì)像左圖那樣使用半透明疊加輪廓。學(xué)生必須將實(shí)物嚴(yán)絲合縫地對(duì)齊在輪廓內(nèi),確保初始配置的一致性。

憑借這種嚴(yán)謹(jǐn),我們可以在同一個(gè)策略架構(gòu)內(nèi)篩選出最佳的Checkpoint,如這個(gè)折線圖所示,仿真引擎測(cè)出的成功率(數(shù)字圖)與真機(jī)成功率完美對(duì)齊。有趣的是,有時(shí)候表現(xiàn)最好的Checkpoint 未必是你訓(xùn)練到最后的那一個(gè),反而往往出現(xiàn)在訓(xùn)練的中期。

最近,我也聯(lián)合創(chuàng)立了一家初創(chuàng)公司,推進(jìn)這一理念落地,看看這種數(shù)字環(huán)境究竟能無限逼近真實(shí)世界到什么地步。如視頻所示,左邊是真實(shí)環(huán)境,右邊是孿生數(shù)字環(huán)境。這是一個(gè)極其復(fù)雜的操作任務(wù),最終機(jī)器人必須將這兩個(gè)齒輪插入一個(gè)公差非常小的孔位中。大家在這里看到的是一個(gè)完全“只用純仿真數(shù)據(jù)”訓(xùn)練出來的策略模型,但它的真機(jī)行為表現(xiàn),與數(shù)字環(huán)境中的推演依然保持了極高的相關(guān)性。

我們可以利用這個(gè)數(shù)字孿生引擎源源不斷地生成海量訓(xùn)練數(shù)據(jù)。由這些數(shù)據(jù)訓(xùn)練出的模型策略,能夠直接部署在真實(shí)環(huán)境中,不間斷且非常可靠地工作。這有力地證明了,由底層物理規(guī)則驅(qū)動(dòng)的結(jié)構(gòu)化世界模型,完全有能力捕捉現(xiàn)實(shí)中物理交互的細(xì)微偏差與復(fù)雜性,從而幫我們訓(xùn)練出足以真機(jī)落地的魯棒策略。

這里是柔性線纜的插拔操作的演示。你不僅能看到兩者在渲染外觀上匹配得極其逼真,甚至在操作過程中,系統(tǒng)也完美重現(xiàn)了線纜由于受力不均所表現(xiàn)出的各種異質(zhì)物理形變。我們?cè)谡褂[廳的 72 號(hào)展位與 Analog Devices聯(lián)合進(jìn)行現(xiàn)場(chǎng)實(shí)機(jī)演示。如果大家感興趣,非常歡迎過去圍觀。

純AI構(gòu)造的世界模擬器:零真實(shí)數(shù)據(jù)實(shí)現(xiàn)真機(jī)落地

剛才是偏向“物理先驗(yàn)”的路徑,接著,我們把目光投向光譜的另一端,即“擁抱數(shù)據(jù)、相信大力出奇跡”的純基于學(xué)習(xí)的方向。由此,我們開發(fā)了一項(xiàng)名為“交互式世界模擬器”的工作。

這是一個(gè)物理交互語境下的、基于動(dòng)作條件的視頻生成/預(yù)測(cè)模型,也是該領(lǐng)域首個(gè)真正讓我感覺突破的成果。它證明了純AI的視頻預(yù)測(cè)模型完全能勝任長(zhǎng)周期的、包含高度非平庸的柔性物體交互任務(wù)。

各位現(xiàn)在屏幕上看到的這些操作畫面,完完全全是純 AI 生成的視頻,這里沒有任何一臺(tái)真實(shí)的機(jī)器人在參與。

它不僅能以 15 幀/秒的速率,生成了超過 10 分鐘的動(dòng)作條件預(yù)測(cè)視頻,它不僅能推演剛體與柔性體的交織互動(dòng),甚至還能實(shí)時(shí)響應(yīng)。我的學(xué)生在這邊操控著遙操作手柄,馬上就能在那個(gè)平行宇宙里的AI模擬器中瞬間渲染出對(duì)應(yīng)的物理反饋。這套系統(tǒng)同樣適用于推T型、抓杯子以及多物體交互等復(fù)雜操作。

我想重點(diǎn)強(qiáng)調(diào)幾個(gè)極其炸裂的技術(shù)細(xì)節(jié):

第一,你可以看到視頻預(yù)測(cè)模型完全理解了夾爪與繩索之間的物理拓?fù)浼s束。它具備真實(shí)的 3D深度理解能力,知道這根繩子是在夾子的上方,還是已經(jīng)被塞進(jìn)了夾子內(nèi)部;

第二,模型精準(zhǔn)地捕捉了夾爪與馬克杯之間細(xì)微的接觸交互。當(dāng)你張開夾爪、閉合夾爪,或者是去推杯子的邊緣、推杯子的把手時(shí),模型都會(huì)相應(yīng)地預(yù)測(cè)出杯子不同的旋轉(zhuǎn)軌跡;

第三,你甚至能在這個(gè)純AI生成的視頻里,把杯子從 3D空間中舉起來,放在高處的盤子上。系統(tǒng)確保了不同攝像機(jī)視角在三維空間中的絕對(duì)一致性。

我們已經(jīng)將這項(xiàng)工作開源,最近它也剛被頂會(huì) RSS 接收。如果你訪問我們的官方主頁,可以找到并親自上手體驗(yàn)這些交互式 Demo。

那么,這個(gè)“極其逼真的幻覺世界”到底有什么用?正如我開篇所述,這依然服務(wù)于我們的核心愿景:一是策略訓(xùn)練,二是策略評(píng)估。

我們?cè)谟?xùn)練時(shí),沒有采集哪怕一條真實(shí)的物理世界數(shù)據(jù),所有數(shù)據(jù)全都是在這個(gè)世界模擬器里生成的虛擬軌跡。然而令人吃驚的是,靠純虛構(gòu)數(shù)據(jù)喂出來的策略模型,居然可以在復(fù)雜的“繩索布線”、“雜物清掃”中實(shí)現(xiàn)現(xiàn)實(shí)世界零樣本落地。即使畫面里有外人不斷伸手去干擾機(jī)器人,機(jī)器人的表現(xiàn)依然堅(jiān)如磐石。這種表現(xiàn)同樣適用于抓取馬克杯、掃除雜物以及井字棋任務(wù)。

這就引出了一個(gè)終極問題:多少條虛擬數(shù)據(jù),才能抵得上一條真實(shí)的數(shù)據(jù)?為了回答這個(gè)問題,我們做了一項(xiàng)消融實(shí)驗(yàn),從 100%虛擬到 100% 真實(shí),不斷調(diào)節(jié)訓(xùn)練集里虛實(shí)數(shù)據(jù)的配比。

我們橫向評(píng)測(cè)了當(dāng)今最能打的幾套策略算法:Diffusion Policy、ACT以及Pi0模型。甚至最新的大模型架構(gòu)\pi_0。得出的結(jié)論非常震撼:所有模型的表現(xiàn)都保持了跨度極高的一致性。而且這種規(guī)律在不同任務(wù)間完美遷移。

我可以大膽放言:在我們的世界模擬器中生成的一條虛擬軌跡數(shù)據(jù),在訓(xùn)練價(jià)值上,幾乎 100%等效于你在真機(jī)上辛苦采集的一條真實(shí)數(shù)據(jù)。

我們也會(huì)拿這個(gè)世界模型來做策略評(píng)估。大家現(xiàn)在看到的是僅用真實(shí)數(shù)據(jù)訓(xùn)練好的策略,我們將它同時(shí)部署在上面這排的虛擬世界模擬器中,和下面這排的真實(shí)物理空間中。兩條軌跡幾乎完美同步;如果在底層做定量的誤差評(píng)估,它們的數(shù)值對(duì)齊程度也非常高。

我順帶提個(gè)有趣的插曲:幾個(gè)拿著Y Combinator投資的年輕創(chuàng)業(yè)者,直接拿我們開源的模型去搞商業(yè)化融資。我去看了眼他們宣發(fā)的BP博客,心想:“好家伙,這圖看著可真眼熟??!”

總之,這完美印證了我的核心觀點(diǎn):結(jié)合了結(jié)構(gòu)的“結(jié)構(gòu)化世界模型”,完全可以作為一種無限可擴(kuò)展的數(shù)據(jù)引擎,扛起大規(guī)模機(jī)器人模型訓(xùn)練與驗(yàn)證的重任。我們完全可以把這些數(shù)據(jù)的價(jià)值榨干:通過它們訓(xùn)練出極度豐富的世界模型,再用世界模型反哺數(shù)據(jù)的生成。

最后,我想向我所有的合作者致以最深切的感謝。沒有他們,完成這些龐大的工程系統(tǒng)簡(jiǎn)直是天方夜譚,尤其是我的學(xué)生們,他們承擔(dān)了我剛才所展示工作里幾乎所有最繁重的開發(fā)和推演。我還要感謝我實(shí)驗(yàn)室的贊助商們,他們常常提供非常敏銳的行業(yè)需求視角,啟發(fā)了我們今天的很多研究方向。

這就是我演講的全部?jī)?nèi)容,我非常樂意回答大家的提問。謝謝大家!

 

Q&A 問答環(huán)節(jié)

聽眾A: 這種基于圖的神經(jīng)模擬器,在底層算力上會(huì)不會(huì)有瓶頸?如果是極其動(dòng)態(tài)的高速操作,還能擴(kuò)展嗎?

李昀燭:這是一個(gè)非常好的問題。圖本質(zhì)上是對(duì)物理環(huán)境的一種降維抽象。你可以自由調(diào)節(jié)參與計(jì)算的節(jié)點(diǎn)或粒子數(shù)量,算力緊張時(shí),你可以把它當(dāng)成稀疏的“關(guān)鍵點(diǎn)”來算。

所以,這本質(zhì)上是一個(gè)在“算力”與“精度”如何平衡的問題。你可以動(dòng)態(tài)調(diào)整這個(gè)參數(shù),從而在計(jì)算效率和仿真效果之間找到最佳折中點(diǎn)。你需要找到那個(gè)最精簡(jiǎn)、卻又能剛好兜住下游任務(wù)所需物理信息的平衡點(diǎn)。

 

聽眾B: 您能詳細(xì)講講 3D 高斯濺射與基于圖的表征在您系統(tǒng)里的關(guān)系嗎?另外,在評(píng)估時(shí)到底要給算法喂多少演示數(shù)據(jù)才算公平?由于不同算法需要的演示形態(tài)不一樣,您怎么定義泛化能力的基準(zhǔn)呢?

李昀燭:這是一個(gè)非常內(nèi)行的提問,我必須要澄清:在我們的架構(gòu)里,高斯點(diǎn)僅僅負(fù)責(zé)環(huán)境的光影和外觀渲染。而涉及系統(tǒng)最核心的物理底層,也就是我們說的實(shí)際動(dòng)力學(xué)建模,我們完全使用的是圖節(jié)點(diǎn)和粒子網(wǎng)絡(luò)。

以面團(tuán)的仿真為例,我們用基于圖的神經(jīng)動(dòng)力學(xué)模型來算面團(tuán)的變形,并在圖的網(wǎng)絡(luò)結(jié)構(gòu)上套上密集彈簧質(zhì)點(diǎn)約束來控制它的物理拉伸。這意味著,在我們的架構(gòu)里,動(dòng)力學(xué)建模引擎與視覺渲染引擎本質(zhì)上是相互解耦的:高斯管渲染,Graph管物理。兩者在解耦的同時(shí),通過圖形學(xué)里經(jīng)典的“線性混合蒙皮”技術(shù)綁定在一起。

關(guān)于評(píng)估的嚴(yán)謹(jǐn)性,我們?cè)趯?shí)證數(shù)據(jù)上極其苛刻,如我幻燈片所示,我們硬性規(guī)定了極其嚴(yán)苛的同一套初始構(gòu)型。在對(duì)比時(shí),對(duì)于每種算法策略的每一個(gè)Checkpoint,我們雷打不動(dòng)地在真實(shí)環(huán)境里跑 20 次實(shí)測(cè),在數(shù)字環(huán)境里也跑 20次。雖然在數(shù)字環(huán)境里我們一鍵就能跑一萬次,但為了絕對(duì)的側(cè)邊比對(duì)(Side-by-side),我們?nèi)?20對(duì) 20。

我幻燈片上那密密麻麻的散點(diǎn)圖,每一個(gè)點(diǎn)背后都是學(xué)生在臺(tái)子上一絲不茍擺放 20次換來的真金白銀的數(shù)據(jù)。你可以數(shù)數(shù)我學(xué)生為了出這幾張圖到底肝了多久,這絕對(duì)是苦力活。至于訓(xùn)練階段,我們就采用行業(yè)通行的標(biāo)準(zhǔn)做法,也就是喂給策略大概 50到 200 條演示數(shù)據(jù)。

 

聽眾C: 您的模型泛化能力如何?比如,如果現(xiàn)在換一個(gè)形狀完全不同的小孩玩具,或者換一條材質(zhì)完全不同的繩子,您的模型還能直接泛化嗎?它是能直接泛化,還是說我要重頭為它訓(xùn)練一個(gè)新模型?

李昀燭:這是個(gè)極其直擊痛點(diǎn)的問題!因?yàn)槲覀儸F(xiàn)在的數(shù)字孿生是通過“現(xiàn)實(shí)到仿真(Real-to-Sim)”的管線為眼前這個(gè)“特定物體”量身定制的,所以它并不能零樣本直接遷移到新物體上。好在現(xiàn)在的極簡(jiǎn)流程,只需要幾分鐘就能構(gòu)建出一個(gè)新數(shù)字孿生體。

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

 

3D 還是 2D?哥大李昀燭:通用機(jī)器人基礎(chǔ)模型的解藥在“中間地帶”  | ICRA 2026

但是我們的星辰大海不止于此,我們正在全力攻堅(jiān)的一項(xiàng)工作,就是從這批已經(jīng)被辨識(shí)出的各種物體中,“蒸餾”出一個(gè)更高維度的通用神經(jīng)動(dòng)力學(xué)模型。我們的終極愿景是:只用這一個(gè)通用模型,就能自然而然地泛化到所有奇形怪狀的未知可變形物體上。

 

聽眾D: 我非常震撼于您能把偏向 2D數(shù)據(jù)驅(qū)動(dòng)的視頻生成和偏向 3D 物理先驗(yàn)驅(qū)動(dòng)的結(jié)構(gòu)化重建完美結(jié)合。我知道您的學(xué)術(shù)背景很偏向 CV,都在狂堆 2D 端到端模型,甚至有人喊出“3D 路線已死”,站在您的視角,您對(duì)未來的技術(shù)版圖有什么樣的愿景?這兩條路線最終將以何種形態(tài)融合?

李昀燭:這是一個(gè)非常宏大的問題,如果私下聊,這個(gè)話題我們能激辯幾個(gè)小時(shí),但我長(zhǎng)話短說以表立場(chǎng):我是 3D技術(shù)死心塌地的信徒。

只要有一絲可能讓系統(tǒng)跑在 3D 空間里,我就會(huì)不惜一切代價(jià)往三維靠攏。哪怕是我在做“生成式視頻預(yù)測(cè)”這項(xiàng)工作時(shí),我的底線也是必須做“多攝像機(jī)視角的聯(lián)合推演”。也就是說,即使是跑 2D 的視頻大模型,它的大腦里也必須含有一定程度的三維空間理解能力。

從長(zhǎng)遠(yuǎn)來看,我絕對(duì)承認(rèn)純數(shù)據(jù)驅(qū)動(dòng)路線那可怕的潛力——只要算力不斷,但至少現(xiàn)在,它的泛化性、多視角的物理一致性,還差得太遠(yuǎn)。

反過來看另一端的純物理引擎呢?邏輯雖然絕對(duì)嚴(yán)密,但它苛求完整的環(huán)境狀態(tài)信息,這種理想條件在自然場(chǎng)景里根本不現(xiàn)實(shí)。正因?yàn)榭吹搅藘烧叩臉O限,我才一直死磕這個(gè)問題:我到底能在光譜兩端的中間地帶找到什么?

我堅(jiān)信,最終能改變世界的那個(gè)大模型,一定會(huì)坐落在 3D 物理結(jié)構(gòu)與 2D海量數(shù)據(jù)的交匯處。我們要尋找的是那把最精簡(jiǎn)的“物理先驗(yàn)”鑰匙,并讓它在無盡的真實(shí)數(shù)據(jù)浪潮中自我進(jìn)化。這,才是通向通用機(jī)器人時(shí)代的終極配方。

謝謝大家!

 

 

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
高淳县| 静乐县| 乌兰浩特市| 崇州市| 泰和县| 丰城市| 贡嘎县| 汉川市| 潍坊市| 曲阜市| 通海县| 桐庐县| 莲花县| 南靖县| 阿鲁科尔沁旗| 松原市| 松滋市| 利川市| 永宁县| 特克斯县| 通河县| 阳江市| 德清县| 钦州市| 六安市| 乡宁县| 长治市| 彝良县| 曲靖市| 宁南县| 崇州市| 罗甸县| 钟祥市| 舟曲县| 长白| 南安市| 将乐县| 绵竹市| 广宗县| 梓潼县| 鸡东县|