高陽團(tuán)隊 FP3 入圍 ICRA 2026 機器人學(xué)習(xí)最佳論文：機器人基模從 2D 圖像走向 3D 操作空間

本文作者：陳淑瑜

2026-06-11 14:12

專題：ICRA 2017：創(chuàng)新、創(chuàng)業(yè)和解決方法

導(dǎo)語：用 3D 點云提升機器人跨視角、跨物體泛化，80 條示范即可完成新任務(wù)微調(diào)。

來源：公眾號“INFINITY”

原文鏈接：https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

高陽團(tuán)隊 FP3 入圍 ICRA 2026 機器人學(xué)習(xí)最佳論文：機器人基模從 2D 圖像走向 3D 操作空間

用 3D 點云提升機器人跨視角、跨物體泛化，80 條示范即可完成新任務(wù)微調(diào)。

機器人基礎(chǔ)模型為什么泛化差？很多時候不是模型不夠大，而是它看世界的方式不對。

現(xiàn)在主流機器人基礎(chǔ)模型大多依賴 2D 圖像。圖像能提供外觀，但它本質(zhì)上是三維世界壓扁后的投影。相機角度一變，背景一換，物體型號稍有不同，像素分布就變了。實驗室里跑得好，到了客戶現(xiàn)場就開始掉成功率。

FP3 要處理的就是這個輸入模態(tài)缺陷。

它提出了首個面向機器人操作的 3D 基礎(chǔ)策略模型，也就是 3D Foundation Policy。簡單說，F(xiàn)P3 不再只讓機器人從 2D 圖像里學(xué)動作，而是把策略建立在 3D 點云空間里，讓模型直接理解物體、機械臂和環(huán)境之間的空間關(guān)系。

這也是當(dāng)前 VLA 路線向 3D 空間延伸的代表性工作。FP3把視覺輸入從二維圖像推進(jìn)到三維空間。

這篇工作由清華大學(xué) IIIS 聯(lián)合上海 AI Lab、上海期智研究院發(fā)布，通訊作者為高陽，獲 ICRA 2026 Robot Learning 方向最佳論文提名；它也是本屆 ICRA 入圍中的國產(chǎn)具身基礎(chǔ)模型成果。

高陽是清華大學(xué)交叉信息研究院助理教授、上海期智研究院 PI，同時也是具身智能公司千尋智能聯(lián)合創(chuàng)始人、首席科學(xué)家。他的研究方向包括計算機視覺、機器人學(xué)習(xí)和具身智能。其本科畢業(yè)于清華大學(xué)計算機系，博士畢業(yè)于 UC Berkeley，師從 Trevor Darrell。高陽團(tuán)隊長期關(guān)注機器人如何真正理解三維世界，近期代表工作包括 FP3、ATM、CoPa 等。

它的產(chǎn)業(yè)價值很直接：80 條示范學(xué)會新任務(wù)，單卡約 2 小時微調(diào)；在從未見過的場景和物體上，零樣本成功率達(dá)到 82.5%。這兩件事對應(yīng)機器人落地最真實的兩個障礙：數(shù)據(jù)采集貴，換場景就廢。

FP3 給出的不只是好看的數(shù)字，更是一個國產(chǎn)開源 3D 基礎(chǔ)策略模型的起點。

1.3B 參數(shù) 3D 點云基礎(chǔ)策略模型，基于 DROID 60k 軌跡預(yù)訓(xùn)練，支持少量數(shù)據(jù)微調(diào)和未見場景泛化。

2D 觀察的根本問題

機器人做操作任務(wù)，真正需要判斷的是三維關(guān)系。

杯子在哪里，離夾爪多遠(yuǎn)，開口朝哪個方向；毛巾邊緣是否被捏住，桌上雜物有沒有擋住目標(biāo)；倒水時，容器、杯口和機械臂姿態(tài)之間是什么關(guān)系。這些都發(fā)生在三維空間里。

2D 圖像的問題，是它把三維世界壓成了一張平面圖。

一個杯子從正面看、側(cè)面看、俯視看，像素形狀會變化。相機高一點、低一點、偏一點，物體在畫面中的大小、位置和輪廓都會變。光照變暗，背景變復(fù)雜，桌面顏色變了，圖像分布也會變。

對人來說，這些變化不影響判斷。人會自動補出物體的三維形狀和空間位置。

但對 2D 策略模型來說，它看到的是像素。模型必須靠大量數(shù)據(jù)去學(xué)會：這些不同畫面其實是同一個三維場景。

機器人不是在圖片里移動鼠標(biāo)。它要在三維世界里抓、推、折、倒和接觸。輸入如果只保留 2D 投影，模型就要從數(shù)據(jù)里重新學(xué)三維關(guān)系。數(shù)據(jù)少一點，泛化就崩。

FP3 的出發(fā)點，是不要讓模型先從 2D 圖像里猜 3D，而是直接給它 3D。

點云為什么有用

點云是一組三維坐標(biāo)點。

RGB-D 相機可以同時獲取顏色和深度。把每個像素根據(jù)深度投回三維空間，就能得到場景中物體、桌面和障礙物的 3D 點集合。這些點沒有 CAD 模型那么干凈，也沒有網(wǎng)格那么規(guī)整，但它直接記錄了物體表面和空間位置。

FP3 用的就是點云。

它的輸入包括三部分：3D 點云、語言指令、本體感受狀態(tài)。語言指令告訴機器人要做什么，本體感受告訴機器人自己的關(guān)節(jié)和狀態(tài)，點云告訴它外部世界的三維結(jié)構(gòu)。模型輸出的是未來動作序列。

Uni3D 提取 3D 點云特征，CLIP 編碼語言，DiT 生成未來動作序列。

點云最大的價值，不只是“信息更豐富”。它真正關(guān)鍵的地方，是坐標(biāo)系可以和相機視角解耦。

只要相機標(biāo)定正確，不同角度看到同一個場景，最后還原到世界坐標(biāo)系里的點云可以保持一致。換句話說，相機角度變化帶來的不變性，不完全需要模型靠數(shù)據(jù)學(xué)出來，而是可以通過幾何計算直接得到。

這和 2D 圖像完全不同。2D 模型要學(xué)會：這個角度下的杯子，和另一個角度下的杯子，是同一個杯子。點云模型則可以直接看到：杯子表面的點在三維空間里大致在哪里，杯口朝向哪里，離夾爪有多遠(yuǎn)。

這就是結(jié)構(gòu)性優(yōu)勢。

FP3 不是從零訓(xùn)練一個小型點云編碼器。它用了 Uni3D ViT。

Uni3D 是一個預(yù)訓(xùn)練 3D 點云編碼器，可以理解成 3D 世界里的視覺骨干網(wǎng)絡(luò)。它的參數(shù)量約 300M，作用是把點云里的幾何形狀、空間位置和語義信息，編碼成策略模型能理解的特征。相比小型 3D 編碼器，它的表達(dá)能力更強，也已經(jīng)具備一定 3D-語言對齊能力。

FP3 的主干架構(gòu)是 DiT。DiT 是 Diffusion Transformer，也就是擴散 Transformer。它不是一步預(yù)測下一個動作，而是從一段噪聲動作開始，在點云、語言和機器人狀態(tài)的約束下逐步去噪，生成未來一串動作。

這適合機器人操作。折疊毛巾、清理桌面、扶起杯子、倒水，都不是單步動作，而是一段連續(xù)動作。

預(yù)訓(xùn)練讓 80 條示范就夠了

FP3 走的是預(yù)訓(xùn)練加后訓(xùn)練路線。

預(yù)訓(xùn)練，是先讓模型在大規(guī)模、多任務(wù)數(shù)據(jù)上學(xué)習(xí)通用表示。后訓(xùn)練，是再用少量高質(zhì)量數(shù)據(jù)適配具體任務(wù)。

它先在 DROID 數(shù)據(jù)集上預(yù)訓(xùn)練。DROID 是一個大規(guī)模真實機器人操作數(shù)據(jù)集，可以理解成機器人領(lǐng)域的“預(yù)訓(xùn)練語料庫”。它收集了大量真實機器人在不同場景、不同任務(wù)下的操作軌跡。FP3 使用約 6 萬條軌跡進(jìn)行預(yù)訓(xùn)練，覆蓋 86 個任務(wù)和 564 個場景。論文摘要也寫到，F(xiàn)P3 是首個大規(guī)模 3D foundation policy model，并預(yù)訓(xùn)練于 60k 條點云觀測軌跡。

這一步的意義，是讓模型先學(xué)到通用操作共性。

比如機械臂怎么接近物體，夾爪怎么閉合，物體被推、拿、放時空間關(guān)系怎么變化，倒水時容器姿態(tài)和任務(wù)目標(biāo)如何對應(yīng)。這些不是某一個單獨任務(wù)的技巧，而是跨任務(wù)存在的操作規(guī)律。

有了預(yù)訓(xùn)練，后訓(xùn)練就不需要從零學(xué)。

FP3 后訓(xùn)練只需要 80 條示范。具體是每個任務(wù) 8 個場景，每個場景 10 條。它使用 LoRA 微調(diào)，單卡約 2 小時完成。

LoRA 是一種低成本微調(diào)方法。它不重訓(xùn)整個大模型，只更新少量新增參數(shù)，所以顯存和時間成本更低，工程上更容易落地。

傳統(tǒng)機器人模仿學(xué)習(xí)，新任務(wù)經(jīng)常需要 200 條左右示范，甚至更多。采機器人數(shù)據(jù)不是寫文本，也不是爬網(wǎng)頁。它要人操作、設(shè)備運行、失敗重置、數(shù)據(jù)清洗和質(zhì)量檢查。每多采一條，都是現(xiàn)實成本。

FP3 能用 80 條示范跑起來，說明預(yù)訓(xùn)練表示確實遷移了。它不是把新任務(wù)完全從零學(xué)一遍，而是在已有 3D 操作表示上做適配。

實驗結(jié)果

FP3 測了 4 個下游任務(wù)：折疊毛巾、清理桌面、扶起杯子、倒水。

這些任務(wù)不是簡單抓取。折疊毛巾涉及柔性物體，清理桌面涉及多物體和空間整理，扶起杯子需要判斷物體姿態(tài)，倒水需要連續(xù)控制容器角度。它們都要求模型理解三維幾何和動作之間的關(guān)系。

先看域內(nèi)結(jié)果。域內(nèi)指的是模型見過的場景和見過的物體。只用 80 條示范后訓(xùn)練，F(xiàn)P3 平均成功率達(dá)到 95%。

同樣條件下，DP 是 36.25%，DP3 是 22.5%，OpenVLA 是 7.5%。

展示 FP3 在未見場景、未見物體、不同視角和干擾條件下的泛化結(jié)果。

DP 是經(jīng)典擴散策略，主要基于 2D 觀察。DP3 是小型 3D 策略。OpenVLA 是大規(guī)模 2D VLA。這個對比說明一個問題：大模型如果只看 2D，不一定比更合適的 3D 策略更強；小型 3D 策略有 3D 輸入，但模型規(guī)模和預(yù)訓(xùn)練不足，也撐不起基礎(chǔ)模型式泛化。

真正重要的是野外零樣本。

野外零樣本指的是：測試場景從沒見過，測試物體也從沒見過，部署時不再給新場景數(shù)據(jù)繼續(xù)訓(xùn)練。這個設(shè)置更接近真實客戶現(xiàn)場。

在這個設(shè)置下，F(xiàn)P3 平均成功率是 82.5%。

DP 是 1.25%，DP3 是 2.5%，OpenVLA 是 3.75%。FP3 如果從零訓(xùn)練、沒有預(yù)訓(xùn)練，成功率也是 1.25%。

這組結(jié)果說明兩件事。

第一，2D 方法在野外場景幾乎全崩。它們在訓(xùn)練環(huán)境里可能學(xué)到了有用的動作模式，但一換新場景、新物體和新背景，像素分布變了，模型就不知道該怎么泛化。

第二，3D 輸入本身還不夠。FP3 從零訓(xùn)練只有 1.25%，說明只給點云、不給大規(guī)模預(yù)訓(xùn)練，模型也學(xué)不到足夠通用的操作表示。

消融實驗也指向同一個結(jié)論。

去掉 3D、換成 2D 圖像，野外性能從 95% 跌到 55%。去掉預(yù)訓(xùn)練，野外性能跌到 0%。3D 點云提供了更合適的空間輸入，大規(guī)模預(yù)訓(xùn)練提供了可遷移的操作表示。兩者缺一項，泛化都會崩。

80 條示范后，F(xiàn)P3 域內(nèi)成功率 95%，野外零樣本成功率 82.5%，顯著高于 DP、DP3、OpenVLA。

產(chǎn)業(yè)意義

FP3 的產(chǎn)業(yè)意義，第一層是降低部署門檻。

機器人公司最怕的不是模型在實驗室做不出 demo，而是每到一個新現(xiàn)場都要重新采大量數(shù)據(jù)?，F(xiàn)在很多策略模型學(xué)習(xí)新任務(wù)，往往需要 200 條示范起步。復(fù)雜一點的任務(wù)，還要更多。

FP3 把這個數(shù)字壓到 80 條，并且用 LoRA 單卡約 2 小時完成后訓(xùn)練。

這意味著新任務(wù)適配不再一定是重訓(xùn)練工程。新物品、新桌面、新工位，只要數(shù)據(jù)采集和標(biāo)定流程穩(wěn)定，就有可能用少量示范快速適配。

第二層是解決換場景掉成功率的問題。

這是機器人落地最真實的障礙之一。實驗室里光線、相機、桌面、物體都可控?？蛻衄F(xiàn)場不一樣。光照亂，背景亂，物體型號變化，擺放方式變化，遮擋和干擾物更多。2D 模型在這些變化面前很脆弱，因為它嚴(yán)重依賴圖像外觀。

FP3 的零樣本泛化結(jié)果，直接對應(yīng)這個痛點。

第三層是國產(chǎn)開源 3D 基礎(chǔ)模型的起點。

現(xiàn)在機器人基礎(chǔ)模型的敘事，主要被 π0、OpenVLA、GR00T 這些海外路線占據(jù)。FP3 的位置不同。它從 3D 點云基礎(chǔ)策略切入，做的是大規(guī)模 3D 操作模型。

不是每家公司都有資源從頭訓(xùn)練一個 1B 級機器人基礎(chǔ)策略模型，也不是每家公司都能組織大規(guī)模多任務(wù)數(shù)據(jù)預(yù)訓(xùn)練。如果 FP3 的代碼、權(quán)重和訓(xùn)練方案能夠持續(xù)開源和維護(hù)，它可以成為國內(nèi)團(tuán)隊做 3D 策略微調(diào)、任務(wù)適配和場景泛化的底座。