0
| 本文作者: 陳淑瑜 | 2026-06-11 14:12 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
來源:公眾號“INFINITY”
原文鏈接:https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

用 3D 點云提升機器人跨視角、跨物體泛化,80 條示范即可完成新任務(wù)微調(diào)。
機器人基礎(chǔ)模型為什么泛化差?很多時候不是模型不夠大,而是它看世界的方式不對。
現(xiàn)在主流機器人基礎(chǔ)模型大多依賴 2D 圖像。圖像能提供外觀,但它本質(zhì)上是三維世界壓扁后的投影。相機角度一變,背景一換,物體型號稍有不同,像素分布就變了。實驗室里跑得好,到了客戶現(xiàn)場就開始掉成功率。
FP3 要處理的就是這個輸入模態(tài)缺陷。
它提出了首個面向機器人操作的 3D 基礎(chǔ)策略模型,也就是 3D Foundation Policy。簡單說,F(xiàn)P3 不再只讓機器人從 2D 圖像里學(xué)動作,而是把策略建立在 3D 點云空間里,讓模型直接理解物體、機械臂和環(huán)境之間的空間關(guān)系。
這也是當(dāng)前 VLA 路線向 3D 空間延伸的代表性工作。FP3把視覺輸入從二維圖像推進(jìn)到三維空間。
這篇工作由清華大學(xué) IIIS 聯(lián)合上海 AI Lab、上海期智研究院發(fā)布,通訊作者為高陽,獲 ICRA 2026 Robot Learning 方向最佳論文提名;它也是本屆 ICRA 入圍中的國產(chǎn)具身基礎(chǔ)模型成果。
高陽是清華大學(xué)交叉信息研究院助理教授、上海期智研究院 PI,同時也是具身智能公司千尋智能聯(lián)合創(chuàng)始人、首席科學(xué)家。他的研究方向包括計算機視覺、機器人學(xué)習(xí)和具身智能。其本科畢業(yè)于清華大學(xué)計算機系,博士畢業(yè)于 UC Berkeley,師從 Trevor Darrell。高陽團(tuán)隊長期關(guān)注機器人如何真正理解三維世界,近期代表工作包括 FP3、ATM、CoPa 等。

它的產(chǎn)業(yè)價值很直接:80 條示范學(xué)會新任務(wù),單卡約 2 小時微調(diào);在從未見過的場景和物體上,零樣本成功率達(dá)到 82.5%。這兩件事對應(yīng)機器人落地最真實的兩個障礙:數(shù)據(jù)采集貴,換場景就廢。
FP3 給出的不只是好看的數(shù)字,更是一個國產(chǎn)開源 3D 基礎(chǔ)策略模型的起點。

1.3B 參數(shù) 3D 點云基礎(chǔ)策略模型,基于 DROID 60k 軌跡預(yù)訓(xùn)練,支持少量數(shù)據(jù)微調(diào)和未見場景泛化。

2D 觀察的根本問題
機器人做操作任務(wù),真正需要判斷的是三維關(guān)系。
杯子在哪里,離夾爪多遠(yuǎn),開口朝哪個方向;毛巾邊緣是否被捏住,桌上雜物有沒有擋住目標(biāo);倒水時,容器、杯口和機械臂姿態(tài)之間是什么關(guān)系。這些都發(fā)生在三維空間里。
2D 圖像的問題,是它把三維世界壓成了一張平面圖。
一個杯子從正面看、側(cè)面看、俯視看,像素形狀會變化。相機高一點、低一點、偏一點,物體在畫面中的大小、位置和輪廓都會變。光照變暗,背景變復(fù)雜,桌面顏色變了,圖像分布也會變。
對人來說,這些變化不影響判斷。人會自動補出物體的三維形狀和空間位置。
但對 2D 策略模型來說,它看到的是像素。模型必須靠大量數(shù)據(jù)去學(xué)會:這些不同畫面其實是同一個三維場景。
機器人不是在圖片里移動鼠標(biāo)。它要在三維世界里抓、推、折、倒和接觸。輸入如果只保留 2D 投影,模型就要從數(shù)據(jù)里重新學(xué)三維關(guān)系。數(shù)據(jù)少一點,泛化就崩。
FP3 的出發(fā)點,是不要讓模型先從 2D 圖像里猜 3D,而是直接給它 3D。

點云為什么有用
點云是一組三維坐標(biāo)點。
RGB-D 相機可以同時獲取顏色和深度。把每個像素根據(jù)深度投回三維空間,就能得到場景中物體、桌面和障礙物的 3D 點集合。這些點沒有 CAD 模型那么干凈,也沒有網(wǎng)格那么規(guī)整,但它直接記錄了物體表面和空間位置。
FP3 用的就是點云。
它的輸入包括三部分:3D 點云、語言指令、本體感受狀態(tài)。語言指令告訴機器人要做什么,本體感受告訴機器人自己的關(guān)節(jié)和狀態(tài),點云告訴它外部世界的三維結(jié)構(gòu)。模型輸出的是未來動作序列。

Uni3D 提取 3D 點云特征,CLIP 編碼語言,DiT 生成未來動作序列。
點云最大的價值,不只是“信息更豐富”。它真正關(guān)鍵的地方,是坐標(biāo)系可以和相機視角解耦。
只要相機標(biāo)定正確,不同角度看到同一個場景,最后還原到世界坐標(biāo)系里的點云可以保持一致。換句話說,相機角度變化帶來的不變性,不完全需要模型靠數(shù)據(jù)學(xué)出來,而是可以通過幾何計算直接得到。
這和 2D 圖像完全不同。2D 模型要學(xué)會:這個角度下的杯子,和另一個角度下的杯子,是同一個杯子。點云模型則可以直接看到:杯子表面的點在三維空間里大致在哪里,杯口朝向哪里,離夾爪有多遠(yuǎn)。
這就是結(jié)構(gòu)性優(yōu)勢。
FP3 不是從零訓(xùn)練一個小型點云編碼器。它用了 Uni3D ViT。
Uni3D 是一個預(yù)訓(xùn)練 3D 點云編碼器,可以理解成 3D 世界里的視覺骨干網(wǎng)絡(luò)。它的參數(shù)量約 300M,作用是把點云里的幾何形狀、空間位置和語義信息,編碼成策略模型能理解的特征。相比小型 3D 編碼器,它的表達(dá)能力更強,也已經(jīng)具備一定 3D-語言對齊能力。
FP3 的主干架構(gòu)是 DiT。DiT 是 Diffusion Transformer,也就是擴散 Transformer。它不是一步預(yù)測下一個動作,而是從一段噪聲動作開始,在點云、語言和機器人狀態(tài)的約束下逐步去噪,生成未來一串動作。
這適合機器人操作。折疊毛巾、清理桌面、扶起杯子、倒水,都不是單步動作,而是一段連續(xù)動作。

預(yù)訓(xùn)練讓 80 條示范就夠了
FP3 走的是預(yù)訓(xùn)練加后訓(xùn)練路線。
預(yù)訓(xùn)練,是先讓模型在大規(guī)模、多任務(wù)數(shù)據(jù)上學(xué)習(xí)通用表示。后訓(xùn)練,是再用少量高質(zhì)量數(shù)據(jù)適配具體任務(wù)。
它先在 DROID 數(shù)據(jù)集上預(yù)訓(xùn)練。DROID 是一個大規(guī)模真實機器人操作數(shù)據(jù)集,可以理解成機器人領(lǐng)域的“預(yù)訓(xùn)練語料庫”。它收集了大量真實機器人在不同場景、不同任務(wù)下的操作軌跡。FP3 使用約 6 萬條軌跡進(jìn)行預(yù)訓(xùn)練,覆蓋 86 個任務(wù)和 564 個場景。論文摘要也寫到,F(xiàn)P3 是首個大規(guī)模 3D foundation policy model,并預(yù)訓(xùn)練于 60k 條點云觀測軌跡。
這一步的意義,是讓模型先學(xué)到通用操作共性。
比如機械臂怎么接近物體,夾爪怎么閉合,物體被推、拿、放時空間關(guān)系怎么變化,倒水時容器姿態(tài)和任務(wù)目標(biāo)如何對應(yīng)。這些不是某一個單獨任務(wù)的技巧,而是跨任務(wù)存在的操作規(guī)律。
有了預(yù)訓(xùn)練,后訓(xùn)練就不需要從零學(xué)。
FP3 后訓(xùn)練只需要 80 條示范。具體是每個任務(wù) 8 個場景,每個場景 10 條。它使用 LoRA 微調(diào),單卡約 2 小時完成。
LoRA 是一種低成本微調(diào)方法。它不重訓(xùn)整個大模型,只更新少量新增參數(shù),所以顯存和時間成本更低,工程上更容易落地。
傳統(tǒng)機器人模仿學(xué)習(xí),新任務(wù)經(jīng)常需要 200 條左右示范,甚至更多。采機器人數(shù)據(jù)不是寫文本,也不是爬網(wǎng)頁。它要人操作、設(shè)備運行、失敗重置、數(shù)據(jù)清洗和質(zhì)量檢查。每多采一條,都是現(xiàn)實成本。
FP3 能用 80 條示范跑起來,說明預(yù)訓(xùn)練表示確實遷移了。它不是把新任務(wù)完全從零學(xué)一遍,而是在已有 3D 操作表示上做適配。

實驗結(jié)果
FP3 測了 4 個下游任務(wù):折疊毛巾、清理桌面、扶起杯子、倒水。
這些任務(wù)不是簡單抓取。折疊毛巾涉及柔性物體,清理桌面涉及多物體和空間整理,扶起杯子需要判斷物體姿態(tài),倒水需要連續(xù)控制容器角度。它們都要求模型理解三維幾何和動作之間的關(guān)系。
先看域內(nèi)結(jié)果。域內(nèi)指的是模型見過的場景和見過的物體。只用 80 條示范后訓(xùn)練,F(xiàn)P3 平均成功率達(dá)到 95%。
同樣條件下,DP 是 36.25%,DP3 是 22.5%,OpenVLA 是 7.5%。

展示 FP3 在未見場景、未見物體、不同視角和干擾條件下的泛化結(jié)果。
DP 是經(jīng)典擴散策略,主要基于 2D 觀察。DP3 是小型 3D 策略。OpenVLA 是大規(guī)模 2D VLA。這個對比說明一個問題:大模型如果只看 2D,不一定比更合適的 3D 策略更強;小型 3D 策略有 3D 輸入,但模型規(guī)模和預(yù)訓(xùn)練不足,也撐不起基礎(chǔ)模型式泛化。
真正重要的是野外零樣本。
野外零樣本指的是:測試場景從沒見過,測試物體也從沒見過,部署時不再給新場景數(shù)據(jù)繼續(xù)訓(xùn)練。這個設(shè)置更接近真實客戶現(xiàn)場。
在這個設(shè)置下,F(xiàn)P3 平均成功率是 82.5%。
DP 是 1.25%,DP3 是 2.5%,OpenVLA 是 3.75%。FP3 如果從零訓(xùn)練、沒有預(yù)訓(xùn)練,成功率也是 1.25%。
這組結(jié)果說明兩件事。
第一,2D 方法在野外場景幾乎全崩。它們在訓(xùn)練環(huán)境里可能學(xué)到了有用的動作模式,但一換新場景、新物體和新背景,像素分布變了,模型就不知道該怎么泛化。
第二,3D 輸入本身還不夠。FP3 從零訓(xùn)練只有 1.25%,說明只給點云、不給大規(guī)模預(yù)訓(xùn)練,模型也學(xué)不到足夠通用的操作表示。
消融實驗也指向同一個結(jié)論。
去掉 3D、換成 2D 圖像,野外性能從 95% 跌到 55%。去掉預(yù)訓(xùn)練,野外性能跌到 0%。3D 點云提供了更合適的空間輸入,大規(guī)模預(yù)訓(xùn)練提供了可遷移的操作表示。兩者缺一項,泛化都會崩。

80 條示范后,F(xiàn)P3 域內(nèi)成功率 95%,野外零樣本成功率 82.5%,顯著高于 DP、DP3、OpenVLA。

產(chǎn)業(yè)意義
FP3 的產(chǎn)業(yè)意義,第一層是降低部署門檻。
機器人公司最怕的不是模型在實驗室做不出 demo,而是每到一個新現(xiàn)場都要重新采大量數(shù)據(jù)?,F(xiàn)在很多策略模型學(xué)習(xí)新任務(wù),往往需要 200 條示范起步。復(fù)雜一點的任務(wù),還要更多。
FP3 把這個數(shù)字壓到 80 條,并且用 LoRA 單卡約 2 小時完成后訓(xùn)練。
這意味著新任務(wù)適配不再一定是重訓(xùn)練工程。新物品、新桌面、新工位,只要數(shù)據(jù)采集和標(biāo)定流程穩(wěn)定,就有可能用少量示范快速適配。
第二層是解決換場景掉成功率的問題。
這是機器人落地最真實的障礙之一。實驗室里光線、相機、桌面、物體都可控??蛻衄F(xiàn)場不一樣。光照亂,背景亂,物體型號變化,擺放方式變化,遮擋和干擾物更多。2D 模型在這些變化面前很脆弱,因為它嚴(yán)重依賴圖像外觀。
FP3 的零樣本泛化結(jié)果,直接對應(yīng)這個痛點。
第三層是國產(chǎn)開源 3D 基礎(chǔ)模型的起點。
現(xiàn)在機器人基礎(chǔ)模型的敘事,主要被 π0、OpenVLA、GR00T 這些海外路線占據(jù)。FP3 的位置不同。它從 3D 點云基礎(chǔ)策略切入,做的是大規(guī)模 3D 操作模型。
不是每家公司都有資源從頭訓(xùn)練一個 1B 級機器人基礎(chǔ)策略模型,也不是每家公司都能組織大規(guī)模多任務(wù)數(shù)據(jù)預(yù)訓(xùn)練。如果 FP3 的代碼、權(quán)重和訓(xùn)練方案能夠持續(xù)開源和維護(hù),它可以成為國內(nèi)團(tuán)隊做 3D 策略微調(diào)、任務(wù)適配和場景泛化的底座。

判斷
FP3 最重要的判斷,是把視角不變性從“需要學(xué)”變成了“可以算”。
2D 模型面對相機角度變化,只能靠數(shù)據(jù)學(xué)不變性。它需要看過足夠多角度、足夠多背景、足夠多物體,才可能知道這些視覺變化背后是同一個三維結(jié)構(gòu)。
點云不一樣。只要相機標(biāo)定正確,同一個物體在世界坐標(biāo)里的形狀和位置可以直接算出來。模型少學(xué)一層不必要的視覺變化,就能把能力用在真正的操作關(guān)系上。
第二,80 條示范的數(shù)據(jù)效率說明預(yù)訓(xùn)練遷移是真實有效的。
機器人數(shù)據(jù)稀缺不是口號,而是每個真實項目都會遇到的成本問題。FP3 如果沒有預(yù)訓(xùn)練,野外性能直接跌到接近不可用;有了 DROID 上的大規(guī)模 3D 預(yù)訓(xùn)練,再用 80 條示范微調(diào),就能達(dá)到可用成功率。
第三,F(xiàn)P3 的限制也很清楚。
它當(dāng)前語言側(cè)主要依賴 CLIP,語言理解能力有限。CLIP 可以把圖像和文本對齊,但它不是為復(fù)雜機器人指令推理設(shè)計的。點云提供了幾何,但語義理解還不夠強。
復(fù)雜指令、隱含目標(biāo)、長程任務(wù)分解、多物體關(guān)系推理,都不是單靠點云就能解決的。
下一個問題已經(jīng)擺在這里:把 VLM 的語義理解和 3D 點云的幾何理解真正融合起來。
2D VLA 強在語義和常識,3D 策略強在空間和操作。如果能把兩者合在同一個策略系統(tǒng)里,機器人基礎(chǔ)模型才更接近真實部署需要的形態(tài)。
FP3 的意義,不是證明 3D 可以替代一切。
它證明的是:機器人基礎(chǔ)模型不能永遠(yuǎn)只看 2D 圖像。
世界是三維的,機器人也必須從三維開始學(xué)習(xí)。
? 論文:https://arxiv.org/abs/2503.08950
本專題其他文章