NTU 曹子昂教授團(tuán)隊(duì)：破解 3D 標(biāo)注成本難題，只需一張圖片丨CVPR 2026

本文作者：鄭佳美樊天驕

2026-06-05 19:02

導(dǎo)語(yǔ)：PhysX-Anythingt：可從一張照片自動(dòng)生成可用于機(jī)器人訓(xùn)練的物理 3D資產(chǎn)。

NTU 曹子昂教授團(tuán)隊(duì)：破解 3D 標(biāo)注成本難題，只需一張圖片丨CVPR 2026

PhysX-Anythingt：可從一張照片自動(dòng)生成可用于機(jī)器人訓(xùn)練的物理 3D資產(chǎn)。

作者丨鄭佳美、樊天驕

編輯丨鄭佳美

在生成式 AI 進(jìn)入 3D 內(nèi)容生產(chǎn)之后，行業(yè)最先解決的是“看起來(lái)像不像”的問(wèn)題：一個(gè)模型能不能從文字或圖片生成外觀完整、紋理逼真、形狀合理的 3D 物體。

但隨著機(jī)器人、具身智能、數(shù)字孿生、AR / VR 和工業(yè)仿真的發(fā)展，真正制約應(yīng)用落地的矛盾已經(jīng)變了?，F(xiàn)實(shí)世界中的物體不是靜態(tài)擺件，而是帶有尺度、材料、重量、關(guān)節(jié)、摩擦、碰撞和功能關(guān)系的物理對(duì)象。

一個(gè)柜子不僅要有柜門(mén)，還要知道門(mén)軸在哪里、能向哪個(gè)方向打開(kāi)；一副眼鏡不僅要有鏡框和鏡腿，還要知道鏡腿能繞哪個(gè)關(guān)節(jié)折疊；一個(gè)水龍頭不僅要外形相似，還要能被旋轉(zhuǎn)、能和機(jī)械手發(fā)生接觸、能在仿真器里表現(xiàn)出合理運(yùn)動(dòng)。

換句話說(shuō)，未來(lái)的 3D 生成如果只停留在“生成一個(gè)好看的模型”，就很難支撐機(jī)器人訓(xùn)練、交互式場(chǎng)景構(gòu)建和真實(shí)物理仿真。

這正是當(dāng)前 3D 資產(chǎn)生成面臨的核心斷層：視覺(jué)資產(chǎn)越來(lái)越容易生成，但仿真資產(chǎn)依然高度依賴人工建模和手動(dòng)標(biāo)注。這個(gè)過(guò)程成本高、效率低，也很難規(guī)?；瘮U(kuò)展到家庭、工廠、商場(chǎng)、醫(yī)院等復(fù)雜真實(shí)場(chǎng)景。

因此，行業(yè)真正需要的不只是“圖像到 3D”，而是“圖像到可交互、可運(yùn)動(dòng)、可仿真的物理 3D 資產(chǎn)”。

在這種背景下，南洋理工大學(xué)曹子昂團(tuán)隊(duì)提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。試圖把單張真實(shí)圖像直接轉(zhuǎn)化為仿真可用的物理 3D 資產(chǎn)。

不僅恢復(fù)物體外形，還進(jìn)一步推斷部件結(jié)構(gòu)、關(guān)節(jié)關(guān)系、材料屬性、真實(shí)尺度、功能用途和文本描述，并輸出 URDF、XML 等可直接進(jìn)入物理引擎的格式。

PhysX-Anything 的意義不只是讓 3D 生成結(jié)果更精細(xì)，而是把 3D 生成從“視覺(jué)建?！蓖七M(jìn)到“物理建?！?，讓生成結(jié)果真正具備被機(jī)器人操作、被仿真系統(tǒng)調(diào)用、被交互場(chǎng)景使用的能力。

對(duì)于家庭機(jī)器人來(lái)說(shuō)，這意味著它可以從一張柜子照片生成可開(kāi)合的柜門(mén)資產(chǎn)，用于學(xué)習(xí)開(kāi)門(mén)和抓?。粚?duì)于 AR / VR 來(lái)說(shuō)，這意味著虛擬物體不再只是擺在場(chǎng)景里的裝飾，而是可以被用戶真實(shí)交互；對(duì)于工業(yè)仿真和數(shù)字孿生來(lái)說(shuō)，這意味著大量真實(shí)設(shè)備和日常物體有機(jī)會(huì)從照片快速轉(zhuǎn)化為可運(yùn)行的仿真對(duì)象。

PhysX-Anything 的關(guān)鍵價(jià)值正在于此：它把 3D 資產(chǎn)生成的目標(biāo)從“看起來(lái)真實(shí)”進(jìn)一步推向“用起來(lái)真實(shí)”。

論文地址：https://arxiv.org/abs/2511.13648

從數(shù)據(jù)驗(yàn)證到仿真可用

實(shí)驗(yàn)結(jié)果顯示，研究團(tuán)隊(duì)在 PhysX-Mobility 數(shù)據(jù)集上將 PhysX-Anything 與 URDFormer、Articulate-Anything、PhysXGen 進(jìn)行對(duì)比，評(píng)估單張圖像生成的物理 3D 資產(chǎn)在幾何質(zhì)量、物理屬性、關(guān)節(jié)結(jié)構(gòu)和文本描述方面的表現(xiàn)。

整體來(lái)看，PhysX-Anything 在主要指標(biāo)上表現(xiàn)最好，幾何質(zhì)量達(dá)到 PSNR 20.35、CD 14.43、F-score 77.50，物體尺度誤差從 PhysXGen 的 43.44 降至 0.30，說(shuō)明真實(shí)尺寸預(yù)測(cè)明顯更準(zhǔn)確；

材料屬性、可供性、運(yùn)動(dòng)參數(shù)和描述質(zhì)量也均優(yōu)于對(duì)比方法，說(shuō)明研究生成的物體不僅外形更完整，也更能反映真實(shí)材料、功能用途和關(guān)節(jié)運(yùn)動(dòng)關(guān)系。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

在真實(shí)網(wǎng)絡(luò)圖片測(cè)試中，研究使用約 100 張 in-the-wild 圖像，PhysX-Anything 的幾何 VLM 評(píng)分和運(yùn)動(dòng)參數(shù) VLM 評(píng)分均達(dá)到 0.94，明顯高于 URDFormer、Articulate-Anything 和 PhysXGen，說(shuō)明模型對(duì)非數(shù)據(jù)集物體也有較強(qiáng)泛化能力。

用戶研究中，14 名志愿者共給出 1,568 個(gè)有效評(píng)分，PhysX-Anything 在幾何、尺度、材料、可供性、運(yùn)動(dòng)參數(shù)和描述等維度都獲得更高偏好，其中幾何質(zhì)量為 0.98，運(yùn)動(dòng)參數(shù)為 0.98，描述質(zhì)量為 0.96，說(shuō)明生成結(jié)果更符合人類判斷。

消融實(shí)驗(yàn)進(jìn)一步說(shuō)明，最終表示方法優(yōu)于 Voxel 版本和 Index 版本，最終版本達(dá)到 PSNR 20.35、CD 14.43、F-score 77.50，并在復(fù)雜結(jié)構(gòu)和物理屬性預(yù)測(cè)上更穩(wěn)定。

機(jī)器人仿真實(shí)驗(yàn)中，研究團(tuán)隊(duì)將生成的水龍頭、柜門(mén)、眼鏡、打火機(jī)、筆記本和把手等資產(chǎn)導(dǎo)入 MuJoCo 風(fēng)格仿真環(huán)境，用于水龍頭開(kāi)關(guān)、門(mén)開(kāi)合、眼鏡折疊、打火機(jī)打開(kāi)、筆記本合上和把手操作等任務(wù)，結(jié)果說(shuō)明生成資產(chǎn)可以通過(guò) URDF 和 XML 直接用于仿真，不只是視覺(jué) 3D 模型，而是具備物理可執(zhí)行性的仿真可用 3D 資產(chǎn)。

從幾何識(shí)別到物理理解

實(shí)驗(yàn)經(jīng)過(guò)主要圍繞單張真實(shí)圖像生成仿真可用的物理 3D 資產(chǎn)展開(kāi)，研究團(tuán)隊(duì)希望系統(tǒng)不僅生成物體外形，還能同時(shí)得到部件結(jié)構(gòu)、關(guān)節(jié)關(guān)系、材料、尺度、可供性和文本描述，并輸出 URDF、XML、部件級(jí) mesh 等可用于仿真的格式。

為支持訓(xùn)練和評(píng)估，研究團(tuán)隊(duì)構(gòu)建 PhysX-Mobility 數(shù)據(jù)集，數(shù)據(jù)來(lái)自 PartNet-Mobility，包含超過(guò) 2K 個(gè)常見(jiàn)真實(shí)物體，覆蓋 47 類物體，例如馬桶、風(fēng)扇、相機(jī)、咖啡機(jī)、訂書(shū)機(jī)、柜子和椅子等。

標(biāo)注內(nèi)容包括絕對(duì)尺度、部件層級(jí)、材料、密度、關(guān)節(jié)類型、運(yùn)動(dòng)方向、運(yùn)動(dòng)范圍、可供性和部件文本描述，使原有物理 3D 數(shù)據(jù)類別擴(kuò)展超過(guò) 2 倍。

模型輸入為單張 in-the-wild 圖像，因此需要從單一視角中推斷可能被遮擋的結(jié)構(gòu)、復(fù)雜背景下的物體形狀、不明確的材質(zhì)、不可見(jiàn)的內(nèi)部構(gòu)造，以及物體真實(shí)的關(guān)節(jié)運(yùn)動(dòng)方式。

生成過(guò)程采用多輪對(duì)話，第一輪由基于 Qwen2.5 的 VLM 生成整體物理表示，內(nèi)容包括 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info，用來(lái)描述物體類別、尺寸、部件組成、材料屬性、功能用途和運(yùn)動(dòng)關(guān)系。

之后從第二輪到 N+1 輪逐個(gè)生成部件幾何，N 代表物體部件數(shù)量，每個(gè)部件輸出 32 × 32 × 32 的 3D voxel grid，并用被占用 voxel 索引和連續(xù)區(qū)間合并方式表達(dá)幾何，從而降低 VLM 上下文壓力，減少不同部件之間的干擾。

由于原始 mesh 和 vertex quantization 會(huì)產(chǎn)生過(guò)長(zhǎng) token 序列，研究人員將幾何表達(dá)改為 voxelization、voxel index 和 range merge，使 mesh 到 voxel 約壓縮 74×，最終約壓縮 193×，同時(shí)保留顯式幾何結(jié)構(gòu)，也不需要額外 special tokens 或新 tokenizer。

隨后，系統(tǒng)使用 controllable flow transformer 根據(jù)粗 voxel 細(xì)化幾何，再結(jié)合圖像條件、文本條件、粗 voxel 條件、噪聲和時(shí)間步生成高分辨率幾何特征。

接著通過(guò)預(yù)訓(xùn)練 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian，并用 nearest-neighbor 根據(jù) voxel assignment 分割出部件級(jí) mesh，最后整合全局物理信息和細(xì)粒度幾何，得到 URDF、XML 和部件級(jí) mesh。

實(shí)驗(yàn)評(píng)估包括多個(gè)部分，研究團(tuán)隊(duì)將 PhysX-Anything 與 URDFormer、Articulate-Anything 和 PhysXGen 對(duì)比，在 PhysX-Mobility 上用 PSNR、CD、F-score、Absolute scale、Material、Affordance、Kinematic parameters 和 Description 衡量幾何質(zhì)量與物理可用性。

又用約 100 張互聯(lián)網(wǎng)真實(shí)圖片測(cè)試泛化能力，通過(guò) GPT-5 評(píng)價(jià)幾何和關(guān)節(jié)運(yùn)動(dòng)，同時(shí)安排 14 名志愿者完成 1,568 個(gè)評(píng)分，補(bǔ)充人類主觀評(píng)價(jià)。

最后，研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)比較 voxel、index 和最終版本，驗(yàn)證表示壓縮策略對(duì)幾何保真度、物理屬性預(yù)測(cè)和復(fù)雜結(jié)構(gòu)穩(wěn)定性的影響。

并在 MuJoCo 風(fēng)格仿真環(huán)境中導(dǎo)入 URDF 和 XML，檢查生成資產(chǎn)是否能發(fā)生碰撞交互、關(guān)節(jié)是否能正確運(yùn)動(dòng)、物理屬性是否能支持策略學(xué)習(xí)，以及生成資產(chǎn)是否能直接用于接觸豐富的機(jī)器人操作任務(wù)。

開(kāi)創(chuàng) 3D 生成新范式

在方法和技術(shù)上，PhysX-Anything 把 VLM 從 2D 視覺(jué)任務(wù)擴(kuò)展到 3D 物理生成，證明了 VLM 也能有效處理幾何、關(guān)節(jié)和物理屬性的聯(lián)合建模。

而 193 倍 token 壓縮的表示方法對(duì)后續(xù)研究也有參考價(jià)值——這種 "在 token 預(yù)算內(nèi)最大化信息保留" 的思路，可以應(yīng)用到其他需要處理 3D 數(shù)據(jù)的 VLM 任務(wù)中。雷峰網(wǎng)

同時(shí)它也讓 3D 資產(chǎn)生成更接近真實(shí)世界的應(yīng)用需求: 過(guò)去很多 3D 生成集中在外觀重建上，生成的模型可以以假亂真，但它們無(wú)法用于機(jī)器人仿真、自動(dòng)駕駛訓(xùn)練等需要物理真實(shí)性的場(chǎng)景。

PhysX-Anything 還證明了單目 3D 生成也可以同時(shí)處理幾何、關(guān)節(jié)和物理屬性，對(duì)于服務(wù)機(jī)器人、家庭機(jī)器人、AR / VR 和工業(yè)仿真都有價(jià)值。

對(duì)仿真行業(yè)來(lái)說(shuō)，PhysX-Anything 具有超高的實(shí)用價(jià)值。PhysX-Anything大幅降低了可仿真 3D 資產(chǎn)的制作門(mén)檻：以前需要一個(gè)團(tuán)隊(duì)手搓建模并人工標(biāo)注物理屬性，現(xiàn)在只需一張照片就能自動(dòng)生成。無(wú)論是在游戲開(kāi)發(fā)、影視特效還是對(duì)工業(yè)仿真、自動(dòng)駕駛仿真等領(lǐng)域，PhysX-Anything 都具有重要的意義。

總而言之，PhysX-Anything 的價(jià)值在于把 3D 資產(chǎn)生成從"看起來(lái)真實(shí)"推進(jìn)到"用起來(lái)真實(shí)"，為未來(lái)更實(shí)用的家庭機(jī)器人、輔助設(shè)備和 AR / VR 應(yīng)用都提供了基礎(chǔ)。它是一個(gè)起點(diǎn)——讓從圖片到仿真資產(chǎn)的生成范式成為了一種新的可能。

PhysX-Anythingt 背后的研究者

本論文一作為 Ziang Cao（曹子昂），現(xiàn)為新加坡 NTU 計(jì)算機(jī)與數(shù)據(jù)科學(xué)學(xué)院博士研究生，隸屬 MMLab@NTU 實(shí)驗(yàn)室，師從著名計(jì)算機(jī)視覺(jué)學(xué)者 Ziwei Liu 。其研究方向主要集中在計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、機(jī)器人智能以及3D生成領(lǐng)域。

曹子昂的研究重點(diǎn)逐漸聚焦于物理智能與具身智能所需的 3D 資產(chǎn)生成技術(shù)，希望讓AI生成的3D模型不僅具備視覺(jué)外觀，還能夠具備真實(shí)世界中的物理屬性、運(yùn)動(dòng)結(jié)構(gòu)和交互能力。

在學(xué)術(shù)成果方面，他已連續(xù)在 CVPR、NeurIPS、ICLR、TPAMI、ICCV等國(guó)際頂級(jí)會(huì)議和期刊發(fā)表多篇論文。

在榮譽(yù)方面，曹子昂于 2025年獲得 Google PhD Fellowship（Machine Perception方向），并于 2026 年獲得 China3DV Rising Star Award，成為計(jì)算機(jī)視覺(jué)與3D生成領(lǐng)域備受關(guān)注的新生代青年學(xué)者之一。

參考鏈接：https://ziangcao0312.github.io/

論文的通訊作者為 Ziwei Liu（劉子緯）現(xiàn)任新加坡 NTU 計(jì)算與數(shù)據(jù)科學(xué)學(xué)院副教授，MMLab@NTU 核心負(fù)責(zé)人之一，長(zhǎng)期從事計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、多模態(tài)生成模型以及具身智能等方向研究。

劉子緯于 CUHK MMLab 獲得博士學(xué)位，師從計(jì)算機(jī)視覺(jué)領(lǐng)域著名學(xué)者 Xiaoou Tang 和 Xiaogang Wang。先后在美國(guó) University of California, Berkeley 和香港中文大學(xué)從事博士后研究工作，曾在微軟研究院和谷歌研究院實(shí)習(xí)。

他在計(jì)算機(jī)視覺(jué)與人工智能領(lǐng)域發(fā)表論文200余篇，研究成果發(fā)表于 TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICLR 等國(guó)際頂級(jí)期刊和會(huì)議。

其中由其團(tuán)隊(duì)構(gòu)建的CelebA數(shù)據(jù)集已成為計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的人臉屬性數(shù)據(jù)集之一，被全球?qū)W術(shù)界和工業(yè)界廣泛采用。

在學(xué)術(shù)榮譽(yù)方面，劉子緯先后獲得 PAMI Mark Everingham Prize、MIT Technology Review Asia-Pacific Innovators Under 35（TR35）、Asian Young Scientist Fellowship 以及新加坡總統(tǒng)青年科學(xué)家獎(jiǎng)等重要獎(jiǎng)項(xiàng)。

同時(shí)，他長(zhǎng)期擔(dān)任 CVPR、ICCV、ECCV、NeurIPS、ICLR 等國(guó)際頂會(huì)領(lǐng)域主席及程序委員會(huì)成員，是當(dāng)前國(guó)際生成式視覺(jué) AI、3D 生成與具身智能領(lǐng)域最具影響力的青年學(xué)者之一。