97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

本文作者: 鄭佳美   樊天驕   2026-06-05 19:02
導(dǎo)語(yǔ):PhysX-Anythingt:可從一張照片自動(dòng)生成可用于機(jī)器人訓(xùn)練的物理 3D資產(chǎn)。
NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026
PhysX-Anythingt:可從一張照片自動(dòng)生成可用于機(jī)器人訓(xùn)練的物理 3D資產(chǎn)。

    作者丨鄭佳美、樊天驕

    編輯丨鄭佳美

                                                                                                               

在生成式 AI 進(jìn)入 3D 內(nèi)容生產(chǎn)之后,行業(yè)最先解決的是“看起來(lái)像不像”的問(wèn)題:一個(gè)模型能不能從文字或圖片生成外觀完整、紋理逼真、形狀合理的 3D 物體。

但隨著機(jī)器人、具身智能、數(shù)字孿生、AR / VR 和工業(yè)仿真的發(fā)展,真正制約應(yīng)用落地的矛盾已經(jīng)變了?,F(xiàn)實(shí)世界中的物體不是靜態(tài)擺件,而是帶有尺度、材料、重量、關(guān)節(jié)、摩擦、碰撞和功能關(guān)系的物理對(duì)象。

一個(gè)柜子不僅要有柜門(mén),還要知道門(mén)軸在哪里、能向哪個(gè)方向打開(kāi);一副眼鏡不僅要有鏡框和鏡腿,還要知道鏡腿能繞哪個(gè)關(guān)節(jié)折疊;一個(gè)水龍頭不僅要外形相似,還要能被旋轉(zhuǎn)、能和機(jī)械手發(fā)生接觸、能在仿真器里表現(xiàn)出合理運(yùn)動(dòng)。

換句話說(shuō),未來(lái)的 3D 生成如果只停留在“生成一個(gè)好看的模型”,就很難支撐機(jī)器人訓(xùn)練、交互式場(chǎng)景構(gòu)建和真實(shí)物理仿真。

這正是當(dāng)前 3D 資產(chǎn)生成面臨的核心斷層:視覺(jué)資產(chǎn)越來(lái)越容易生成,但仿真資產(chǎn)依然高度依賴人工建模和手動(dòng)標(biāo)注。這個(gè)過(guò)程成本高、效率低,也很難規(guī)?;瘮U(kuò)展到家庭、工廠、商場(chǎng)、醫(yī)院等復(fù)雜真實(shí)場(chǎng)景。

因此,行業(yè)真正需要的不只是“圖像到 3D”,而是“圖像到可交互、可運(yùn)動(dòng)、可仿真的物理 3D 資產(chǎn)”。

在這種背景下,南洋理工大學(xué)曹子昂團(tuán)隊(duì)提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。試圖把單張真實(shí)圖像直接轉(zhuǎn)化為仿真可用的物理 3D 資產(chǎn)。

不僅恢復(fù)物體外形,還進(jìn)一步推斷部件結(jié)構(gòu)、關(guān)節(jié)關(guān)系、材料屬性、真實(shí)尺度、功能用途和文本描述,并輸出 URDF、XML 等可直接進(jìn)入物理引擎的格式。

PhysX-Anything 的意義不只是讓 3D 生成結(jié)果更精細(xì),而是把 3D 生成從“視覺(jué)建?!蓖七M(jìn)到“物理建?!?,讓生成結(jié)果真正具備被機(jī)器人操作、被仿真系統(tǒng)調(diào)用、被交互場(chǎng)景使用的能力。

對(duì)于家庭機(jī)器人來(lái)說(shuō),這意味著它可以從一張柜子照片生成可開(kāi)合的柜門(mén)資產(chǎn),用于學(xué)習(xí)開(kāi)門(mén)和抓?。粚?duì)于 AR / VR 來(lái)說(shuō),這意味著虛擬物體不再只是擺在場(chǎng)景里的裝飾,而是可以被用戶真實(shí)交互;對(duì)于工業(yè)仿真和數(shù)字孿生來(lái)說(shuō),這意味著大量真實(shí)設(shè)備和日常物體有機(jī)會(huì)從照片快速轉(zhuǎn)化為可運(yùn)行的仿真對(duì)象。

PhysX-Anything 的關(guān)鍵價(jià)值正在于此:它把 3D 資產(chǎn)生成的目標(biāo)從“看起來(lái)真實(shí)”進(jìn)一步推向“用起來(lái)真實(shí)”。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

論文地址:https://arxiv.org/abs/2511.13648

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

01


從數(shù)據(jù)驗(yàn)證到仿真可用

實(shí)驗(yàn)結(jié)果顯示,研究團(tuán)隊(duì)在 PhysX-Mobility 數(shù)據(jù)集上將 PhysX-Anything 與 URDFormer、Articulate-Anything、PhysXGen 進(jìn)行對(duì)比,評(píng)估單張圖像生成的物理 3D 資產(chǎn)在幾何質(zhì)量、物理屬性、關(guān)節(jié)結(jié)構(gòu)和文本描述方面的表現(xiàn)。

整體來(lái)看,PhysX-Anything 在主要指標(biāo)上表現(xiàn)最好,幾何質(zhì)量達(dá)到 PSNR 20.35、CD 14.43、F-score 77.50,物體尺度誤差從 PhysXGen 的 43.44 降至 0.30,說(shuō)明真實(shí)尺寸預(yù)測(cè)明顯更準(zhǔn)確;

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

材料屬性、可供性、運(yùn)動(dòng)參數(shù)和描述質(zhì)量也均優(yōu)于對(duì)比方法,說(shuō)明研究生成的物體不僅外形更完整,也更能反映真實(shí)材料、功能用途和關(guān)節(jié)運(yùn)動(dòng)關(guān)系。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

在真實(shí)網(wǎng)絡(luò)圖片測(cè)試中,研究使用約 100 張 in-the-wild 圖像,PhysX-Anything 的幾何 VLM 評(píng)分和運(yùn)動(dòng)參數(shù) VLM 評(píng)分均達(dá)到 0.94,明顯高于 URDFormer、Articulate-Anything 和 PhysXGen,說(shuō)明模型對(duì)非數(shù)據(jù)集物體也有較強(qiáng)泛化能力。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

用戶研究中,14 名志愿者共給出 1,568 個(gè)有效評(píng)分,PhysX-Anything 在幾何、尺度、材料、可供性、運(yùn)動(dòng)參數(shù)和描述等維度都獲得更高偏好,其中幾何質(zhì)量為 0.98,運(yùn)動(dòng)參數(shù)為 0.98,描述質(zhì)量為 0.96,說(shuō)明生成結(jié)果更符合人類判斷。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

消融實(shí)驗(yàn)進(jìn)一步說(shuō)明,最終表示方法優(yōu)于 Voxel 版本和 Index 版本,最終版本達(dá)到 PSNR 20.35、CD 14.43、F-score 77.50,并在復(fù)雜結(jié)構(gòu)和物理屬性預(yù)測(cè)上更穩(wěn)定。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

機(jī)器人仿真實(shí)驗(yàn)中,研究團(tuán)隊(duì)將生成的水龍頭、柜門(mén)、眼鏡、打火機(jī)、筆記本和把手等資產(chǎn)導(dǎo)入 MuJoCo 風(fēng)格仿真環(huán)境,用于水龍頭開(kāi)關(guān)、門(mén)開(kāi)合、眼鏡折疊、打火機(jī)打開(kāi)、筆記本合上和把手操作等任務(wù),結(jié)果說(shuō)明生成資產(chǎn)可以通過(guò) URDF 和 XML 直接用于仿真,不只是視覺(jué) 3D 模型,而是具備物理可執(zhí)行性的仿真可用 3D 資產(chǎn)。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

02


從幾何識(shí)別到物理理解

實(shí)驗(yàn)經(jīng)過(guò)主要圍繞單張真實(shí)圖像生成仿真可用的物理 3D 資產(chǎn)展開(kāi),研究團(tuán)隊(duì)希望系統(tǒng)不僅生成物體外形,還能同時(shí)得到部件結(jié)構(gòu)、關(guān)節(jié)關(guān)系、材料、尺度、可供性和文本描述,并輸出 URDF、XML、部件級(jí) mesh 等可用于仿真的格式。

為支持訓(xùn)練和評(píng)估,研究團(tuán)隊(duì)構(gòu)建 PhysX-Mobility 數(shù)據(jù)集,數(shù)據(jù)來(lái)自 PartNet-Mobility,包含超過(guò) 2K 個(gè)常見(jiàn)真實(shí)物體,覆蓋 47 類物體,例如馬桶、風(fēng)扇、相機(jī)、咖啡機(jī)、訂書(shū)機(jī)、柜子和椅子等。

標(biāo)注內(nèi)容包括絕對(duì)尺度、部件層級(jí)、材料、密度、關(guān)節(jié)類型、運(yùn)動(dòng)方向、運(yùn)動(dòng)范圍、可供性和部件文本描述,使原有物理 3D 數(shù)據(jù)類別擴(kuò)展超過(guò) 2 倍。

模型輸入為單張 in-the-wild 圖像,因此需要從單一視角中推斷可能被遮擋的結(jié)構(gòu)、復(fù)雜背景下的物體形狀、不明確的材質(zhì)、不可見(jiàn)的內(nèi)部構(gòu)造,以及物體真實(shí)的關(guān)節(jié)運(yùn)動(dòng)方式。

生成過(guò)程采用多輪對(duì)話,第一輪由基于 Qwen2.5 的 VLM 生成整體物理表示,內(nèi)容包括 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info,用來(lái)描述物體類別、尺寸、部件組成、材料屬性、功能用途和運(yùn)動(dòng)關(guān)系。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

之后從第二輪到 N+1 輪逐個(gè)生成部件幾何,N 代表物體部件數(shù)量,每個(gè)部件輸出 32 × 32 × 32 的 3D voxel grid,并用被占用 voxel 索引和連續(xù)區(qū)間合并方式表達(dá)幾何,從而降低 VLM 上下文壓力,減少不同部件之間的干擾。

由于原始 mesh 和 vertex quantization 會(huì)產(chǎn)生過(guò)長(zhǎng) token 序列,研究人員將幾何表達(dá)改為 voxelization、voxel index 和 range merge,使 mesh 到 voxel 約壓縮 74×,最終約壓縮 193×,同時(shí)保留顯式幾何結(jié)構(gòu),也不需要額外 special tokens 或新 tokenizer。

隨后,系統(tǒng)使用 controllable flow transformer 根據(jù)粗 voxel 細(xì)化幾何,再結(jié)合圖像條件、文本條件、粗 voxel 條件、噪聲和時(shí)間步生成高分辨率幾何特征。

接著通過(guò)預(yù)訓(xùn)練 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian,并用 nearest-neighbor 根據(jù) voxel assignment 分割出部件級(jí) mesh,最后整合全局物理信息和細(xì)粒度幾何,得到 URDF、XML 和部件級(jí) mesh。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

實(shí)驗(yàn)評(píng)估包括多個(gè)部分,研究團(tuán)隊(duì)將 PhysX-Anything 與 URDFormer、Articulate-Anything 和 PhysXGen 對(duì)比,在 PhysX-Mobility 上用 PSNR、CD、F-score、Absolute scale、Material、Affordance、Kinematic parameters 和 Description 衡量幾何質(zhì)量與物理可用性。

又用約 100 張互聯(lián)網(wǎng)真實(shí)圖片測(cè)試泛化能力,通過(guò) GPT-5 評(píng)價(jià)幾何和關(guān)節(jié)運(yùn)動(dòng),同時(shí)安排 14 名志愿者完成 1,568 個(gè)評(píng)分,補(bǔ)充人類主觀評(píng)價(jià)。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

最后,研究團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn)比較 voxel、index 和最終版本,驗(yàn)證表示壓縮策略對(duì)幾何保真度、物理屬性預(yù)測(cè)和復(fù)雜結(jié)構(gòu)穩(wěn)定性的影響。

并在 MuJoCo 風(fēng)格仿真環(huán)境中導(dǎo)入 URDF 和 XML,檢查生成資產(chǎn)是否能發(fā)生碰撞交互、關(guān)節(jié)是否能正確運(yùn)動(dòng)、物理屬性是否能支持策略學(xué)習(xí),以及生成資產(chǎn)是否能直接用于接觸豐富的機(jī)器人操作任務(wù)。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

03


開(kāi)創(chuàng) 3D 生成新范式

在方法和技術(shù)上,PhysX-Anything 把 VLM 從 2D 視覺(jué)任務(wù)擴(kuò)展到 3D 物理生成,證明了 VLM 也能有效處理幾何、關(guān)節(jié)和物理屬性的聯(lián)合建模。

而 193 倍 token 壓縮的表示方法對(duì)后續(xù)研究也有參考價(jià)值——這種 "在 token 預(yù)算內(nèi)最大化信息保留" 的思路,可以應(yīng)用到其他需要處理 3D 數(shù)據(jù)的 VLM 任務(wù)中。雷峰網(wǎng)

同時(shí)它也讓 3D 資產(chǎn)生成更接近真實(shí)世界的應(yīng)用需求: 過(guò)去很多 3D 生成集中在外觀重建上,生成的模型可以以假亂真,但它們無(wú)法用于機(jī)器人仿真、自動(dòng)駕駛訓(xùn)練等需要物理真實(shí)性的場(chǎng)景。

PhysX-Anything 還證明了單目 3D 生成也可以同時(shí)處理幾何、關(guān)節(jié)和物理屬性,對(duì)于服務(wù)機(jī)器人、家庭機(jī)器人、AR / VR 和工業(yè)仿真都有價(jià)值。

對(duì)仿真行業(yè)來(lái)說(shuō),PhysX-Anything 具有超高的實(shí)用價(jià)值。PhysX-Anything大幅降低了可仿真 3D 資產(chǎn)的制作門(mén)檻:以前需要一個(gè)團(tuán)隊(duì)手搓建模并人工標(biāo)注物理屬性,現(xiàn)在只需一張照片就能自動(dòng)生成。無(wú)論是在游戲開(kāi)發(fā)、影視特效還是對(duì)工業(yè)仿真、自動(dòng)駕駛仿真等領(lǐng)域,PhysX-Anything 都具有重要的意義。

總而言之,PhysX-Anything 的價(jià)值在于把 3D 資產(chǎn)生成從"看起來(lái)真實(shí)"推進(jìn)到"用起來(lái)真實(shí)",為未來(lái)更實(shí)用的家庭機(jī)器人、輔助設(shè)備和 AR / VR 應(yīng)用都提供了基礎(chǔ)。它是一個(gè)起點(diǎn)——讓從圖片到仿真資產(chǎn)的生成范式成為了一種新的可能。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

04


PhysX-Anythingt 背后的研究者

本論文一作為 Ziang Cao(曹子昂),現(xiàn)為新加坡 NTU 計(jì)算機(jī)與數(shù)據(jù)科學(xué)學(xué)院博士研究生,隸屬 MMLab@NTU 實(shí)驗(yàn)室,師從著名計(jì)算機(jī)視覺(jué)學(xué)者 Ziwei Liu 。其研究方向主要集中在計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、機(jī)器人智能以及3D生成領(lǐng)域。

曹子昂的研究重點(diǎn)逐漸聚焦于物理智能與具身智能所需的 3D 資產(chǎn)生成技術(shù),希望讓AI生成的3D模型不僅具備視覺(jué)外觀,還能夠具備真實(shí)世界中的物理屬性、運(yùn)動(dòng)結(jié)構(gòu)和交互能力。

在學(xué)術(shù)成果方面,他已連續(xù)在 CVPR、NeurIPS、ICLR、TPAMI、ICCV等國(guó)際頂級(jí)會(huì)議和期刊發(fā)表多篇論文。

在榮譽(yù)方面,曹子昂于 2025年 獲得 Google PhD Fellowship(Machine Perception方向),并于 2026 年獲得 China3DV Rising Star Award,成為計(jì)算機(jī)視覺(jué)與3D生成領(lǐng)域備受關(guān)注的新生代青年學(xué)者之一。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

參考鏈接:https://ziangcao0312.github.io/

論文的通訊作者為 Ziwei Liu(劉子緯)現(xiàn)任新加坡 NTU 計(jì)算與數(shù)據(jù)科學(xué)學(xué)院副教授,MMLab@NTU 核心負(fù)責(zé)人之一,長(zhǎng)期從事計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)圖形學(xué)、多模態(tài)生成模型以及具身智能等方向研究。

劉子緯于 CUHK MMLab 獲得博士學(xué)位,師從計(jì)算機(jī)視覺(jué)領(lǐng)域著名學(xué)者 Xiaoou Tang 和 Xiaogang Wang。先后在美國(guó) University of California, Berkeley 和香港中文大學(xué)從事博士后研究工作,曾在微軟研究院和谷歌研究院實(shí)習(xí)。

他在計(jì)算機(jī)視覺(jué)與人工智能領(lǐng)域發(fā)表論文200余篇,研究成果發(fā)表于 TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICLR 等國(guó)際頂級(jí)期刊和會(huì)議。

其中由其團(tuán)隊(duì)構(gòu)建的CelebA數(shù)據(jù)集已成為計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的人臉屬性數(shù)據(jù)集之一,被全球?qū)W術(shù)界和工業(yè)界廣泛采用。

在學(xué)術(shù)榮譽(yù)方面,劉子緯先后獲得 PAMI Mark Everingham Prize、MIT Technology Review Asia-Pacific Innovators Under 35(TR35)、Asian Young Scientist Fellowship 以及新加坡總統(tǒng)青年科學(xué)家獎(jiǎng)等重要獎(jiǎng)項(xiàng)。

同時(shí),他長(zhǎng)期擔(dān)任 CVPR、ICCV、ECCV、NeurIPS、ICLR 等國(guó)際頂會(huì)領(lǐng)域主席及程序委員會(huì)成員,是當(dāng)前國(guó)際生成式視覺(jué) AI、3D 生成與具身智能領(lǐng)域最具影響力的青年學(xué)者之一。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

參考鏈接:https://liuziwei7.github.io

去哪看 CVPR 核心【演講/論文】詳解?

為了讓國(guó)內(nèi)的研發(fā)者、創(chuàng)業(yè)者與投資人能夠毫無(wú)時(shí)差地掌握本屆 CVPR 2026 的完整干貨,雷峰網(wǎng)已全面上線【CVPR 2026 深度專區(qū)】。

專區(qū)不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續(xù)更新前方記者的第一手會(huì)議動(dòng)態(tài)。

掃描下方二維碼,或點(diǎn)擊閱讀原文關(guān)注專區(qū)。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個(gè)五年!

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

NTU 曹子昂教授團(tuán)隊(duì):破解 3D 標(biāo)注成本難題,只需一張圖片丨CVPR 2026

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
永靖县| 东兴市| 盱眙县| 定结县| 安化县| 东乌| 鸡西市| 武穴市| 榆社县| 天峨县| 冀州市| 丹江口市| 新龙县| 江孜县| 绥德县| 陆川县| 麻城市| 三明市| 方山县| 辉南县| 阿鲁科尔沁旗| 永济市| 南澳县| 玉环县| 浪卡子县| 湖南省| 鲁山县| 疏勒县| 昆山市| 广元市| 柳林县| 鄂伦春自治旗| 固原市| 海门市| 铜山县| 宽甸| 永川市| 土默特左旗| 莎车县| 新郑市| 二连浩特市|