CVPR 2026｜用互聯(lián)網(wǎng)視頻替代3D標(biāo)注：通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場景數(shù)據(jù)

本文作者：陳淑瑜

2026-05-28 10:57

導(dǎo)語：當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺，我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場景數(shù)據(jù)，提升 3D 場景理解的多任務(wù)表現(xiàn)？

來源：公眾號“機(jī)器之心”

原文鏈接：https://mp.weixin.qq.com/s/K3SAxYWNK8RoZ_ndYSWK8Q?scene=1&click_id=147

在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天，3D 場景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而，一個長期存在卻始終未被解決的問題是：

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺，我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場景數(shù)據(jù)，提升 3D 場景理解的多任務(wù)表現(xiàn)？

近期，來自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中，系統(tǒng)性地回答了這一問題。第一作者為北京通用人工智能研究院（BIGAI）研究員陳以新，合作者來自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué)，通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

CVPR 2026｜用互聯(lián)網(wǎng)視頻替代3D標(biāo)注：通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場景數(shù)據(jù)

論文鏈接： https://arxiv.org/abs/2604.01907
項(xiàng)目主頁：https://sv-pp.github.io/
數(shù)據(jù)鏈接：https://huggingface.co/datasets/bigai/SceneVersepp

圖 1 SceneVerse++ 總覽：從無標(biāo)注互聯(lián)網(wǎng)視頻出發(fā)，經(jīng)自動化引擎生成的數(shù)據(jù)可用于提升 3D 檢測、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。

研究團(tuán)隊(duì)提出了一整套面向 3D 場景理解的自動化數(shù)據(jù)引擎，從無標(biāo)注視頻出發(fā)，依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖（SfM）、稠密重建、實(shí)例分割、語義描述生成，并進(jìn)一步派生出空間問答（Spatial VQA）與視覺語言導(dǎo)航（VLN）所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎，團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場景數(shù)據(jù)集 SceneVerse++，共 6687 個場景，在場景數(shù)量、場景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù)，3D 目標(biāo)檢測與實(shí)例分割、3D 空間視覺問答（VQA）、3D 視覺語言導(dǎo)航（VLN）上，SceneVerse++ 均帶來顯著的零樣本與微調(diào)性能提升，并首次系統(tǒng)揭示了自動化數(shù)據(jù)生成流程中各子模塊對下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個可直接使用的數(shù)據(jù)集，更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無標(biāo)注數(shù)據(jù)驅(qū)動 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來發(fā)展方向。

3D 場景理解的最大瓶頸：真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ)，近年來從幾何感知（深度估計(jì)、相機(jī)位姿估計(jì)）到語義理解（3D 目標(biāo)檢測、實(shí)例分割），再到高層推理（3D 視覺定位、空間推理）都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同，高質(zhì)量 3D 場景數(shù)據(jù)的獲取與標(biāo)注代價極高：通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場景結(jié)構(gòu)與類別。

自 ScanNet 以來，3D 場景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級上的飛躍；后續(xù)工作或以精度為代價提升場景數(shù)量（如 ARKitScenes），或在有限規(guī)模上提升質(zhì)量（如 ScanNet++）。模型持續(xù)迭代，數(shù)據(jù)卻面臨瓶頸，成為制約 3D 場景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是：用精心設(shè)計(jì)的自動化數(shù)據(jù)引擎，從無標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場景表示，并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。

SceneVerse++：來自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場景，把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù)，這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力，同時也帶來了更復(fù)雜的建模挑戰(zhàn)。

整個數(shù)據(jù)管線由以下模塊組成：

鏡頭切分與過濾：使用 TransNetV2 對長視頻進(jìn)行鏡頭檢測，剔除過短片段、純黑屏、畫面噪聲、人物主體以及室外場景，保留適合 3D 重建的室內(nèi)內(nèi)容；
基于視差的關(guān)鍵幀抽?。?/span>相較于均勻采樣，采用基于視差的關(guān)鍵幀選擇，既保證三角化穩(wěn)定，又控制冗余，對長視頻尤其友好；
密集像素匹配與全局光束法平差：通過密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云；并針對 300 幀以上的長視頻引入了優(yōu)化的偽軌跡像素與相對圖像相似度策略，有效緩解像素匹配模型的假陽性偏差；
質(zhì)量把關(guān)：對空間覆蓋過小、內(nèi)容過空或 SfM 結(jié)果異常的場景進(jìn)行過濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量，采用人工復(fù)核（每個場景 10 秒以內(nèi)），代價可控。

最終，從 8217 段互聯(lián)網(wǎng)視頻出發(fā)，團(tuán)隊(duì)得到 6687 個真實(shí)室內(nèi) 3D 場景，規(guī)模已超越同類真實(shí)數(shù)據(jù)集，并且由于素材來自長視頻，SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場景，這是傳統(tǒng)房間級或?qū)嶒?yàn)室級掃描數(shù)據(jù)所不具備的。

圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對比：在場景數(shù)量、場景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。

核心模塊一：自動化 3D 重建與實(shí)例分割數(shù)據(jù)引擎

僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線（如圖 3）。

核心目標(biāo)是解決一個基礎(chǔ)問題：如何從普通視頻中，自動恢復(fù)一個「完整且?guī)?biāo)注」的 3D 場景？

圖 3 數(shù)據(jù)生成管線總覽：左上為基于度量深度的稠密重建，左下為 2D→3D 掩碼提升與語義標(biāo)簽生成，右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。

稠密重建：以 SfM 稀疏點(diǎn)為先驗(yàn)，通過 Prior Depth Anything 預(yù)測稠密度量深度圖，隨后在 TSDF 表示下完成融合，得到水密網(wǎng)格；并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法，該流水線在保持穩(wěn)定幾何質(zhì)量的同時，顯著降低了大場景的計(jì)算開銷。
實(shí)例分割：先用在每一幀獲得 2D 分割掩碼，再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間；最后用 DescribeAnything 與 Qwen-VL 自動生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時，擺脫了對每場景優(yōu)化的重度依賴。

核心模塊二：面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場景理解之上，團(tuán)隊(duì)希望進(jìn)一步推動大模型的空間推理能力：這些數(shù)據(jù)，能不能直接用來訓(xùn)練模型的「空間理解能力」？

基于 SceneVerse++ 的幾何 + 語義標(biāo)注，他們構(gòu)建了 3D 場景圖（scene graph）：每個節(jié)點(diǎn)表示一個 3D 物體實(shí)例，邊表示成對空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板，自動生成七類空間問答樣本，涵蓋：

物體計(jì)數(shù)、物體尺寸（Object Counting / Object Size）
相對距離、相對方向、絕對距離（Relative Distance / Relative Direction / Absolute Distance）
房間尺寸（Room Size）
路線規(guī)劃（Route Planning）

管線輸出總計(jì) 632K 條空間 VQA 樣本（391K 多選題 + 241K 填數(shù)題），可直接用于 VSI-Bench 格式下的訓(xùn)練與評估。

核心模塊三：從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語言導(dǎo)航（VLN）任務(wù)的目標(biāo)，是讓智能體「看著畫面，聽著指令，在環(huán)境中移動」。現(xiàn)實(shí)問題是：真實(shí)視頻雖然豐富，卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式，但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為，與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。

圖 4 VLN 數(shù)據(jù)生成三段式管線：路徑預(yù)處理 → 動作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線：

路徑預(yù)處理：移除冗余局部旋轉(zhuǎn)、切分過長路徑為若干子路徑，使其適合生成自然語言指令；
動作編碼：從 SfM 相機(jī)位姿投影到地面坐標(biāo)，離散化為 R2R 風(fēng)格的前進(jìn)步長（25/50/75 cm）與旋轉(zhuǎn)角度（15°/30°/45°），并過濾掉「只看不走」的動作；
指令生成：以 Chain-of-Thought 方式讓 VLM 先描述局部動作，再生成整段路徑的自然語言指令；每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出 9631 條軌跡、平均長度 12.8 米、平均 15 步，共 7189 個不同場景下的 21567 條指令，為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。

實(shí)驗(yàn)結(jié)果：三項(xiàng)任務(wù)全面提升，首次系統(tǒng)量化數(shù)據(jù)引擎的價值

1. 3D 目標(biāo)檢測與實(shí)例分割

作者以 SpatialLM（基于 MLLM，原始模型在 12000+ 室內(nèi)合成場景上預(yù)訓(xùn)練）作為 3D 目標(biāo)檢測代表，以 Mask3D（基于圖分割 segment 的實(shí)例分割模型）作為 3D 實(shí)例分割代表，分別在 ARKitScenes 與 ScanNet 兩個真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評估，所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測：如表 1 所示，SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn)，更關(guān)鍵的是，在 ScanNet 上完成微調(diào)后，SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4，較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分，表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化；同時，僅在 ScanNet 上訓(xùn)練（無預(yù)訓(xùn)練）僅得 F1@0.25 = 2.9，表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。

CVPR 2026｜用互聯(lián)網(wǎng)視頻替代3D標(biāo)注：通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場景數(shù)據(jù)

表 1 SpatialLM 在 3D 目標(biāo)檢測上的評估：在相同模型結(jié)構(gòu)下，SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4，相對基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割：如表 2 所示，單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet（AP25 僅 15.4），但在 ScanNet 上微調(diào)后，各項(xiàng)指標(biāo)均有提升（AP25 36.1 → 38.5，AP 22.8 → 23.6）。這一差異揭示了一個關(guān)鍵現(xiàn)象：Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment，對傳感器、重建流程的分布漂移高度敏感；相比之下，SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。

表 2 Mask3D 在 3D 實(shí)例分割上的評估：SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP)，但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移，反映了該模型對數(shù)據(jù)特定偏差的強(qiáng)依賴。

2. 3D 空間視覺問答

3D 空間視覺問答的評估在 VSI-Bench 上進(jìn)行，作者在 Qwen2.5-VL-3B / 7B 兩個規(guī)模上用 LoRA 微調(diào)，訓(xùn)練數(shù)據(jù)分為四組對照：

(1) 零樣本（-）；

(2) 僅 SceneVerse++（SV++，202K 樣本）；

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)（SN, SN++，206K，域內(nèi)）；

(4) 兩者合并訓(xùn)練（All）。

同時在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果，后者對 SV++ 與 SN/SN++ 均為域外，便于比較跨域泛化能力。

表 3 VSI-Bench 結(jié)果（各類任務(wù)準(zhǔn)確率 %）：SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8；與 SN,SN++ 合并后在全集與 ARKit 子集上同時登頂。

生成數(shù)據(jù)對于空間推理能力有普遍增強(qiáng)：Qwen2.5-VL-3B 全集平均從 27.9 → 42.8（+14.9），7B 從 36.6 → 46.4（+9.8）；在物體計(jì)數(shù) Obj.Cnt.（25.2 → 61.8）、物體尺寸 Obj.Size（16.5 → 49.8）、相對距離 Rel.Dist.（37.2 → 49.3）上均有大幅躍升，證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。
跨域泛化顯著：在 ARKitScenes 子集（對 SV++ 與 SN/SN++ 均是域外）上，SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)（3B：48.0 vs. 49.0；7B：49.1 vs. 48.8），說明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對真實(shí)場景具有良好泛化性。
類別差異：SceneVerse++ 在相對距離（Rel.Dist.），相對方向（Rel.Dir.）等通用空間知識類別上提升最明顯；在物體計(jì)數(shù)（Obj.Cnt.）、房間尺寸（Room Size）等依賴域特定分布的類別上弱于 SN/SN++，這與圖 2 中場景 / 物體分布差異吻合。
訓(xùn)練動態(tài)揭示過擬合風(fēng)險(xiǎn)：作者可視化訓(xùn)練過程發(fā)現(xiàn)，域內(nèi)訓(xùn)練和測試（SN,SN++）在訓(xùn)練后期仍在全集上持續(xù)上升，而域外訓(xùn)練和測試則在一個拐點(diǎn)后趨穩(wěn)，反映出 SN,SN++ 容易過擬合到域內(nèi)特有線索，這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。

圖 5 訓(xùn)練過程對比：上為在全集上的測試，下為在 ARKitScenes 子集測試，發(fā)現(xiàn)域內(nèi)訓(xùn)練和測試（上）呈現(xiàn)過擬合現(xiàn)象。

3. 3D 視覺語言導(dǎo)航

評估基于標(biāo)準(zhǔn) Room-to-Room (R2R) 基準(zhǔn)（Matterport3D 環(huán)境），所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含 SR（成功率）、OS（Oracle 成功率）、SPL（路徑長度加權(quán)成功率）、Dist（距目標(biāo)距離）、PL（軌跡長度）。

作者進(jìn)一步對數(shù)據(jù)管線中的兩個核心模塊進(jìn)行消融：TR（軌跡優(yōu)化，Trajectory Refinement）與 IE（指令增強(qiáng)，Instruction Enrichment）。

表 4 在 R2R 基準(zhǔn)上的 VLN 評估：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228；去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。

真實(shí)視頻顯著提升導(dǎo)航能力：僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107；由于真實(shí)視頻包含豐富的自由探索行為，PL 從 5.22 激增至 14.1，反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動。
微調(diào)后全面提升：SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65，相較無預(yù)訓(xùn)練基線（SR 0.088）絕對提升 +14.0 個百分點(diǎn)（+159%）；同時 Dist 下降、SPL 提升，證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。
樸素混合不是最優(yōu)：直接把 R2R 與 SceneVerse++ 混合訓(xùn)練（R2R+SV++）僅得 SR 0.188，低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228，說明真實(shí)視頻與仿真環(huán)境存在視覺域差，需要通過預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。
軌跡優(yōu)化（TR）不可或缺：w/o TR 時，SR 從 0.228 降至 0.177（-5.1%），PL 也偏離 R2R 范式（11.95 vs. 11.64）；缺少對原始冗余回頭軌跡的清洗，模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。
指令增強(qiáng)（IE）更為關(guān)鍵：w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022，微調(diào)后也只有 0.074；缺少 CoT + 多樣化指令生成，模型幾乎無法把視覺動作與自然語言對齊。

結(jié)論：原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練，必須配合任務(wù)對齊的數(shù)據(jù)處理（TR + IE）；數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來性能收益。

更重要的啟示：自動化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對象

除發(fā)布數(shù)據(jù)集之外，本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題：

模型的可擴(kuò)展性 (scalable) 差異：直接作用于原始模態(tài)的模型（3D 體素、RGB-MLLM）在擴(kuò)大數(shù)據(jù)規(guī)模時表現(xiàn)更穩(wěn)健；依賴任務(wù)特定中間表示（如預(yù)計(jì)算分割 segments）的模型對分布漂移更敏感。
基準(zhǔn)偏差與公平評估：現(xiàn)有基準(zhǔn)可能包含固有偏差，無法真實(shí)反映模型能力。未來評估應(yīng)更強(qiáng)調(diào)零樣本測試、減少數(shù)據(jù)污染，并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。
子模塊協(xié)同的重要性：SfM、實(shí)例分割、語言落地等子模塊往往在小規(guī)?；鶞?zhǔn)上訓(xùn)練，組合后會產(chǎn)生誤差累積。未來子模塊的開發(fā)和評估不應(yīng)只看單任務(wù)指標(biāo)，還應(yīng)把其對自動化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。

總結(jié)：邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過 SceneVerse++ 展示了用精心設(shè)計(jì)的自動化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)?；筛哔|(zhì)量 3D 場景理解數(shù)據(jù)的可行性。該工作同時覆蓋了低層感知（檢測 / 分割）、空間推理（VQA）與具身導(dǎo)航（VLN）三大代表性任務(wù)，在多個真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來 3D 空間智能發(fā)展的關(guān)鍵方向，包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性，提升子模塊（SfM、重建、分割、grounding）在 in-the-wild 視頻上的魯棒性與協(xié)同性，構(gòu)建更公平的評估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長期稀缺的背景下，利用「無標(biāo)注視頻」將是推動具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁 https://sv-pp.github.io/ 獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。

0人收藏

相關(guān)文章

專題

CVPR 計(jì)算機(jī)視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

CVPR 2026｜用互聯(lián)網(wǎng)視頻替代3D標(biāo)注：通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場景數(shù)據(jù)

CVPR 計(jì)算機(jī)視覺與模式識別會議

CVPR 2026｜用互聯(lián)網(wǎng)視頻替代3D標(biāo)注：通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?！拐鎸?shí)3D場景數(shù)據(jù)