97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

導(dǎo)語:當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺,我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場景數(shù)據(jù),提升 3D 場景理解的多任務(wù)表現(xiàn)?

來源:公眾號“機(jī)器之心”

 原文鏈接:https://mp.weixin.qq.com/s/K3SAxYWNK8RoZ_ndYSWK8Q?scene=1&click_id=147


在具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)等方向持續(xù)推進(jìn)的今天,3D 場景理解能力正成為空間智能的核心基礎(chǔ)設(shè)施。然而,一個長期存在卻始終未被解決的問題是:

當(dāng)高質(zhì)量 3D 標(biāo)注數(shù)據(jù)日益稀缺,我們能否用「海量」互聯(lián)網(wǎng)視頻構(gòu)建高精度、可擴(kuò)展的真實(shí)場景數(shù)據(jù),提升 3D 場景理解的多任務(wù)表現(xiàn)?

近期,來自北京通用人工智能研究院的研究團(tuán)隊(duì)在被 CVPR 2026 高分接收的論文中,系統(tǒng)性地回答了這一問題。第一作者為北京通用人工智能研究院(BIGAI)研究員陳以新,合作者來自 BIGAI、北京大學(xué)、清華大學(xué)、北京郵電大學(xué)、北京理工大學(xué),通訊作者為 BIGAI 研究員黃思遠(yuǎn)。

CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)
  • 論文鏈接: https://arxiv.org/abs/2604.01907 

  • 項(xiàng)目主頁:https://sv-pp.github.io/

  • 數(shù)據(jù)鏈接:https://huggingface.co/datasets/bigai/SceneVersepp 


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

圖 1  SceneVerse++ 總覽:從無標(biāo)注互聯(lián)網(wǎng)視頻出發(fā),經(jīng)自動化引擎生成的數(shù)據(jù)可用于提升 3D 檢測、空間 VQA 與 VLN 等下游任務(wù)的模型表現(xiàn)。


研究團(tuán)隊(duì)提出了一整套面向 3D 場景理解的自動化數(shù)據(jù)引擎,從無標(biāo)注視頻出發(fā),依次完成數(shù)據(jù)預(yù)處理與篩選、結(jié)構(gòu)化建圖(SfM)、稠密重建、實(shí)例分割、語義描述生成,并進(jìn)一步派生出空間問答(Spatial VQA)與視覺語言導(dǎo)航(VLN)所需的結(jié)構(gòu)化數(shù)據(jù)。

基于該數(shù)據(jù)引擎,團(tuán)隊(duì)構(gòu)建了迄今最大規(guī)模的真實(shí)室內(nèi) 3D 場景數(shù)據(jù)集 SceneVerse++,共 6687 個場景,在場景數(shù)量、場景面積、物體種類與物體數(shù)量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實(shí)數(shù)據(jù)集。

在三項(xiàng)代表性下游任務(wù),3D 目標(biāo)檢測與實(shí)例分割、3D 空間視覺問答(VQA)、3D 視覺語言導(dǎo)航(VLN)上,SceneVerse++ 均帶來顯著的零樣本與微調(diào)性能提升,并首次系統(tǒng)揭示了自動化數(shù)據(jù)生成流程中各子模塊對下游任務(wù)的關(guān)鍵影響。

這項(xiàng)研究不僅交付了一個可直接使用的數(shù)據(jù)集,更重要的是為「用互聯(lián)網(wǎng)規(guī)模的無標(biāo)注數(shù)據(jù)驅(qū)動 3D 空間智能」提供了可復(fù)現(xiàn)的路線圖和未來發(fā)展方向。

3D 場景理解的最大瓶頸:真實(shí)、高質(zhì)量且多樣的數(shù)據(jù)

3D 場景理解是具身智能、機(jī)器人與增強(qiáng)現(xiàn)實(shí)的共同基礎(chǔ),近年來從幾何感知(深度估計(jì)、相機(jī)位姿估計(jì))到語義理解(3D 目標(biāo)檢測、實(shí)例分割),再到高層推理(3D 視覺定位、空間推理)都取得了顯著進(jìn)展。

然而與 2D 數(shù)據(jù)不同,高質(zhì)量 3D 場景數(shù)據(jù)的獲取與標(biāo)注代價極高:通常需要 RGB-D 設(shè)備或 LiDAR 采集、三維重建、再人工標(biāo)注場景結(jié)構(gòu)與類別。

自 ScanNet 以來,3D 場景數(shù)據(jù)的規(guī)模并未真正出現(xiàn)量級上的飛躍;后續(xù)工作或以精度為代價提升場景數(shù)量(如 ARKitScenes),或在有限規(guī)模上提升質(zhì)量(如 ScanNet++)。模型持續(xù)迭代,數(shù)據(jù)卻面臨瓶頸,成為制約 3D 場景理解發(fā)展的核心矛盾。

本文的核心觀點(diǎn)是:用精心設(shè)計(jì)的自動化數(shù)據(jù)引擎,從無標(biāo)注視頻中恢復(fù)與現(xiàn)有數(shù)據(jù)集同樣的 3D 場景表示,并生成可直接用于訓(xùn)練的多任務(wù)標(biāo)注。


SceneVerse++:來自互聯(lián)網(wǎng)視頻的真實(shí) 3D 場景數(shù)據(jù)集

研究團(tuán)隊(duì)聚焦于靜態(tài)室內(nèi)場景,把互聯(lián)網(wǎng)上的 Room Tour 視頻作為原始素材。相較于傳統(tǒng)掃描數(shù)據(jù),這類視頻具有更強(qiáng)的多樣性與規(guī)模潛力,同時也帶來了更復(fù)雜的建模挑戰(zhàn)。

整個數(shù)據(jù)管線由以下模塊組成:

  • 鏡頭切分與過濾:使用 TransNetV2 對長視頻進(jìn)行鏡頭檢測,剔除過短片段、純黑屏、畫面噪聲、人物主體以及室外場景,保留適合 3D 重建的室內(nèi)內(nèi)容;

  • 基于視差的關(guān)鍵幀抽?。?/span>相較于均勻采樣,采用基于視差的關(guān)鍵幀選擇,既保證三角化穩(wěn)定,又控制冗余,對長視頻尤其友好;

  • 密集像素匹配與全局光束法平差:通過密集像素匹配 + BA 得到穩(wěn)健的相機(jī)位姿與稀疏點(diǎn)云;并針對 300 幀以上的長視頻引入了優(yōu)化的偽軌跡像素與相對圖像相似度策略,有效緩解像素匹配模型的假陽性偏差;

  • 質(zhì)量把關(guān):對空間覆蓋過小、內(nèi)容過空或 SfM 結(jié)果異常的場景進(jìn)行過濾。為確保下游任務(wù)的數(shù)據(jù)質(zhì)量,采用人工復(fù)核(每個場景 10 秒以內(nèi)),代價可控。

最終,從 8217 段互聯(lián)網(wǎng)視頻出發(fā),團(tuán)隊(duì)得到 6687 個真實(shí)室內(nèi) 3D 場景,規(guī)模已超越同類真實(shí)數(shù)據(jù)集,并且由于素材來自長視頻,SceneVerse++ 天然包含多樓層、多房間、大范圍的復(fù)雜場景,這是傳統(tǒng)房間級或?qū)嶒?yàn)室級掃描數(shù)據(jù)所不具備的。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

圖 2  SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統(tǒng)計(jì)對比:在場景數(shù)量、場景面積、物體類別數(shù)與物體數(shù)量四項(xiàng)指標(biāo)上全面領(lǐng)先。


核心模塊一:自動化 3D 重建與實(shí)例分割數(shù)據(jù)引擎


僅有 SfM 稀疏點(diǎn)云并不足以支撐下游任務(wù)。團(tuán)隊(duì)在 SfM 之上設(shè)計(jì)了一套同時兼顧質(zhì)量與效率的稠密重建 + 實(shí)例分割管線(如圖 3)。

核心目標(biāo)是解決一個基礎(chǔ)問題:如何從普通視頻中,自動恢復(fù)一個「完整且?guī)?biāo)注」的 3D 場景? 

CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

圖 3  數(shù)據(jù)生成管線總覽:左上為基于度量深度的稠密重建,左下為 2D→3D 掩碼提升與語義標(biāo)簽生成,右側(cè)為最終的重建網(wǎng)格與實(shí)例分割結(jié)果。


  • 稠密重建:以 SfM 稀疏點(diǎn)為先驗(yàn),通過 Prior Depth Anything 預(yù)測稠密度量深度圖,隨后在 TSDF 表示下完成融合,得到水密網(wǎng)格;并以半徑 / 統(tǒng)計(jì)濾波去除浮點(diǎn)噪聲。相比端到端方法,該流水線在保持穩(wěn)定幾何質(zhì)量的同時,顯著降低了大場景的計(jì)算開銷。

  • 實(shí)例分割:先用在每一幀獲得 2D 分割掩碼,再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間;最后用 DescribeAnything 與 Qwen-VL 自動生成實(shí)例的文本描述與 ScanNet 類別標(biāo)簽。這套 2D→3D 提升方案在避免重復(fù)實(shí)例的同時,擺脫了對每場景優(yōu)化的重度依賴。


核心模塊二:面向空間 VQA 的結(jié)構(gòu)化問答生成

在 3D 場景理解之上,團(tuán)隊(duì)希望進(jìn)一步推動大模型的空間推理能力:這些數(shù)據(jù),能不能直接用來訓(xùn)練模型的「空間理解能力」?

基于 SceneVerse++ 的幾何 + 語義標(biāo)注,他們構(gòu)建了 3D 場景圖(scene graph):每個節(jié)點(diǎn)表示一個 3D 物體實(shí)例,邊表示成對空間關(guān)系。結(jié)合 VLM-3R 的任務(wù)模板,自動生成七類空間問答樣本,涵蓋:

  • 物體計(jì)數(shù)、物體尺寸(Object Counting / Object Size)

  • 相對距離、相對方向、絕對距離(Relative Distance / Relative Direction / Absolute Distance)

  • 房間尺寸(Room Size)

  • 路線規(guī)劃(Route Planning)

管線輸出總計(jì) 632K 條空間 VQA 樣本(391K 多選題 + 241K 填數(shù)題),可直接用于 VSI-Bench 格式下的訓(xùn)練與評估。


核心模塊三:從真實(shí) Room Tour 視頻到可訓(xùn)練的 VLN 數(shù)據(jù)

視覺語言導(dǎo)航(VLN)任務(wù)的目標(biāo),是讓智能體「看著畫面,聽著指令,在環(huán)境中移動」。 現(xiàn)實(shí)問題是:真實(shí)視頻雖然豐富,卻并不天然適合做導(dǎo)航數(shù)據(jù)。

真實(shí)的 Room Tour 視頻最接近人類自然探索方式,但其相機(jī)軌跡充滿冗余旋轉(zhuǎn)、回頭看、非前向視角等非導(dǎo)航行為,與 R2R 這類基準(zhǔn)中的短路徑 - 目標(biāo)導(dǎo)向軌跡存在顯著差異。

CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

圖 4  VLN 數(shù)據(jù)生成三段式管線:路徑預(yù)處理 → 動作編碼 → 指令生成。

團(tuán)隊(duì)據(jù)此設(shè)計(jì)了三階段流水線:

  • 路徑預(yù)處理:移除冗余局部旋轉(zhuǎn)、切分過長路徑為若干子路徑,使其適合生成自然語言指令;

  • 動作編碼:從 SfM 相機(jī)位姿投影到地面坐標(biāo),離散化為 R2R 風(fēng)格的前進(jìn)步長(25/50/75 cm)與旋轉(zhuǎn)角度(15°/30°/45°),并過濾掉「只看不走」的動作;

  • 指令生成:以 Chain-of-Thought 方式讓 VLM 先描述局部動作,再生成整段路徑的自然語言指令;每條軌跡生成三種風(fēng)格化的指令以增強(qiáng)多樣性。

該管線最終在 SceneVerse++ 上產(chǎn)出 9631 條軌跡、平均長度 12.8 米、平均 15 步,共 7189 個不同場景下的 21567 條指令,為 VLN 研究提供了大規(guī)模、高質(zhì)量的真實(shí)視頻軌跡資源。


實(shí)驗(yàn)結(jié)果:三項(xiàng)任務(wù)全面提升,首次系統(tǒng)量化數(shù)據(jù)引擎的價值

1. 3D 目標(biāo)檢測與實(shí)例分割

作者以 SpatialLM(基于 MLLM,原始模型在 12000+ 室內(nèi)合成場景上預(yù)訓(xùn)練)作為 3D 目標(biāo)檢測代表,以 Mask3D(基于圖分割 segment 的實(shí)例分割模型)作為 3D 實(shí)例分割代表,分別在 ARKitScenes 與 ScanNet 兩個真實(shí)世界基準(zhǔn)上進(jìn)行零樣本與微調(diào)評估,所有模型架構(gòu)保持一致。

(a) 3D 目標(biāo)檢測:如表 1 所示,SceneVerse++ 作為預(yù)訓(xùn)練數(shù)據(jù)在 ScanNet 零樣本上取得 F1@30.9 的表現(xiàn),更關(guān)鍵的是,在 ScanNet 上完成微調(diào)后,SceneVerse++ 預(yù)訓(xùn)練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4,較 SpatialLM 原合成預(yù)訓(xùn)練 + ScanNet 微調(diào)的 38.0 / 28.7 分別提升 +20.6 / +16.7 分,表明互聯(lián)網(wǎng)真實(shí)視頻比合成數(shù)據(jù)更能提供貼合真實(shí)世界分布的初始化;同時,僅在 ScanNet 上訓(xùn)練(無預(yù)訓(xùn)練)僅得 F1@0.25 = 2.9,表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預(yù)訓(xùn)練。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場景數(shù)據(jù)

表 1  SpatialLM 在 3D 目標(biāo)檢測上的評估:在相同模型結(jié)構(gòu)下,SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)取得 F1@0.25 = 58.6 / F1@0.5 = 45.4,相對基線大幅領(lǐng)先。

(b) 3D 實(shí)例分割:如表 2 所示,單獨(dú)用 SceneVerse++ 預(yù)訓(xùn)練的 Mask3D 難以遷移到 ScanNet(AP25 僅 15.4),但在 ScanNet 上微調(diào)后,各項(xiàng)指標(biāo)均有提升(AP25 36.1 → 38.5,AP 22.8 → 23.6)。這一差異揭示了一個關(guān)鍵現(xiàn)象:Mask3D 嚴(yán)重依賴基于圖分割預(yù)計(jì)算的 segment,對傳感器、重建流程的分布漂移高度敏感;相比之下,SpatialLM 這類直接作用于體素 / RGB 的模型表現(xiàn)出更穩(wěn)健的可擴(kuò)展性。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

表 2  Mask3D 在 3D 實(shí)例分割上的評估:SceneVerse++ 預(yù)訓(xùn)練 + ScanNet 微調(diào)相比從頭訓(xùn)練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP),但僅用 SceneVerse++ 預(yù)訓(xùn)練難以零樣本遷移,反映了該模型對數(shù)據(jù)特定偏差的強(qiáng)依賴。


2. 3D 空間視覺問答

3D 空間視覺問答的評估在 VSI-Bench 上進(jìn)行,作者在 Qwen2.5-VL-3B / 7B 兩個規(guī)模上用 LoRA 微調(diào),訓(xùn)練數(shù)據(jù)分為四組對照:

(1) 零樣本(-);

(2) 僅 SceneVerse++(SV++,202K 樣本);

(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數(shù)據(jù)(SN, SN++,206K,域內(nèi));

(4) 兩者合并訓(xùn)練(All)。

同時在全集與 ARKitScenes 子集上分別報(bào)告結(jié)果,后者對 SV++ 與 SN/SN++ 均為域外,便于比較跨域泛化能力。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

表 3  VSI-Bench 結(jié)果(各類任務(wù)準(zhǔn)確率 %):SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8;與 SN,SN++ 合并后在全集與 ARKit 子集上同時登頂。


  • 生成數(shù)據(jù)對于空間推理能力有普遍增強(qiáng):Qwen2.5-VL-3B 全集平均從 27.9 → 42.8(+14.9),7B 從 36.6 → 46.4(+9.8);在物體計(jì)數(shù) Obj.Cnt.(25.2 → 61.8)、物體尺寸 Obj.Size(16.5 → 49.8)、相對距離 Rel.Dist.(37.2 → 49.3)上均有大幅躍升,證明互聯(lián)網(wǎng)視頻生成數(shù)據(jù)與仿真室內(nèi)掃描數(shù)據(jù)在空間推理能力上的提升效果相當(dāng)。

  • 跨域泛化顯著:在 ARKitScenes 子集(對 SV++ 與 SN/SN++ 均是域外)上,SV++ 與 SN,SN++ 表現(xiàn)相當(dāng)甚至略優(yōu)(3B:48.0 vs. 49.0;7B:49.1 vs. 48.8),說明互聯(lián)網(wǎng)視頻提供的先驗(yàn)對真實(shí)場景具有良好泛化性。

  • 類別差異:SceneVerse++ 在相對距離(Rel.Dist.),相對方向(Rel.Dir.) 等通用空間知識類別上提升最明顯;在物體計(jì)數(shù)(Obj.Cnt.)、房間尺寸(Room Size) 等依賴域特定分布的類別上弱于 SN/SN++,這與圖 2 中場景 / 物體分布差異吻合。

  • 訓(xùn)練動態(tài)揭示過擬合風(fēng)險(xiǎn):作者可視化訓(xùn)練過程發(fā)現(xiàn),域內(nèi)訓(xùn)練和測試(SN,SN++) 在訓(xùn)練后期仍在全集上持續(xù)上升,而域外訓(xùn)練和測試則在一個拐點(diǎn)后趨穩(wěn),反映出 SN,SN++ 容易過擬合到域內(nèi)特有線索,這與同期工作關(guān)于 VSI-Bench 非視覺捷徑的分析一致。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)模」真實(shí)3D場景數(shù)據(jù)

圖 5 訓(xùn)練過程對比:上為在全集上的測試,下為在 ARKitScenes 子集測試,發(fā)現(xiàn)域內(nèi)訓(xùn)練和測試(上)呈現(xiàn)過擬合現(xiàn)象。


3. 3D 視覺語言導(dǎo)航

評估基于標(biāo)準(zhǔn) Room-to-Room (R2R) 基準(zhǔn)(Matterport3D 環(huán)境),所有實(shí)驗(yàn)使用相同訓(xùn)練輪次以確保公平。指標(biāo)包含 SR(成功率)、OS(Oracle 成功率)、SPL(路徑長度加權(quán)成功率)、Dist(距目標(biāo)距離)、PL(軌跡長度)。

作者進(jìn)一步對數(shù)據(jù)管線中的兩個核心模塊進(jìn)行消融:TR(軌跡優(yōu)化,Trajectory Refinement)與 IE(指令增強(qiáng),Instruction Enrichment)。

CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

表 4  在 R2R 基準(zhǔn)上的 VLN 評估:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)將 SR 從 0.088 提升至 0.228;去除 TR 或 IE 任一模塊均導(dǎo)致顯著下降。


  • 真實(shí)視頻顯著提升導(dǎo)航能力:僅用 SceneVerse++ 預(yù)訓(xùn)練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107;由于真實(shí)視頻包含豐富的自由探索行為,PL 從 5.22 激增至 14.1,反映其軌跡更復(fù)雜、更貼近真實(shí)人類運(yùn)動。

  • 微調(diào)后全面提升:SceneVerse++ 預(yù)訓(xùn)練 + R2R 微調(diào)達(dá)到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65,相較無預(yù)訓(xùn)練基線(SR 0.088)絕對提升 +14.0 個百分點(diǎn)(+159%);同時 Dist 下降、SPL 提升,證明大規(guī)模真實(shí)視頻先驗(yàn)顯著改善了導(dǎo)航效率與路徑合理性。

  • 樸素混合不是最優(yōu):直接把 R2R 與 SceneVerse++ 混合訓(xùn)練(R2R+SV++)僅得 SR 0.188,低于先 SV++ 預(yù)訓(xùn)練、再 R2R 微調(diào)的 0.228,說明真實(shí)視頻與仿真環(huán)境存在視覺域差,需要通過預(yù)訓(xùn)練 → 微調(diào)的兩階段策略彌合。

  • 軌跡優(yōu)化(TR)不可或缺:w/o TR 時,SR 從 0.228 降至 0.177(-5.1%),PL 也偏離 R2R 范式(11.95 vs. 11.64);缺少對原始冗余回頭軌跡的清洗,模型難以學(xué)到目標(biāo)導(dǎo)向的導(dǎo)航模式。

  • 指令增強(qiáng)(IE)更為關(guān)鍵:w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022,微調(diào)后也只有 0.074;缺少 CoT + 多樣化指令生成,模型幾乎無法把視覺動作與自然語言對齊。

結(jié)論:原始互聯(lián)網(wǎng)視頻不能直接用于 VLN 訓(xùn)練,必須配合任務(wù)對齊的數(shù)據(jù)處理(TR + IE);數(shù)據(jù)質(zhì)量的提升比單純堆量更能帶來性能收益。


更重要的啟示:自動化數(shù)據(jù)引擎應(yīng)當(dāng)被視作一等研究對象

除發(fā)布數(shù)據(jù)集之外,本文還系統(tǒng)性討論了當(dāng)前「從互聯(lián)網(wǎng)視頻到 3D 任務(wù)數(shù)據(jù)」管線中的若干共性問題:

  • 模型的可擴(kuò)展性 (scalable) 差異:直接作用于原始模態(tài)的模型(3D 體素、RGB-MLLM)在擴(kuò)大數(shù)據(jù)規(guī)模時表現(xiàn)更穩(wěn)健;依賴任務(wù)特定中間表示(如預(yù)計(jì)算分割 segments)的模型對分布漂移更敏感。

  • 基準(zhǔn)偏差與公平評估:現(xiàn)有基準(zhǔn)可能包含固有偏差,無法真實(shí)反映模型能力。未來評估應(yīng)更強(qiáng)調(diào)零樣本測試、減少數(shù)據(jù)污染,并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準(zhǔn)。

  • 子模塊協(xié)同的重要性:SfM、實(shí)例分割、語言落地等子模塊往往在小規(guī)?;鶞?zhǔn)上訓(xùn)練,組合后會產(chǎn)生誤差累積。未來子模塊的開發(fā)和評估不應(yīng)只看單任務(wù)指標(biāo),還應(yīng)把其對自動化數(shù)據(jù)管線的貢獻(xiàn)作為重要的衡量指標(biāo)。


總結(jié):邁向 3D 空間智能的「數(shù)據(jù)基建」

本文通過 SceneVerse++ 展示了用精心設(shè)計(jì)的自動化數(shù)據(jù)引擎從互聯(lián)網(wǎng)視頻中規(guī)?;筛哔|(zhì)量 3D 場景理解數(shù)據(jù)的可行性。該工作同時覆蓋了低層感知(檢測 / 分割)、空間推理(VQA)與具身導(dǎo)航(VLN)三大代表性任務(wù),在多個真實(shí)基準(zhǔn)上都取得了顯著且穩(wěn)健的性能提升。

研究團(tuán)隊(duì)進(jìn)一步指出了未來 3D 空間智能發(fā)展的關(guān)鍵方向,包括繼續(xù)擴(kuò)大互聯(lián)網(wǎng)視頻的規(guī)模與多樣性,提升子模塊(SfM、重建、分割、grounding)在 in-the-wild 視頻上的魯棒性與協(xié)同性,構(gòu)建更公平的評估體系以衡量模型的真實(shí) 3D 理解能力。

在 3D 數(shù)據(jù)長期稀缺的背景下,利用「無標(biāo)注視頻」將是推動具身智能體、3D VLM 以及下一代空間基礎(chǔ)模型的關(guān)鍵路徑。

感興趣的讀者可訪問項(xiàng)目主頁 https://sv-pp.github.io/ 獲取更多實(shí)驗(yàn)細(xì)節(jié)與可視化資源。


CVPR 2026|用互聯(lián)網(wǎng)視頻替代3D標(biāo)注:通研院團(tuán)隊(duì)打造SceneVerse++「最大規(guī)?!拐鎸?shí)3D場景數(shù)據(jù)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
海阳市| 太康县| 济南市| 额尔古纳市| 大连市| 铜川市| 武邑县| 汝南县| 长寿区| 观塘区| 大连市| 沙雅县| 宜君县| 新田县| 穆棱市| 宁陵县| 浦北县| 天峻县| 锦屏县| 乌拉特后旗| 乾安县| 江永县| 桃源县| 绥德县| 垦利县| 洪泽县| 安阳市| 朝阳市| 博湖县| 全州县| 延吉市| 渭源县| 汝南县| 靖西县| 双柏县| 山西省| 青海省| 如皋市| 迭部县| 宁津县| 河间市|