97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

導(dǎo)語:INSID3 的分量在于,它不是只在一個 benchmark 上贏,而是在 semantic、part、personalized 三類任務(wù)里都把單 backbo

 


來源:公眾號“AI上分搭子”

原文鏈接:https://mp.weixin.qq.com/s/26c4oCUgjQueMImEspWBow


CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

TL;DR

  • ? 這篇論文盯住的是 in-context segmentation 里一個很現(xiàn)實(shí)的問題:現(xiàn)有方法要么得 fine-tune,泛化會收窄;要么得把 DINO 和 SAM 拼起來,結(jié)構(gòu)又重又復(fù)雜。
  • ? 作者提出 INSID3。做法很克制:只用 frozen DINOv3。先把跨圖匹配里的 positional bias 去掉,再做聚類、選 seed cluster,最后靠 cross-image similarity 和 self-similarity 把 mask 聚出來。
  • ? 結(jié)果也很硬。論文報(bào)告它在 one-shot semantic、part、personalized segmentation 上平均比已有方法高 7.5 個點(diǎn) mIoU,同時只用 304M 參數(shù);在 RTX 4090 上,單次推理 302 ms。

01|這篇論文到底想解決什么

In-context segmentation 想做的事情并不復(fù)雜。

給一張帶標(biāo)注的參考圖,再去目標(biāo)圖里把同一個概念分出來。

這個概念可以是一個物體。
也可以是一個部件。
甚至可以是某個特定實(shí)例。

難點(diǎn)在于,現(xiàn)在主流方法基本都卡在兩條路里。

一條路是 fine-tune foundation model,或者額外掛一個 decoder。
這樣做,in-domain 分?jǐn)?shù)通常會比較高。
但一換數(shù)據(jù)域,或者一換語義粒度,泛化就容易掉。

另一條路是 training-free。
常見做法是讓 DINO 負(fù)責(zé)匹配,讓 SAM 負(fù)責(zé)出 mask。
這一套的泛化會穩(wěn)一些,但鏈路更重,也天然受制于 SAM 的 mask prior。

所以真正的問題其實(shí)是:

如果 backbone 本身已經(jīng)有足夠強(qiáng)的 dense self-supervised feature,分割能力能不能直接從表示里長出來?

這正是 INSID3 想回答的事。

它不想再加模塊。
也不想再做 task-specific training。
它想試試看:只靠一個 frozen self-supervised backbone,能不能把 ICS 真正做起來。


02|Key Insight

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

INSID3 的關(guān)鍵,不是“再設(shè)計(jì)一個更復(fù)雜的 segmentation head”。

它真正抓住的是 DINOv3 里的兩種能力。

第一,DINOv3 的 dense features 已經(jīng)有很強(qiáng)的局部結(jié)構(gòu)。
這意味著,同一物體或部件,本來就很容易在特征空間里聚成比較連貫的區(qū)域。

第二,它確實(shí)也能做跨圖語義匹配。
但這里混著一層明顯的 
positional bias
也就是:兩個圖里相同坐標(biāo)附近的 patch,哪怕語義不對,也會更容易互相“看上”。

這篇工作的想法很干脆:

先把這層偏置從跨圖匹配里拿掉。
然后把“跨圖語義對得上”和“圖內(nèi)結(jié)構(gòu)也連得上”這兩件事放到一起看。

這樣一來,單 backbone 也能把 reference-guided segmentation 做出來。

Figure 1 傳遞的信息很直接:INSID3 不是在某個單一 benchmark 上刷高,而是在不同數(shù)據(jù)域、不同語義粒度下都能保持住。


03|核心方法

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

整個方法可以壓成三步。

第一步:先把目標(biāo)圖拆成一塊一塊的 cluster

作者先用 DINOv3 特征在目標(biāo)圖里做 agglomerative clustering。

目的不是直接出 mask。
而是先把圖像拆成一塊一塊語義上更連貫的區(qū)域。

這一步很重要。
因?yàn)樗o后面的匹配提供了更穩(wěn)定的“候選單元”。

第二步:找 seed cluster

接著,用去偏之后的跨圖匹配去找 seed cluster。

你可以把它理解成:
在目標(biāo)圖里,先找到和參考區(qū)域最對得上的那一小塊。

這里用的是 debiased feature space。
因?yàn)榭鐖D匹配最怕的,恰恰就是坐標(biāo)偏置把不相關(guān)的區(qū)域也點(diǎn)亮。

第三步:把 mask 從 seed 往外長出來

只找到 seed 還不夠。
很多時候,seed 只會落在最顯眼的局部。

比如人的頭、長頸鹿的脖子,或者器官里最穩(wěn)定的那一小塊。

所以后面還得再做一步 aggregation。

INSID3 會把圖內(nèi)和 seed 在結(jié)構(gòu)上也貼得近的 cluster 一起并進(jìn)來。
最后得到完整 mask。

整條線最關(guān)鍵的設(shè)計(jì),其實(shí)就兩個:

  • ? 把 DINOv3 的 positional bias 從跨圖匹配里顯式拿掉
  • ? 把 cross-image similarity 和 intra-image coherence 合成一個統(tǒng)一分?jǐn)?shù)

也正因?yàn)檫@樣,它不再依賴 SAM 提供 mask prior,也不需要任何 task-specific supervision。


04|最少公式版理解

如果只留兩條公式,其實(shí)就夠了。

Step 1|先把 positional bias 從特征里拿掉

這條式子的意思很直接。

先估計(jì)一塊主要承載絕對位置偏置的子空間。
然后把特征投影到它的正交補(bǔ)里。

做完這步之后,跨圖匹配更看語義,不容易再被“同一坐標(biāo)位置”誤導(dǎo)。

Step 2|最終是不是并進(jìn) mask,要同時看兩種相似度

這里也很好理解。

一個 candidate cluster 只有在兩件事都成立時,才應(yīng)該被并進(jìn)最終 mask:

  • ? 它和參考區(qū)域在跨圖上語義相似
  • ? 它在目標(biāo)圖內(nèi)部也和 seed cluster 結(jié)構(gòu)一致

INSID3 用乘法把這兩個條件綁在一起。

這一步其實(shí)就是整篇方法最核心的判斷。


05|和相關(guān)方法比,它到底強(qiáng)在哪

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

Table 1 是整篇論文最硬的一張表。

因?yàn)樗皇侵豢?one-shot semantic segmentation。
它把 semantic、part、personalized 三類任務(wù)一起放進(jìn)來了。

這很關(guān)鍵。

因?yàn)?INSID3 的價值本來就不在某一個點(diǎn)。
它最強(qiáng)的地方,是整體 generalization。

先看平均分。

和最強(qiáng)的 training-free baseline GF-SAM 相比,INSID3 的平均 mIoU 從 47.6 拉到 55.1。

就算把 GF-SAM 升級成 DINOv3 版,再加上作者的 debias,平均也只有 48.8。

更重要的是,這不是靠更重的結(jié)構(gòu)換來的。

  • ? INSID3:304M 參數(shù)
  • ? GF-SAM 這條線:945M 參數(shù)

換句話說,它不只是更強(qiáng),也更輕。

先抓幾組關(guān)鍵數(shù)字:

  • ? Table 1:INSID3 平均 mIoU 55.1,高于 GF-SAM 的 47.6,也高于帶 debias 的 DINOv3+SAM 版本 48.8。
  • ? Table 1:PerMIS 上 INSID3 做到 67.0,比 GF-SAM 的 54.1 高 12.9 個點(diǎn)。
  • ? Table 11:INSID3 單次推理 302 ms,而 GF-SAM 是 1,030 ms,Matcher 更是 9,000 ms。

再往下看,會更清楚。

如果只盯 COCO-20i 這種更接近訓(xùn)練分布的 benchmark,INSID3 并不是所有格子都第一。
這恰好說明,它的追求并不是單個 in-domain 峰值。

真正該看的,是它在不同域、不同粒度上的穩(wěn)定性。

比如:

  • ? LVIS-92i:41.8,比 GF-SAM 高 6.6 個點(diǎn)
  • ? Chest X-Ray:78.8,比 GF-SAM 高 27.8 個點(diǎn)
  • ? PASCAL-Part:50.5,比 GF-SAM 高 6.0 個點(diǎn)
  • ? PACO-Part:38.7,比 GF-SAM 高 2.4 個點(diǎn)
  • ? PerMIS:67.0,比 GF-SAM 高 12.9 個點(diǎn)

這張表還有一個很值得記住的判斷。

像 SegIC 這種 fine-tuned 方法,在 COCO-20i 上能到 76.1。
看上去很強(qiáng)。

但一旦換到別的域,或者 finer granularity,掉得就很快。

INSID3 的強(qiáng)項(xiàng)正好相反。

它追的不是“最熟悉 benchmark 上的最高點(diǎn)”。
它追的是:

換域之后,還能不能站住。


06|Ablation:提出的部分到底有沒有用

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

消融部分最好的一點(diǎn),是它沒有停在“完整模型最好”這種結(jié)論上。

作者真正拆開去看了兩件事:

  • ? clustering 本身到底有沒有必要
  • ? aggregation 到底是不是關(guān)鍵步驟

Table 3 很直白。

如果不做 clustering,只是對 similarity map 直接閾值化,COCO-20i / PASCAL-Part 只有 44.2 / 35.4。

如果加了 clustering,但不做 aggregation,問題還是沒解決。
你還是得在 object-level 和 part-level 之間二選一。

直到把 cross-image similarity 和 intra-image self-similarity 真的合到一起,結(jié)果才到 57.6 / 50.5。

這說明什么?

INSID3 不是“先找一個最像的局部,再把它當(dāng)完整 mask”。

真正起作用的,是后面的 aggregation。

只靠 seed cluster 不夠。
尤其在 part 和 object granularity 不一致的時候,更不夠。

還有一個補(bǔ)充點(diǎn)也值得看。

去偏這件事不是裝飾項(xiàng)。

CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)
CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

正文和 Table 2、Fig. 7 都在說明這一點(diǎn)。

作者固定 debias rank 之后:

  • ? COCO 上有 +3.1 個點(diǎn)
  • ? PASCAL-Part 上有 +2.7 個點(diǎn)
  • ? SPair-71k 上,不同 backbone 尺度下還能帶來 +0.9 到 +6.6 的 PCK 增益

所以這里提出的兩個核心部分,其實(shí)都有效:

  • ? debiasing,讓跨圖匹配更像語義匹配
  • ? clustering + aggregation,讓 mask 不再被困在最顯眼的那一小塊里

07|Takeaway Message

INSID3 真正往前推的,不只是一個新的 training-free segmentation trick。

更重要的是,它把一個原本很像默認(rèn)共識的假設(shè),硬生生掰開了。

以前大家會默認(rèn):

  • ? 分割能力還得靠 decoder 補(bǔ)
  • ? 或者靠 fine-tuning 補(bǔ)
  • ? 或者靠 SAM 這種外部 mask prior 補(bǔ)

INSID3 說明,事情不一定非得這樣。

如果 backbone 的 dense feature 足夠強(qiáng),
再把跨圖匹配里的 positional bias 處理好,
單 backbone 也能把 in-context segmentation 做得很能打。

這不是一句輕飄飄的“training-free 也行”。

它更像是在提醒我們:

self-supervised dense representation 可能已經(jīng)比很多人以為的更接近分割本身。


08|代碼、信息與 GPT-5.4 尾注

代碼 / 項(xiàng)目頁:

  • https://visinf.github.io/INSID3

GPT-5.4 尾注

為什么值得看

  • ? 它回答的是一個很硬的問題:分割能力是不是一定得靠 decoder、fine-tuning,或者 SAM 這種外部 mask prior 才能補(bǔ)出來。
  • ? INSID3 的分量在于,它不是只在一個 benchmark 上贏,而是在 semantic、part、personalized 三類任務(wù)里都把單 backbone 方案做成了。

讀的時候要保留的判斷

  • ? 如果你只盯 COCO-20i 這種 in-domain 數(shù)字,很容易低估這篇工作。它真正強(qiáng)的是 generalization,而不是某個熟悉 benchmark 上的絕對峰值。
  • ? 這篇工作的關(guān)鍵,不只是“training-free”四個字,而是它說明 DINOv3 的 dense self-supervised representation 已經(jīng)強(qiáng)到能直接支撐 segmentation pipeline。

后續(xù)可以關(guān)注什么

  • ? 這種“單 backbone + 去偏 + 聚類聚合”的思路,后面能不能擴(kuò)到 multi-concept 或 instance-level ICS。
  • ? 另一個值得繼續(xù)看的方向,是更輕的 prompt 形式?,F(xiàn)在 INSID3 還是吃 mask reference,如果以后能穩(wěn)穩(wěn)接住 point 或 box,實(shí)用性會再上一個臺階。

Reference

  • ? Cuttano et al. INSID3: Training-Free In-Context Segmentation with DINOv3. CVPR, 2026.
  • ? Meng et al. SegIC: Unleashing the Emergent Correspondence for In-Context Segmentation. ECCV, 2024.
  • ? Liu et al. Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching. ICLR, 2024.
  • ? Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.
  • ? Kirillov et al. Segment Anything. ICCV, 2023.

 


CVPR 2026|不用 fine-tuning,也不用 SAM,DINOv3 能直接學(xué)會分割嗎?INSID3 平均高 7.5 個點(diǎn)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
高邮市| 垣曲县| 芷江| 芜湖市| 兴国县| 孟村| 四会市| 德州市| 隆化县| 乐平市| 天峻县| 济阳县| 文昌市| 吴堡县| 体育| 北辰区| 彭泽县| 沈阳市| 新巴尔虎右旗| 瑞丽市| 雷州市| 上犹县| 葫芦岛市| 锦州市| 浪卡子县| 美姑县| 正阳县| 山西省| 江孜县| 宁强县| 大丰市| 盐池县| 肥西县| 武冈市| 奎屯市| 涞源县| 灵武市| 普定县| 龙里县| 台前县| 婺源县|