CVPR 2026｜不用 fine-tuning，也不用 SAM，DINOv3 能直接學(xué)會分割嗎？INSID3 平均高 7.5 個點(diǎn)

本文作者：陳淑瑜

2026-06-01 15:07

導(dǎo)語：INSID3 的分量在于，它不是只在一個 benchmark 上贏，而是在 semantic、part、personalized 三類任務(wù)里都把單 backbo

來源：公眾號“AI上分搭子”
原文鏈接：https://mp.weixin.qq.com/s/26c4oCUgjQueMImEspWBow

TL;DR? 這篇論文盯住的是 in-context segmentation 里一個很現(xiàn)實(shí)的問題：現(xiàn)有方法要么得 fine-tune，泛化會收窄；要么得把 DINO 和 SAM 拼起來，結(jié)構(gòu)又重又復(fù)雜。
? 作者提出 INSID3。做法很克制：只用 frozen DINOv3。先把跨圖匹配里的 positional bias 去掉，再做聚類、選 seed cluster，最后靠 cross-image similarity 和 self-similarity 把 mask 聚出來。
? 結(jié)果也很硬。論文報(bào)告它在 one-shot semantic、part、personalized segmentation 上平均比已有方法高 7.5 個點(diǎn) mIoU，同時只用 304M 參數(shù)；在 RTX 4090 上，單次推理 302 ms。
01｜這篇論文到底想解決什么In-context segmentation 想做的事情并不復(fù)雜。
給一張帶標(biāo)注的參考圖，再去目標(biāo)圖里把同一個概念分出來。
這個概念可以是一個物體。
也可以是一個部件。
甚至可以是某個特定實(shí)例。
難點(diǎn)在于，現(xiàn)在主流方法基本都卡在兩條路里。
一條路是 fine-tune foundation model，或者額外掛一個 decoder。
這樣做，in-domain 分?jǐn)?shù)通常會比較高。
但一換數(shù)據(jù)域，或者一換語義粒度，泛化就容易掉。
另一條路是 training-free。
常見做法是讓 DINO 負(fù)責(zé)匹配，讓 SAM 負(fù)責(zé)出 mask。
這一套的泛化會穩(wěn)一些，但鏈路更重，也天然受制于 SAM 的 mask prior。
所以真正的問題其實(shí)是：
如果 backbone 本身已經(jīng)有足夠強(qiáng)的 dense self-supervised feature，分割能力能不能直接從表示里長出來？
這正是 INSID3 想回答的事。
它不想再加模塊。
也不想再做 task-specific training。
它想試試看：只靠一個 frozen self-supervised backbone，能不能把 ICS 真正做起來。
02｜Key InsightINSID3 的關(guān)鍵，不是“再設(shè)計(jì)一個更復(fù)雜的 segmentation head”。
它真正抓住的是 DINOv3 里的兩種能力。
第一，DINOv3 的 dense features 已經(jīng)有很強(qiáng)的局部結(jié)構(gòu)。
這意味著，同一物體或部件，本來就很容易在特征空間里聚成比較連貫的區(qū)域。
第二，它確實(shí)也能做跨圖語義匹配。
但這里混著一層明顯的 positional bias。
也就是：兩個圖里相同坐標(biāo)附近的 patch，哪怕語義不對，也會更容易互相“看上”。
這篇工作的想法很干脆：
先把這層偏置從跨圖匹配里拿掉。
然后把“跨圖語義對得上”和“圖內(nèi)結(jié)構(gòu)也連得上”這兩件事放到一起看。
這樣一來，單 backbone 也能把 reference-guided segmentation 做出來。
Figure 1 傳遞的信息很直接：INSID3 不是在某個單一 benchmark 上刷高，而是在不同數(shù)據(jù)域、不同語義粒度下都能保持住。
03｜核心方法整個方法可以壓成三步。
第一步：先把目標(biāo)圖拆成一塊一塊的 cluster作者先用 DINOv3 特征在目標(biāo)圖里做 agglomerative clustering。
目的不是直接出 mask。
而是先把圖像拆成一塊一塊語義上更連貫的區(qū)域。
這一步很重要。
因?yàn)樗o后面的匹配提供了更穩(wěn)定的“候選單元”。
第二步：找 seed cluster接著，用去偏之后的跨圖匹配去找 seed cluster。
你可以把它理解成：
在目標(biāo)圖里，先找到和參考區(qū)域最對得上的那一小塊。
這里用的是 debiased feature space。
因?yàn)榭鐖D匹配最怕的，恰恰就是坐標(biāo)偏置把不相關(guān)的區(qū)域也點(diǎn)亮。
第三步：把 mask 從 seed 往外長出來只找到 seed 還不夠。
很多時候，seed 只會落在最顯眼的局部。
比如人的頭、長頸鹿的脖子，或者器官里最穩(wěn)定的那一小塊。
所以后面還得再做一步 aggregation。
INSID3 會把圖內(nèi)和 seed 在結(jié)構(gòu)上也貼得近的 cluster 一起并進(jìn)來。
最后得到完整 mask。
整條線最關(guān)鍵的設(shè)計(jì)，其實(shí)就兩個：
? 把 DINOv3 的 positional bias 從跨圖匹配里顯式拿掉
? 把 cross-image similarity 和 intra-image coherence 合成一個統(tǒng)一分?jǐn)?shù)
也正因?yàn)檫@樣，它不再依賴 SAM 提供 mask prior，也不需要任何 task-specific supervision。
04｜最少公式版理解如果只留兩條公式，其實(shí)就夠了。
Step 1｜先把 positional bias 從特征里拿掉這條式子的意思很直接。
先估計(jì)一塊主要承載絕對位置偏置的子空間。
然后把特征投影到它的正交補(bǔ)里。
做完這步之后，跨圖匹配更看語義，不容易再被“同一坐標(biāo)位置”誤導(dǎo)。
Step 2｜最終是不是并進(jìn) mask，要同時看兩種相似度這里也很好理解。
一個 candidate cluster 只有在兩件事都成立時，才應(yīng)該被并進(jìn)最終 mask：
? 它和參考區(qū)域在跨圖上語義相似
? 它在目標(biāo)圖內(nèi)部也和 seed cluster 結(jié)構(gòu)一致
INSID3 用乘法把這兩個條件綁在一起。
這一步其實(shí)就是整篇方法最核心的判斷。
05｜和相關(guān)方法比，它到底強(qiáng)在哪Table 1 是整篇論文最硬的一張表。
因?yàn)樗皇侵豢?one-shot semantic segmentation。
它把 semantic、part、personalized 三類任務(wù)一起放進(jìn)來了。
這很關(guān)鍵。
因?yàn)?INSID3 的價值本來就不在某一個點(diǎn)。
它最強(qiáng)的地方，是整體 generalization。
先看平均分。
和最強(qiáng)的 training-free baseline GF-SAM 相比，INSID3 的平均 mIoU 從 47.6 拉到 55.1。
就算把 GF-SAM 升級成 DINOv3 版，再加上作者的 debias，平均也只有 48.8。
更重要的是，這不是靠更重的結(jié)構(gòu)換來的。
? INSID3：304M 參數(shù)
? GF-SAM 這條線：945M 參數(shù)
換句話說，它不只是更強(qiáng)，也更輕。
先抓幾組關(guān)鍵數(shù)字：
? Table 1：INSID3 平均 mIoU 55.1，高于 GF-SAM 的 47.6，也高于帶 debias 的 DINOv3+SAM 版本 48.8。
? Table 1：PerMIS 上 INSID3 做到 67.0，比 GF-SAM 的 54.1 高 12.9 個點(diǎn)。
? Table 11：INSID3 單次推理 302 ms，而 GF-SAM 是 1,030 ms，Matcher 更是 9,000 ms。
再往下看，會更清楚。
如果只盯 COCO-20i 這種更接近訓(xùn)練分布的 benchmark，INSID3 并不是所有格子都第一。
這恰好說明，它的追求并不是單個 in-domain 峰值。
真正該看的，是它在不同域、不同粒度上的穩(wěn)定性。
比如：
? LVIS-92i：41.8，比 GF-SAM 高 6.6 個點(diǎn)
? Chest X-Ray：78.8，比 GF-SAM 高 27.8 個點(diǎn)
? PASCAL-Part：50.5，比 GF-SAM 高 6.0 個點(diǎn)
? PACO-Part：38.7，比 GF-SAM 高 2.4 個點(diǎn)
? PerMIS：67.0，比 GF-SAM 高 12.9 個點(diǎn)
這張表還有一個很值得記住的判斷。
像 SegIC 這種 fine-tuned 方法，在 COCO-20i 上能到 76.1。
看上去很強(qiáng)。
但一旦換到別的域，或者 finer granularity，掉得就很快。
INSID3 的強(qiáng)項(xiàng)正好相反。
它追的不是“最熟悉 benchmark 上的最高點(diǎn)”。
它追的是：
換域之后，還能不能站住。
06｜Ablation：提出的部分到底有沒有用消融部分最好的一點(diǎn)，是它沒有停在“完整模型最好”這種結(jié)論上。
作者真正拆開去看了兩件事：
? clustering 本身到底有沒有必要
? aggregation 到底是不是關(guān)鍵步驟
Table 3 很直白。
如果不做 clustering，只是對 similarity map 直接閾值化，COCO-20i / PASCAL-Part 只有 44.2 / 35.4。
如果加了 clustering，但不做 aggregation，問題還是沒解決。
你還是得在 object-level 和 part-level 之間二選一。
直到把 cross-image similarity 和 intra-image self-similarity 真的合到一起，結(jié)果才到 57.6 / 50.5。
這說明什么？
INSID3 不是“先找一個最像的局部，再把它當(dāng)完整 mask”。
真正起作用的，是后面的 aggregation。
只靠 seed cluster 不夠。
尤其在 part 和 object granularity 不一致的時候，更不夠。
還有一個補(bǔ)充點(diǎn)也值得看。
去偏這件事不是裝飾項(xiàng)。

正文和 Table 2、Fig. 7 都在說明這一點(diǎn)。
作者固定 debias rank 之后：
? COCO 上有 +3.1 個點(diǎn)
? PASCAL-Part 上有 +2.7 個點(diǎn)
? SPair-71k 上，不同 backbone 尺度下還能帶來 +0.9 到 +6.6 的 PCK 增益
所以這里提出的兩個核心部分，其實(shí)都有效：
? debiasing，讓跨圖匹配更像語義匹配
? clustering + aggregation，讓 mask 不再被困在最顯眼的那一小塊里
07｜Takeaway MessageINSID3 真正往前推的，不只是一個新的 training-free segmentation trick。
更重要的是，它把一個原本很像默認(rèn)共識的假設(shè)，硬生生掰開了。
以前大家會默認(rèn)：
? 分割能力還得靠 decoder 補(bǔ)
? 或者靠 fine-tuning 補(bǔ)
? 或者靠 SAM 這種外部 mask prior 補(bǔ)
INSID3 說明，事情不一定非得這樣。
如果 backbone 的 dense feature 足夠強(qiáng)，
再把跨圖匹配里的 positional bias 處理好，
單 backbone 也能把 in-context segmentation 做得很能打。
這不是一句輕飄飄的“training-free 也行”。
它更像是在提醒我們：
self-supervised dense representation 可能已經(jīng)比很多人以為的更接近分割本身。
08｜代碼、信息與 GPT-5.4 尾注代碼 / 項(xiàng)目頁：
? https://visinf.github.io/INSID3
GPT-5.4 尾注為什么值得看? 它回答的是一個很硬的問題：分割能力是不是一定得靠 decoder、fine-tuning，或者 SAM 這種外部 mask prior 才能補(bǔ)出來。
? INSID3 的分量在于，它不是只在一個 benchmark 上贏，而是在 semantic、part、personalized 三類任務(wù)里都把單 backbone 方案做成了。
讀的時候要保留的判斷? 如果你只盯 COCO-20i 這種 in-domain 數(shù)字，很容易低估這篇工作。它真正強(qiáng)的是 generalization，而不是某個熟悉 benchmark 上的絕對峰值。
? 這篇工作的關(guān)鍵，不只是“training-free”四個字，而是它說明 DINOv3 的 dense self-supervised representation 已經(jīng)強(qiáng)到能直接支撐 segmentation pipeline。
后續(xù)可以關(guān)注什么? 這種“單 backbone + 去偏 + 聚類聚合”的思路，后面能不能擴(kuò)到 multi-concept 或 instance-level ICS。
? 另一個值得繼續(xù)看的方向，是更輕的 prompt 形式?，F(xiàn)在 INSID3 還是吃 mask reference，如果以后能穩(wěn)穩(wěn)接住 point 或 box，實(shí)用性會再上一個臺階。
Reference? Cuttano et al. INSID3: Training-Free In-Context Segmentation with DINOv3. CVPR, 2026.
? Meng et al. SegIC: Unleashing the Emergent Correspondence for In-Context Segmentation. ECCV, 2024.
? Liu et al. Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching. ICLR, 2024.
? Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.
? Kirillov et al. Segment Anything. ICCV, 2023.