視覺語言 ViT 的細粒度能力被低估了嗎？CVPR 2026 UniRefiner：也許只是特征圖太“臟”

本文作者：陳淑瑜

2026-06-11 13:51

導語：很多大規(guī)模 VLM 并非沒有細粒度感知潛力，而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征，掩蓋了模型原有的空間感知能力。

來源：公眾號“我愛計算機視覺”

原文鏈接：https://mp.weixin.qq.com/s/R7Pi6hgPWAXKJcNmEuJveA

近年來，視覺語言模型（Vision-Language Models, VLM）在圖文理解、零樣本識別和開放詞匯感知上表現(xiàn)越來越強。隨著模型參數(shù)規(guī)模和圖文預訓練數(shù)據(jù)不斷增大，很多人自然會期待：這些大規(guī)模預訓練視覺編碼器也應該具備更強的細粒度感知能力。但在開放詞匯語義分割、深度估計等密集預測任務（dense prediction tasks）中，許多模型的表現(xiàn)卻常常不如預期。這是否意味著這些視覺編碼器天然不擅長細粒度空間感知？

CVPR 2026 工作 UniRefiner 給出了一個不同的答案：很多大規(guī)模 VLM 并非沒有細粒度感知潛力，而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征，掩蓋了模型原有的空間感知能力。換句話說，問題不一定是“模型不會看細節(jié)”，而可能是：ViT 輸出的 feature map 太“臟”了。

視覺語言 ViT 的細粒度能力被低估了嗎？CVPR 2026 UniRefiner：也許只是特征圖太“臟”

論文：https://arxiv.org/abs/2605.19622
項目主頁：https://congpeiqiu.github.io/UniRefiner/
代碼 (已開源)：https://github.com/CongpeiQiu/UniRefiner
機構(gòu)：西安交通大學、中國科學院大學、哈爾濱工業(yè)大學（深圳）、深圳河套學院

圖 1：SigLIP2-So400M 和 EVA-CLIP-8B 的 PCA feature-map dynamics。左側(cè)為原圖，中間為原始模型的 noisy feature map，右側(cè)展示 UniRefiner refinement 過程中空間結(jié)構(gòu)逐漸變干凈的動態(tài)變化。

高范數(shù) token 只是冰山一角

ViT 中的 feature artifacts 并不是一個全新問題。此前 Vision Transformers Need Registers 已經(jīng)從 high-norm outlier 的角度指出，ViT feature map 中會出現(xiàn)高范數(shù)異常 tokens，而 register tokens 可以緩解這類問題。但 UniRefiner 進一步指出：高范數(shù) tokens 只是最顯眼的一小部分。

對于細粒度感知任務來說，僅用范數(shù)異常來定義 artifact 并不充分。一個 token 即使范數(shù)正常，甚至包含很強的語義信息，只要它不再對應自身所在的空間位置，就會破壞下游任務所需要的細粒度信息。因此，UniRefiner 更關注的是它是否仍然保留 location-aligned semantics，也就是：

每個 visual token 是否仍然忠實表達自己所在空間位置的語義。

基于這一判據(jù)，UniRefiner 將偽特征歸納為三類典型形式：

Fixed Pattern：這類 tokens 在不同圖像中呈現(xiàn)高度相似的固定模式，更多反映模型內(nèi)部的非語義偏置，而不是當前圖像局部區(qū)域的內(nèi)容。
Global Proxy：這類 tokens 不再主要編碼自身位置的局部證據(jù)，而是承載更全局的場景或圖像級語義，導致局部 token 退化為全局信息的代理。
Attention Hijackee：這類 tokens 的局部語義受到 attention 信息流主導，被更強的前景或鄰近語義覆蓋，從而逐漸失去自身空間位置對應的表征。

這些模式來源不同，但共同導致一個結(jié)果：

feature map 不再是一張可靠的空間畫布。

圖 2：UniRefiner 將破壞 location-aligned semantics 的偽特征歸納為 Fixed Pattern、Global Proxy 和 Attention Hijackee 三類。高范數(shù) tokens 只是其中最容易被觀察到的一小部分。

UniRefiner：讓 register tokens 顯式承接偽特征

UniRefiner 的思路很直接：

image tokens 應該保留正?？臻g語義，register tokens 應該承接偽特征。

已有的 register 類方法更多依賴模型在長時間預訓練中自然學會這種分工。UniRefiner 則直接給出顯式優(yōu)化壓力：先識別哪些 tokens 仍然是正常的空間 tokens，哪些 tokens 是污染 feature map 的偽特征；再通過 contrastive register 目標進行特征分流。

可以簡單理解為：

image tokens    → 對齊正常、位置一致的視覺 token
register tokens → 吸收污染 feature map 的偽特征信號

同時，對比學習目標進一步拉開 image tokens 和 register tokens 的表征空間，強化兩者分工。這樣，原本混疊在圖像區(qū)域的偽特征被推向 register tokens，而 image tokens 則被恢復為編碼對應圖像區(qū)域信息的空間表征。

這也是 UniRefiner 的關鍵：它不是重新訓練一個大模型，也不是等待 register tokens 的使用方式自然涌現(xiàn)，而是通過顯式優(yōu)化目標，讓已有預訓練 ViT 快速學會“自清理”。

圖 3：不同 register 形式的比較。沒有 register tokens 時，偽特征容易繼續(xù)污染 image tokens；無約束 register tokens 在偽特征占比較高時難以形成穩(wěn)定分工；UniRefiner 通過顯式 contrastive register 目標，讓 register tokens 主動承接偽特征信號。

不只是指標提升：開放世界語義開始落到像素上

UniRefiner 的一個重要特點是輕量。

它不是重新訓練一個大模型，而是作為 post-hoc refinement 方法，對已有預訓練 ViT 做少量訓練。論文中僅使用約 5k images 和少數(shù)訓練 epoch，就能 refine EVA-CLIP-8B、InternViT-6B 等大規(guī)模模型。

結(jié)果也非常直接：

refined EVA-CLIP-8B 在 ADE20K 上達到 51.9% mIoU，相比原模型提升 +9.4 個百分點，并超過 DINOv2 的 49.1%。

在視覺中心 dense prediction 任務上，UniRefiner 對不同類型的 ViT 都帶來穩(wěn)定提升：不僅是 EVA-CLIP-8B，DINOv2、CLIP、InternViT 和 SigLIP2 也能在語義分割、深度估計等任務上受益。

圖 4：視覺中心 dense prediction 結(jié)果。UniRefiner 在 ADE20K、CityScapes、Pascal VOC 和 NYUd 等任務上穩(wěn)定提升多種 ViT backbone 的空間表征質(zhì)量。

在更依賴語言對齊能力的 zero-shot semantic segmentation 中，這種收益同樣明顯。尤其是 EVA-CLIP-8B，經(jīng)過 UniRefiner 后在多個 zero-shot 分割設置下顯著提升，最高接近 +22 個百分點。

圖 5：zero-shot semantic segmentation 結(jié)果。UniRefiner 在保留視覺語言模型開放詞匯能力的同時，讓 dense feature map 更適合定位語義區(qū)域。

但更有意思的是，這種提升并不只體現(xiàn)在幾個分割指標上。

許多大規(guī)模 VLM 視覺編碼器在海量圖文預訓練中已經(jīng)沉淀了豐富的開放詞匯語義和視覺概念知識。但在原始 feature map 中，這些知識往往更像是圖像級語義，并不總能穩(wěn)定落到對應的局部空間位置上。對于 dense prediction tasks 來說，這正是關鍵瓶頸：模型知道“這是什么”，并不等于每個 token 都知道“它在哪里”。

UniRefiner 的作用，正是清理視覺編碼器 feature map 中的偽特征，讓圖文預訓練中已有的開放世界語義更好地回到局部空間位置上。因此，在一些開放場景中，我們可以看到更有意思的現(xiàn)象：經(jīng)過 refinement 后，模型不僅在 ADE20K 等標準數(shù)據(jù)集上取得更高 mIoU，也能定位復雜城市場景中的特定建筑、特定角色形象，以及遙感圖像中的細粒度目標。

UniRefiner 并不是給視覺編碼器灌入新的知識，而是讓圖文預訓練中已有的開放世界語義，重新找到它在圖像中的位置。

圖 6：需要世界知識的 vision-language zero-shot 可視化。圖中展示細粒度 visual representations 與 text prompt representations 之間的相似度熱力圖，用于觀察開放詞匯語義能否被定位到對應的空間區(qū)域。

從“臟特征圖”到“干凈空間畫布”

UniRefiner 的可視化結(jié)果也很直觀。

在原始大規(guī)模 ViT 中，某些 tokens 不再對應真實圖像結(jié)構(gòu)：背景區(qū)域可能出現(xiàn)固定模式，局部區(qū)域可能變成全局語義代理，前景強語義也可能通過 attention 擴散到周圍 tokens。

經(jīng)過 UniRefiner refinement 后，image tokens 被重新拉回正?？臻g語義，register tokens 承接偽特征信號，feature map 變得更加干凈，空間結(jié)構(gòu)也更加清晰。這不是簡單地“平滑”特征，而是重新分配 token 的職責：

image tokens    → 負責可靠的空間表征
register tokens → 負責承接偽特征

圖 7：不同 ViT foundation models 的 PCA feature-map dynamics。每個模型左側(cè)為原始 vanilla feature map，右側(cè)為 UniRefiner refinement 過程中的動態(tài)變化；可以看到 UniRefiner 在不同架構(gòu)和尺度的 ViT 上都能逐步恢復更清晰的空間結(jié)構(gòu)。