97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”

本文作者: 陳淑瑜   2026-06-11 13:51
導語:很多大規(guī)模 VLM 并非沒有細粒度感知潛力,而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征,掩蓋了模型原有的空間感知能力。

來源:公眾號“我愛計算機視覺”

原文鏈接:https://mp.weixin.qq.com/s/R7Pi6hgPWAXKJcNmEuJveA

近年來,視覺語言模型(Vision-Language Models, VLM)在圖文理解、零樣本識別和開放詞匯感知上表現(xiàn)越來越強。隨著模型參數(shù)規(guī)模和圖文預訓練數(shù)據(jù)不斷增大,很多人自然會期待:這些大規(guī)模預訓練視覺編碼器也應該具備更強的細粒度感知能力。但在開放詞匯語義分割、深度估計等密集預測任務(dense prediction tasks)中,許多模型的表現(xiàn)卻常常不如預期。這是否意味著這些視覺編碼器天然不擅長細粒度空間感知?

CVPR 2026 工作 UniRefiner 給出了一個不同的答案:很多大規(guī)模 VLM 并非沒有細粒度感知潛力,而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征,掩蓋了模型原有的空間感知能力。換句話說,問題不一定是“模型不會看細節(jié)”,而可能是:ViT 輸出的 feature map 太“臟”了。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
  • 論文:https://arxiv.org/abs/2605.19622
  • 項目主頁:https://congpeiqiu.github.io/UniRefiner/
  • 代碼 (已開源):https://github.com/CongpeiQiu/UniRefiner
  • 機構(gòu):西安交通大學、中國科學院大學、哈爾濱工業(yè)大學(深圳)、深圳河套學院
視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
SigLIP2-So400M and EVA-CLIP-8B noisy feature maps and UniRefiner refinement dynamics

圖 1:SigLIP2-So400M 和 EVA-CLIP-8B 的 PCA feature-map dynamics。左側(cè)為原圖,中間為原始模型的 noisy feature map,右側(cè)展示 UniRefiner refinement 過程中空間結(jié)構(gòu)逐漸變干凈的動態(tài)變化。

高范數(shù) token 只是冰山一角

ViT 中的 feature artifacts 并不是一個全新問題。此前 Vision Transformers Need Registers 已經(jīng)從 high-norm outlier 的角度指出,ViT feature map 中會出現(xiàn)高范數(shù)異常 tokens,而 register tokens 可以緩解這類問題。但 UniRefiner 進一步指出:高范數(shù) tokens 只是最顯眼的一小部分。

對于細粒度感知任務來說,僅用范數(shù)異常來定義 artifact 并不充分。一個 token 即使范數(shù)正常,甚至包含很強的語義信息,只要它不再對應自身所在的空間位置,就會破壞下游任務所需要的細粒度信息。因此,UniRefiner 更關注的是它是否仍然保留 location-aligned semantics,也就是:

每個 visual token 是否仍然忠實表達自己所在空間位置的語義。

基于這一判據(jù),UniRefiner 將偽特征歸納為三類典型形式:

  • Fixed Pattern:這類 tokens 在不同圖像中呈現(xiàn)高度相似的固定模式,更多反映模型內(nèi)部的非語義偏置,而不是當前圖像局部區(qū)域的內(nèi)容。
  • Global Proxy:這類 tokens 不再主要編碼自身位置的局部證據(jù),而是承載更全局的場景或圖像級語義,導致局部 token 退化為全局信息的代理。
  • Attention Hijackee:這類 tokens 的局部語義受到 attention 信息流主導,被更強的前景或鄰近語義覆蓋,從而逐漸失去自身空間位置對應的表征。

這些模式來源不同,但共同導致一個結(jié)果:

feature map 不再是一張可靠的空間畫布。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
Fixed Pattern, Global Proxy, and Attention Hijackee tokens

圖 2:UniRefiner 將破壞 location-aligned semantics 的偽特征歸納為 Fixed Pattern、Global Proxy 和 Attention Hijackee 三類。高范數(shù) tokens 只是其中最容易被觀察到的一小部分。

UniRefiner:讓 register tokens 顯式承接偽特征

UniRefiner 的思路很直接:

image tokens 應該保留正??臻g語義,register tokens 應該承接偽特征。

已有的 register 類方法更多依賴模型在長時間預訓練中自然學會這種分工。UniRefiner 則直接給出顯式優(yōu)化壓力:先識別哪些 tokens 仍然是正常的空間 tokens,哪些 tokens 是污染 feature map 的偽特征;再通過 contrastive register 目標進行特征分流。

可以簡單理解為:

image tokens    → 對齊正常、位置一致的視覺 token
register tokens → 吸收污染 feature map 的偽特征信號

同時,對比學習目標進一步拉開 image tokens 和 register tokens 的表征空間,強化兩者分工。這樣,原本混疊在圖像區(qū)域的偽特征被推向 register tokens,而 image tokens 則被恢復為編碼對應圖像區(qū)域信息的空間表征。

這也是 UniRefiner 的關鍵:它不是重新訓練一個大模型,也不是等待 register tokens 的使用方式自然涌現(xiàn),而是通過顯式優(yōu)化目標,讓已有預訓練 ViT 快速學會“自清理”。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
Comparison of different register designs

圖 3:不同 register 形式的比較。沒有 register tokens 時,偽特征容易繼續(xù)污染 image tokens;無約束 register tokens 在偽特征占比較高時難以形成穩(wěn)定分工;UniRefiner 通過顯式 contrastive register 目標,讓 register tokens 主動承接偽特征信號。

不只是指標提升:開放世界語義開始落到像素上

UniRefiner 的一個重要特點是輕量。

它不是重新訓練一個大模型,而是作為 post-hoc refinement 方法,對已有預訓練 ViT 做少量訓練。論文中僅使用約 5k images 和少數(shù)訓練 epoch,就能 refine EVA-CLIP-8B、InternViT-6B 等大規(guī)模模型。

結(jié)果也非常直接:

refined EVA-CLIP-8B 在 ADE20K 上達到 51.9% mIoU,相比原模型提升 +9.4 個百分點,并超過 DINOv2 的 49.1%。

在視覺中心 dense prediction 任務上,UniRefiner 對不同類型的 ViT 都帶來穩(wěn)定提升:不僅是 EVA-CLIP-8B,DINOv2、CLIP、InternViT 和 SigLIP2 也能在語義分割、深度估計等任務上受益。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
Vision-centric dense prediction results

圖 4:視覺中心 dense prediction 結(jié)果。UniRefiner 在 ADE20K、CityScapes、Pascal VOC 和 NYUd 等任務上穩(wěn)定提升多種 ViT backbone 的空間表征質(zhì)量。

在更依賴語言對齊能力的 zero-shot semantic segmentation 中,這種收益同樣明顯。尤其是 EVA-CLIP-8B,經(jīng)過 UniRefiner 后在多個 zero-shot 分割設置下顯著提升,最高接近 +22 個百分點。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
Vision-language zero-shot dense prediction results

圖 5:zero-shot semantic segmentation 結(jié)果。UniRefiner 在保留視覺語言模型開放詞匯能力的同時,讓 dense feature map 更適合定位語義區(qū)域。

但更有意思的是,這種提升并不只體現(xiàn)在幾個分割指標上。

許多大規(guī)模 VLM 視覺編碼器在海量圖文預訓練中已經(jīng)沉淀了豐富的開放詞匯語義和視覺概念知識。但在原始 feature map 中,這些知識往往更像是圖像級語義,并不總能穩(wěn)定落到對應的局部空間位置上。對于 dense prediction tasks 來說,這正是關鍵瓶頸:模型知道“這是什么”,并不等于每個 token 都知道“它在哪里”。

UniRefiner 的作用,正是清理視覺編碼器 feature map 中的偽特征,讓圖文預訓練中已有的開放世界語義更好地回到局部空間位置上。因此,在一些開放場景中,我們可以看到更有意思的現(xiàn)象:經(jīng)過 refinement 后,模型不僅在 ADE20K 等標準數(shù)據(jù)集上取得更高 mIoU,也能定位復雜城市場景中的特定建筑、特定角色形象,以及遙感圖像中的細粒度目標。

UniRefiner 并不是給視覺編碼器灌入新的知識,而是讓圖文預訓練中已有的開放世界語義,重新找到它在圖像中的位置。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
Vision-language zero-shot qualitative visualization

圖 6:需要世界知識的 vision-language zero-shot 可視化。圖中展示細粒度 visual representations 與 text prompt representations 之間的相似度熱力圖,用于觀察開放詞匯語義能否被定位到對應的空間區(qū)域。

從“臟特征圖”到“干凈空間畫布”

UniRefiner 的可視化結(jié)果也很直觀。

在原始大規(guī)模 ViT 中,某些 tokens 不再對應真實圖像結(jié)構(gòu):背景區(qū)域可能出現(xiàn)固定模式,局部區(qū)域可能變成全局語義代理,前景強語義也可能通過 attention 擴散到周圍 tokens。

經(jīng)過 UniRefiner refinement 后,image tokens 被重新拉回正??臻g語義,register tokens 承接偽特征信號,feature map 變得更加干凈,空間結(jié)構(gòu)也更加清晰。這不是簡單地“平滑”特征,而是重新分配 token 的職責:

image tokens    → 負責可靠的空間表征
register tokens → 負責承接偽特征
視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
PCA dynamics across six ViT foundation models

圖 7:不同 ViT foundation models 的 PCA feature-map dynamics。每個模型左側(cè)為原始 vanilla feature map,右側(cè)為 UniRefiner refinement 過程中的動態(tài)變化;可以看到 UniRefiner 在不同架構(gòu)和尺度的 ViT 上都能逐步恢復更清晰的空間結(jié)構(gòu)。

寫在最后

UniRefiner 的意義不只是提升幾個 dense prediction 指標,而是提醒我們重新思考一個問題:

VLM 視覺編碼器的細粒度能力弱,究竟是能力本身不足,還是特征圖中的偽特征遮住了它?

過去,我們可能低估了大規(guī)模 VLM 視覺編碼器的細粒度潛力。UniRefiner 通過系統(tǒng)分析高范數(shù) token 之外更廣泛的偽特征,并用顯式 contrastive register 目標將其分流,說明已有多模態(tài)視覺基座中仍有大量可釋放的空間感知潛力。

視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
松原市| 博爱县| 大田县| 韶山市| 清丰县| 樟树市| 盐津县| 武清区| 赤峰市| 隆子县| 镇宁| 绥棱县| 浪卡子县| 万年县| 淳安县| 浦城县| 夹江县| 贵阳市| 临洮县| 都匀市| 梁平县| 嘉鱼县| 新建县| 滦平县| 沾化县| 浏阳市| 荣昌县| 吉安市| 洮南市| 淳安县| 桑植县| 永丰县| 永定县| 托克逊县| 临沧市| 克什克腾旗| 涿鹿县| 云浮市| 南江县| 子长县| 乌拉特中旗|