97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

本文作者: 陳淑瑜   2026-05-28 11:38 專題:CVPR 計算機視覺與模式識別會議
導(dǎo)語:OddGridBench:揭示多模態(tài)大語言模型缺乏細(xì)粒度視覺差異敏感性

來源:公眾號“Al & Multimodal ”

原文鏈接:https://mp.weixin.qq.com/s/RUoVbXgdFbIeeDOcnYQqng?scene=1&click_id=148

者 | Darlene


CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

論文題目:

OddGridBench:揭示多模態(tài)大語言模型缺乏細(xì)粒度視覺差異敏感性

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

會議/期刊:

CVPR 2026

作者:

Tengjin Weng、Wenhao Jiang、Jingyi Wang、Ming Li、Lin Ma、Zhong Ming等,來自深圳大學(xué)、清華大學(xué)深圳國際研究生院、美團(tuán)等單位。

文章地址: 

https://arxiv.org/abs/2603.09326

Github地址:

  • Homepage: https://wwwtttjjj.github.io/OddGridBench/
CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

摘要

多模態(tài)大型語言模型(MLLMs)在廣泛的視覺語言任務(wù)中表現(xiàn)出了卓越的性能。然而,它們在低級視覺感知方面的能力,特別是對細(xì)微視覺差異的檢測能力,仍未得到充分探索,也缺乏系統(tǒng)的分析。

該論文提出OddGridBench,一個用于評估MLLMs視覺差異敏感性的可控基準(zhǔn)。OddGridBench包含超過1400張網(wǎng)格圖像,其中單個元素在顏色、大小、旋轉(zhuǎn)或位置上與其余元素存在微小差異。

實驗表明,所有評估的MLLMs,包括開源系列(如Qwen3-VL和InternVL3.5,以及專有系統(tǒng)如Gemini-2.5-Pro和GPT-5)在視覺差異檢測方面的表現(xiàn)都遠(yuǎn)低于人類水平。為進(jìn)一步提升模型能力,作者提出OddGrid-GRPO,一個結(jié)合課程學(xué)習(xí)與距離感知獎勵的強化學(xué)習(xí)框架。通過逐步控制訓(xùn)練樣本的難度,并將空間鄰近約束納入獎勵設(shè)計中,OddGridGRPO顯著增強了模型的精細(xì)視覺辨別能力。該論文希望OddGridBench和OddGrid-GRPO能夠為多模態(tài)智能中感知基礎(chǔ)的建立以及視覺差異敏感度的提升奠定基礎(chǔ)。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

圖 1. 人類感知視覺差異敏感度的示意圖,展示了從難以察覺到能夠察覺的色彩、旋轉(zhuǎn)和尺寸方面的視覺差異的轉(zhuǎn)變過程。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

主要貢獻(xiàn)

1. 提出了OddGridBench,一個可擴展且可控的基準(zhǔn)測試工具,用于評估多語言語言模型在感知差異方面的能力。通過在參數(shù)化空間中生成基于網(wǎng)格的圖像,并持續(xù)控制顏色、大小、旋轉(zhuǎn)和位置等要素,OddGridBench能夠?qū)δP驮诙鄠€感知維度上的敏感性進(jìn)行定量和系統(tǒng)的分析。

2. 對一系列最先進(jìn)的開源和專有機器學(xué)習(xí)語言模型進(jìn)行了全面的實驗,結(jié)果揭示了在所有模型類別中,細(xì)粒度感知識別方面存在一致且此前未被充分研究的故障模式。

3. 提出了OddGrid-GRPO,它將循序漸進(jìn)學(xué)習(xí)與一種基于距離的獎勵機制相結(jié)合,這種獎勵機制能提供持續(xù)的感知反饋。該框架能夠逐步增強差異敏感性,并實現(xiàn)更精細(xì)的視覺辨別能力。


CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

圖 2. 奇異網(wǎng)格基準(zhǔn)測試概述。奇異網(wǎng)格基準(zhǔn)測試涵蓋了四個主要的視覺屬性,包括顏色、大小、旋轉(zhuǎn)和位置,并支持單一屬性和多屬性差異組合,為評估多層低秩模型的感知差異敏感性提供了一個系統(tǒng)的框架。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)


圖 3.MLLMs 在 OddGridBench 上的評估結(jié)果。人類的表現(xiàn)明顯優(yōu)于所有參與評估的 MLLM,無論是在顏色、尺寸、旋轉(zhuǎn)和位置方面,還是在多種類型組合方面均如此。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

具體細(xì)節(jié)

論文構(gòu)建了 OddGridBench數(shù)據(jù)集,采用“奇偶檢測”范式,每個樣本是一個由 5×5 至 9×9 圖標(biāo)組成的網(wǎng)格,其中只有一個圖標(biāo)在顏色(ΔE)、大?。é)、旋轉(zhuǎn)(Δθ)或位置(Δx,Δy)上與其余圖標(biāo)存在微小差異。數(shù)據(jù)集包含 1400 個測試樣本,覆蓋四個單一屬性變化和三個多屬性組合。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)


圖 4.OddGridBench數(shù)據(jù)生成流程概述:該流程在嚴(yán)格控制的感知條件下,根據(jù)收集到的圖標(biāo)構(gòu)建基于網(wǎng)格的圖像,以評估視覺差異敏感度。


在模型評估方面,作者測試了 19 個主流 MLLMs,包括開源模型(如 Qwen3-VL、InternVL3.5)和閉源系統(tǒng)(如 GPT-5、Gemini-2.5-Pro),并與人類表現(xiàn)進(jìn)行對比。

在訓(xùn)練方法上,論文提出 OddGrid-GRPO,改進(jìn)自 GRPO 算法。主要創(chuàng)新包括:(1)課程學(xué)習(xí):將訓(xùn)練樣本按難度分為易、中、難三組,逐步訓(xùn)練模型,從明顯差異過渡到細(xì)微差異;(2)距離感知獎勵:替代傳統(tǒng)二元獎勵,根據(jù)預(yù)測位置與真實位置之間的歐氏距離給予連續(xù)獎勵(高斯衰減),并加入格式獎勵。最終獎勵函數(shù)為:

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

有效提升了模型的空間定位與細(xì)粒度判別能力。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

圖 5.OddGrid-GRPO 框架概述。OddGrid-GRPO 將基于課程的優(yōu)化與基于空間的獎勵塑造相結(jié)合,以增強感知基礎(chǔ),并提高多語言語言模型中的精細(xì)視覺辨別能力。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

實驗結(jié)果

  • 人類 vs 模型:人類總體準(zhǔn)確率達(dá) 87.47%,而最佳模型 Qwen3-VL-32B 僅為 68.07%,Gemini-2.5-Pro 為 49.29%,GPT-5 僅 28.93%。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

表 1.各種 MLLM 在 OddGridBench 數(shù)據(jù)集上的準(zhǔn)確率(%)。該基準(zhǔn)測試評估了在四個感知維度以及它們的多種組合下的精細(xì)視覺辨別能力。深灰色和淺灰色分別表示所有模型中的最佳結(jié)果和次佳結(jié)果。


  • 屬性差異敏感度:模型對顏色差異最敏感,對旋轉(zhuǎn)和位置差異最不敏感。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

圖 6. 在四個視覺維度中不同感知差異幅度下的準(zhǔn)確率。


  • OddGrid-GRPO 效果:在 Qwen3-VL-2B 上,OddGrid-GRPO 將總體準(zhǔn)確率從 17.14%(基線)提升至 82.64%,顯著優(yōu)于標(biāo)準(zhǔn) GRPO(70.86%)和 GSPO(75.93%)。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

表 3. 在 OddGridBench 上針對所有感知屬性類型,對 OddGrid-GRPO 與現(xiàn)有強化學(xué)習(xí)方法(上半部分)及其變體(下半部分)的定量比較結(jié)果。

CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

總結(jié)

本文揭示了當(dāng)前多模態(tài)大語言模型在細(xì)粒度視覺差異感知方面的系統(tǒng)性不足,提出并開源了可控、可擴展的評估基準(zhǔn) OddGridBench,以及有效的強化學(xué)習(xí)提升框架 OddGrid-GRPO。實驗表明,即使是最先進(jìn)的模型,在類似人類的視覺“找不同”任務(wù)中仍遠(yuǎn)未達(dá)到人類水平。

本文推出了 OddGridBench 這一可調(diào)控的基準(zhǔn)測試工具,用于評估 MLLMs 的視覺差異敏感度。研究發(fā)現(xiàn),精細(xì)的感知敏感度仍是當(dāng)前 MLLMs 的一個關(guān)鍵瓶頸,阻礙了它們實現(xiàn)可靠且基于實際的視覺理解的能力。本文進(jìn)一步開發(fā)了 OddGrid-GRPO,一個強化學(xué)習(xí)框架,它將空間距離嵌入到訓(xùn)練目標(biāo)中,并將基于課程的優(yōu)化與距離感知獎勵相結(jié)合,以提高訓(xùn)練的穩(wěn)定性和與人類一致的視覺敏感度。本文致力于OddGridBench 和 OddGridGRPO 構(gòu)建了一個基于原理的感知基礎(chǔ)學(xué)習(xí)框架,為多模態(tài)智能的感知基礎(chǔ)提供了新的見解。

參考資料:

Weng T, Jiang W, Wang J, et al. OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models[J]. arXiv, 2026.


CVPR 2026 | 多模態(tài)大模型對視覺差異不敏感?深圳大學(xué)最新研究提出OddGridBench:一個細(xì)粒度視覺差異識別評測基準(zhǔn)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
阿城市| 许昌县| 锡林浩特市| 石柱| 报价| 金堂县| 江孜县| 溧水县| 尼玛县| 奉贤区| 娄底市| 镇坪县| 甘孜| 吉木乃县| 辽宁省| 无棣县| 博兴县| 怀远县| 修武县| 曲阜市| 广州市| 大悟县| 即墨市| 富锦市| 渭源县| 滕州市| 昭苏县| 南城县| 涞源县| 托克逊县| 庆云县| 大渡口区| 沂源县| 岗巴县| 忻州市| 博兴县| 安吉县| 东明县| 桐庐县| 沛县| 江城|