CVPR 2026｜面向數(shù)據(jù)高效與泛化的概率式視覺語言醫(yī)學(xué)圖像分割框架MedCLIPSeg

本文作者：陳淑瑜

2026-05-27 14:43

導(dǎo)語：MedCLIPSeg通過設(shè)計(jì)概率式視覺語言（Probabilistic Vision-Language，PVL）適配器實(shí)現(xiàn)雙向跨模態(tài)融合與不確定性感知

來源：公眾號“人工智能怎么學(xué)”

原文鏈接：https://mp.weixin.qq.com/s/8T1LqLJYPqyUWsNF8aBD1w

本文介紹了CVPR 2026的論文《MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation》。該研究由加拿大康考迪亞大學(xué)團(tuán)隊(duì)完成，提出概率式視覺語言自適應(yīng)框架MedCLIPSeg，專門解決醫(yī)學(xué)圖像分割中標(biāo)注稀缺、邊界模糊、域偏移嚴(yán)重三大核心難題。MedCLIPSeg通過設(shè)計(jì)概率式視覺語言（Probabilistic Vision-Language，PVL）適配器實(shí)現(xiàn)雙向跨模態(tài)融合與不確定性感知，結(jié)合軟補(bǔ)丁級對比損失強(qiáng)化語義對齊，在16個(gè)公開基準(zhǔn)數(shù)據(jù)集、5種成像模態(tài)、6個(gè)器官的分割任務(wù)中全面超越現(xiàn)有方法，同時(shí)提供可解釋的像素級不確定性地圖，為臨床可靠診斷提供AI支撐。

論文鏈接：https://arxiv.org/abs/2602.20423

代碼鏈接：https://tahakoleilat.github.io/MedCLIPSeg

本推文作者為黃忠祥，審校為龔裕濤和王一鳴。

CVPR 2026｜面向數(shù)據(jù)高效與泛化的概率式視覺語言醫(yī)學(xué)圖像分割框架MedCLIPSeg

一、研究背景及主要貢獻(xiàn)

1.1 研究背景

醫(yī)學(xué)圖像分割是臨床診斷、治療規(guī)劃與預(yù)后評估的核心技術(shù)，但長期受限于專家標(biāo)注成本高、病灶邊界模糊、跨設(shè)備/中心域偏移大三大瓶頸。近年來，CLIP等視覺-語言模型（Vision-Language Model，VLM）憑借強(qiáng)大的跨模態(tài)表示能力，為少樣本醫(yī)學(xué)分割提供了新方向，但現(xiàn)有方法多采用確定性融合策略，存在過自信、泛化性差、缺乏不確定性估計(jì)等問題，難以滿足臨床對模型可靠性的要求。當(dāng)前醫(yī)學(xué)圖像分割與VLM適配方法面臨三大核心挑戰(zhàn)。

(1)標(biāo)注效率瓶頸：像素級分割標(biāo)注需專業(yè)醫(yī)師數(shù)小時(shí)完成，罕見病與新模態(tài)數(shù)據(jù)標(biāo)注尤為稀缺，傳統(tǒng)全監(jiān)督方法難以落地。

(2)域偏移魯棒性差：不同設(shè)備、采集協(xié)議與患者群體導(dǎo)致的分布差異，會使模型性能大幅下降，跨中心泛化能力不足。

(3)模型可靠性缺失：確定性模型對模糊邊界與未見樣本易產(chǎn)生過自信預(yù)測，缺乏不確定性估計(jì)機(jī)制，無法為臨床決策提供風(fēng)險(xiǎn)提示。

1.2 主要貢獻(xiàn)

針對上述挑戰(zhàn)，該論文提出了MedCLIPSeg框架，核心貢獻(xiàn)可概括為如下三點(diǎn)。

（1）提出了概率式雙向VLM醫(yī)學(xué)分割框架，其提出的PVL適配器，在CLIP多層編碼中實(shí)現(xiàn)圖像-文本雙向概率融合，通過變分建模注意力的Key與Value，同時(shí)捕捉數(shù)據(jù)固有不確定性與模型認(rèn)知不確定性。

（2）提出了軟補(bǔ)丁級對比損失，針對醫(yī)學(xué)圖像細(xì)粒度語義對齊需求，設(shè)計(jì)基于平均池化的軟對比損失，利用文本相似度生成軟標(biāo)簽，避免硬標(biāo)簽帶來的語義混淆，提升少樣本下的特征學(xué)習(xí)效率。

（3）提出的MedCLIPSeg框架在16個(gè)數(shù)據(jù)集、5種模態(tài)、6個(gè)器官的任務(wù)中全面超越SOTA，僅用10%標(biāo)注數(shù)據(jù)即可超越多數(shù)方法全量數(shù)據(jù)性能，提供像素級不確定性地圖，與分割誤差的相關(guān)系數(shù)超80%，可直接輔助臨床審核。

二、方法設(shè)計(jì)

2.1 框架概覽

MedCLIPSeg基于凍結(jié)的UniMedCLIP預(yù)訓(xùn)練模型構(gòu)建，整體流程分為三個(gè)板塊，如圖1所示。首先是多模態(tài)輸入編碼框架，圖像經(jīng)視覺編碼器生成補(bǔ)丁令牌，文本經(jīng)文本編碼器生成令牌序列，保留CLIP的預(yù)訓(xùn)練參數(shù)以最大化遷移能力。再進(jìn)行PVL適配器逐層融合，具體實(shí)現(xiàn)流程是在CLIP的多個(gè)深層插入PVL適配器，實(shí)現(xiàn)圖像與文本令牌的雙向概率交互，生成置信度加權(quán)的融合特征。最后進(jìn)行分割與不確定性的輸出，它通過文本令牌與圖像補(bǔ)丁的相似度計(jì)算分割logits。測試時(shí)通過蒙特卡洛采樣生成多個(gè)預(yù)測，其均值為最終分割結(jié)果，熵為不確定性地圖。

整個(gè)框架通過概率式跨模態(tài)對齊加上軟對比語義強(qiáng)化和不確定性量化的三步設(shè)計(jì)，同時(shí)實(shí)現(xiàn)數(shù)據(jù)高效、泛化性強(qiáng)與可靠性高三大目標(biāo)。

圖1 MedCLIPSeg框架圖

2.2 概率式視覺語言適配器（PVL Adapter）

該模塊是MedCLIPSeg的核心模塊，是實(shí)現(xiàn)不確定性感知的跨模態(tài)融合的主要部分，它的結(jié)構(gòu)主要分為三個(gè)部分，如圖2所示。第一個(gè)部分是雙向投影與QKV概率建模，它將圖像與文本令牌投影至共享低維空間，將注意力的Key與Value建模為高斯分布，而非確定性向量。第二個(gè)部分是置信度加權(quán)注意力，注意力分?jǐn)?shù)同時(shí)考慮均值相似度與方差置信度懲罰，自動降低不確定令牌的權(quán)重。第三個(gè)部分是值采樣與殘差門控，通過重參數(shù)化技巧采樣Value分布生成融合特征，引入可學(xué)習(xí)殘差門控，訓(xùn)練初期保留原始特征以保證穩(wěn)定性，后期逐步增加融合特征的權(quán)重。

圖2 PVL適配器實(shí)現(xiàn)流程圖

2.3 像素與文本相似度分割

這是MedCLIPSeg的特色模塊，位于框架圖右側(cè)，它采用語義相似度來驅(qū)動分割。它主要利用CLIP預(yù)訓(xùn)練好的跨模態(tài)對齊能力，將分割任務(wù)轉(zhuǎn)化為每個(gè)像素與文本描述的匹配度計(jì)算。首先它從凍結(jié)的CLIP視覺編碼器中提取保留完整空間位置信息的圖像補(bǔ)丁特征，同時(shí)從文本編碼器中取出代表整句語義的結(jié)束符特征，將兩者做歸一化后映射到同一維度空間，隨后通過一個(gè)輕量級可學(xué)習(xí)上采樣模塊將低分辨率的補(bǔ)丁特征恢復(fù)到接近原圖的尺寸，再與經(jīng)過MLP維度對齊的文本特征做逐元素點(diǎn)積，點(diǎn)積結(jié)果直接作為該位置的分割logits，其相似度越高，說明該像素越符合文本描述的語義，越可能是需要分割的病灶或器官，最后通過雙線性插值將logits上采樣到輸入圖像的原始尺寸，即可得到最終的分割掩碼。

2.4 軟補(bǔ)丁級對比損失

傳統(tǒng)CLIP全局對比學(xué)習(xí)可能會出現(xiàn)丟失空間信息、硬標(biāo)簽監(jiān)督在醫(yī)學(xué)場景下失效的問題，所以MedCLIPSeg提出了軟補(bǔ)丁級對比損失。傳統(tǒng)CLIP僅使用全局token與文本做對比，完全忽略了分割任務(wù)必需的空間語義，對此MedCLIPSeg首先對所有圖像補(bǔ)丁特征做平均池化，得到既保留局部語義又降低噪聲的區(qū)域級圖像表征，隨后引入軟標(biāo)簽機(jī)制，不再使用非0即1的硬標(biāo)簽，而是通過計(jì)算批次內(nèi)所有文本表征之間的相似度生成連續(xù)的軟標(biāo)簽矩陣，語義越相近的文本，其對應(yīng)的監(jiān)督信號置信度越高。最后計(jì)算文本與圖像和圖像與文本兩個(gè)方向的軟交叉熵?fù)p失并取平均，與傳統(tǒng)的分割損失聯(lián)合訓(xùn)練。這種設(shè)計(jì)讓模型在標(biāo)注極度稀缺的醫(yī)學(xué)場景下大幅提升了學(xué)習(xí)效率，同時(shí)顯著增強(qiáng)了模型對不同設(shè)備、不同掃描協(xié)議下域偏移的魯棒性。

三、實(shí)驗(yàn)驗(yàn)證

為了全面驗(yàn)證MedCLIPSeg架構(gòu)的有效性與臨床落地價(jià)值，論文構(gòu)建了一套多維度遞進(jìn)的實(shí)驗(yàn)驗(yàn)證方案。首先通過標(biāo)注比例梯度的對比實(shí)驗(yàn)，量化了模型在醫(yī)學(xué)數(shù)據(jù)稀缺場景下的極致數(shù)據(jù)效率；其次采用源域訓(xùn)練、目標(biāo)域零微調(diào)直接測試的設(shè)置，在16個(gè)數(shù)據(jù)集上驗(yàn)證了模型對跨設(shè)備、跨中心域偏移的強(qiáng)魯棒性；隨后通過核心組件消融實(shí)驗(yàn)，精準(zhǔn)量化了每個(gè)創(chuàng)新設(shè)計(jì)對模型性能的獨(dú)立貢獻(xiàn)；最后通過不確定性與可靠性可視化分析，進(jìn)一步佐證了實(shí)驗(yàn)結(jié)果的可信度，也證明了模型能夠輸出與分割誤差強(qiáng)相關(guān)的像素級置信度提示，能夠解決傳統(tǒng)確定性醫(yī)學(xué)AI模型普遍存在的過自信問題。

3.1 數(shù)據(jù)效率對比實(shí)驗(yàn)

表1 數(shù)據(jù)效率對比實(shí)驗(yàn)結(jié)果表

表1是論文中的數(shù)據(jù)效率對比實(shí)驗(yàn)結(jié)果表，專門用來驗(yàn)證模型在不同標(biāo)注數(shù)據(jù)量下的醫(yī)學(xué)圖像分割性能，是證明模型少標(biāo)注也能高精度的核心實(shí)驗(yàn)數(shù)據(jù)。表格按10%、25%、50%、100%四個(gè)訓(xùn)練標(biāo)注比例分組，模擬醫(yī)學(xué)場景中從極稀缺標(biāo)注到全量標(biāo)注的真實(shí)情況，用DSC和NSD兩個(gè)核心指標(biāo)，對比了三大類主流分割方法：傳統(tǒng)單模態(tài)模型（UNet、nnUNet等）、通用文本驅(qū)動分割模型、CLIP視覺-語言類分割模型（CLIPSeg、CAT-Seg等）。結(jié)果顯示，MedCLIPSeg在所有數(shù)據(jù)比例下的DSC和NSD均位列第一，且標(biāo)注數(shù)據(jù)越少，優(yōu)勢越突出，完美驗(yàn)證了它在小樣本醫(yī)學(xué)分割上的領(lǐng)先性。

3.2 跨域泛化實(shí)驗(yàn)

表2 跨域泛化實(shí)驗(yàn)結(jié)果表

表2是MedCLIPSeg論文的跨域泛化實(shí)驗(yàn)結(jié)果表，是驗(yàn)證模型能否真正落地臨床的核心實(shí)驗(yàn)，衡量了模型在域遷移問題上直接推理的分割精度。實(shí)驗(yàn)覆蓋乳腺超聲、結(jié)腸息肉內(nèi)鏡、腦MRI、皮膚皮膚鏡4大場景，采用源域訓(xùn)練、目標(biāo)域零微調(diào)直接測試設(shè)置，模擬了真實(shí)醫(yī)療場景中跨醫(yī)院、跨設(shè)備部署的域偏移挑戰(zhàn)。如表2所示，MedCLIPSeg在所有任務(wù)、所有域外數(shù)據(jù)集上的精度均位列第一，大幅領(lǐng)先LViT、CLIPSeg、CAT-Seg等主流視覺-語言分割模型。比如乳腺超聲跨域任務(wù)中最高達(dá)85.72%，息肉內(nèi)鏡任務(wù)最高90.15%，且相比其他模型，它在域偏移下的性能下跌幅度最小，充分證明其概率跨模態(tài)融合與軟對比損失設(shè)計(jì)，能讓模型學(xué)習(xí)通用的醫(yī)學(xué)語義特征，而非依賴特定設(shè)備的紋理噪聲，是模型具備臨床實(shí)用價(jià)值的關(guān)鍵佐證。

3.3 核心部件消融實(shí)驗(yàn)

表3 核心部件消融實(shí)驗(yàn)

表3展示了MedCLIPSeg的核心組件消融后性能變化。表格從概率視覺-語言適配器、雙向多模態(tài)交互、軟補(bǔ)丁級對比損失三大核心模塊逐一做消融實(shí)驗(yàn)，其中概率PVL適配器是最核心模塊，移除后跨域OOD DSC直接下降23.79%，把概率注意力換成確定性版本，跨域精度也會下降15.90%，證明了概率化建模對醫(yī)學(xué)圖像跨域泛化的決定性作用，而雙向交互、殘差門控、軟補(bǔ)丁對比損失等設(shè)計(jì)，也分別帶來1%-4%的穩(wěn)定增益，尤其是軟標(biāo)簽對比損失替代硬標(biāo)簽后，模型泛化性明顯更優(yōu)。這證明了MedCLIPSeg的高性能不是單一設(shè)計(jì)帶來的，而是概率跨模態(tài)融合與雙向交互和軟對比監(jiān)督三者共同作用產(chǎn)生的，每個(gè)模塊都對解決醫(yī)學(xué)分割的泛化難題做出了貢獻(xiàn)。

3.4 不確定性與可靠性驗(yàn)證實(shí)驗(yàn)

圖3 不確定性與可靠性可視化圖

圖3是MedCLIPSeg論文最具臨床說服力的可視化圖，它分別展示了原始醫(yī)學(xué)圖像、分割結(jié)果與像素級不確定性熱力圖，且每個(gè)任務(wù)都包含訓(xùn)練見過的域內(nèi)數(shù)據(jù)（藍(lán)色標(biāo)注）和完全未見過的域外數(shù)據(jù)（紅色標(biāo)注）。圖中可見模型在所有數(shù)據(jù)集上的分割DSC均超過93%，預(yù)測結(jié)果與醫(yī)生標(biāo)注的標(biāo)準(zhǔn)幾乎完全重合，域外數(shù)據(jù)精度與域內(nèi)幾乎無差距，同時(shí)不確定性集中在病灶邊界這一最易出錯的區(qū)域，直觀證明了該模型不僅具備跨模態(tài)、跨設(shè)備的通用高精度分割能力。

四、總結(jié)

MedCLIPSeg將概率化視覺-語言建模引入醫(yī)學(xué)圖像分割領(lǐng)域，構(gòu)建了一個(gè)文本驅(qū)動的分割框架。它通過概率視覺-語言間的適配器實(shí)現(xiàn)了置信度加權(quán)的跨模態(tài)融合，用軟補(bǔ)丁級對比損失解決了醫(yī)學(xué)場景下的語義對齊難題，并在CLIP架構(gòu)中實(shí)現(xiàn)了與分割誤差強(qiáng)相關(guān)的像素級不確定性估計(jì)。該模型僅用10%標(biāo)注數(shù)據(jù)就超越了傳統(tǒng)全監(jiān)督方法，跨設(shè)備跨中心部署時(shí)性能下降幅度僅為傳統(tǒng)模型的三分之一，且能輸出符合臨床認(rèn)知的可解釋置信度提示。這項(xiàng)工作不僅超越了醫(yī)學(xué)分割的多項(xiàng)SOTA指標(biāo)，更證明了概率化跨模態(tài)建模是解決醫(yī)學(xué)AI落地的關(guān)鍵模塊，為實(shí)現(xiàn)安全、高效、通用的臨床智能診斷系統(tǒng)提供了全新的技術(shù)范式。