CVPR 2026 | 只給一個標(biāo)注樣本，擴(kuò)散模型也能做醫(yī)學(xué)圖像分割？深圳大學(xué)提出 SD-FSMIS

本文作者：陳淑瑜

2026-05-26 11:25

專題：CVPR 計算機(jī)視覺與模式識別會議

導(dǎo)語： FSMIS希望模型只依賴極少量標(biāo)注樣本，就能完成新器官、新類別或新域醫(yī)學(xué)圖像的分割。

來源：知乎“智能CV”

原文鏈接：https://zhuanlan.zhihu.com/p/2040370312253071756

CVPR 2026 | 只給一個標(biāo)注樣本，擴(kuò)散模型也能做醫(yī)學(xué)圖像分割？深圳大學(xué)提出 SD-FSMIS

論文：https://arxiv.org/pdf/2604.03134

代碼：https://github.com/Galaxy-Knight-Lee/SD-FSMIS

一、研究方向及背景

這篇論文聚焦于少樣本醫(yī)學(xué)圖像分割，即 Few-Shot Medical Image Segmentation，簡稱 FSMIS。該任務(wù)希望模型只依賴極少量標(biāo)注樣本，就能完成新器官、新類別或新域醫(yī)學(xué)圖像的分割。

醫(yī)學(xué)圖像分割在疾病診斷、放療計劃、個性化治療等臨床場景中非常重要，但其核心難點在于：高質(zhì)量像素級標(biāo)注成本高、不同醫(yī)院和設(shè)備帶來的域偏移明顯、目標(biāo)器官形態(tài)差異大。傳統(tǒng) FSMIS 方法多采用原型匹配、注意力交互或雙分支結(jié)構(gòu)，但這些方法通常需要從有限醫(yī)學(xué)數(shù)據(jù)中學(xué)習(xí)任務(wù)特定表示，面對跨模態(tài)、跨域場景時容易性能下降。

CVPR 2026 | 只給一個標(biāo)注樣本，擴(kuò)散模型也能做醫(yī)學(xué)圖像分割？深圳大學(xué)提出 SD-FSMIS

論文在圖1中對比了傳統(tǒng)方法和本文方法。傳統(tǒng)方法通常基于 CNN 或?qū)ｉT設(shè)計的 few-shot 網(wǎng)絡(luò)，通過 support 圖像和 mask 提取原型，再與 query 圖像進(jìn)行特征匹配；而本文不再從零構(gòu)建任務(wù)網(wǎng)絡(luò)，而是嘗試直接適配一個強(qiáng)大的預(yù)訓(xùn)練基礎(chǔ)模型——Stable Diffusion。作者認(rèn)為，大規(guī)模擴(kuò)散模型已經(jīng)從海量圖文數(shù)據(jù)中學(xué)習(xí)到了關(guān)于形狀、紋理和上下文的通用視覺先驗，這些先驗可以為醫(yī)學(xué)少樣本分割提供更強(qiáng)的魯棒性和跨域泛化能力。

二、研究方法或創(chuàng)新點

本文提出的方法名為 SD-FSMIS，核心思想是：把 Stable Diffusion 從文本到圖像生成模型，改造成一個能夠根據(jù)少量 support 樣本完成醫(yī)學(xué)圖像分割的 few-shot 分割框架。

1. 用 Stable Diffusion 的視覺先驗替代從零訓(xùn)練的任務(wù)網(wǎng)絡(luò)

傳統(tǒng) FSMIS 方法往往依賴任務(wù)特定網(wǎng)絡(luò)設(shè)計，而本文將 Stable Diffusion v1.5 作為主干模型，保留其 VAE 和 U-Net 結(jié)構(gòu)，并通過輕量化改造使其適配醫(yī)學(xué)圖像分割任務(wù)。

在圖2中，作者展示了 SD-FSMIS 的整體訓(xùn)練流程。Support 圖像、support mask 和 query 圖像首先經(jīng)過 Stable Diffusion 的 VAE 編碼器進(jìn)入 latent space。隨后，support 信息與 query 信息在 U-Net 中交互，最終生成 query mask 的 latent 表示，再通過 VAE 解碼器得到最終分割結(jié)果。

這種設(shè)計的關(guān)鍵優(yōu)勢在于：模型不是從有限醫(yī)學(xué)訓(xùn)練集里重新學(xué)習(xí)視覺規(guī)律，而是復(fù)用 Stable Diffusion 中已經(jīng)存在的通用視覺知識。

2. Support-Query Interaction：在擴(kuò)散模型內(nèi)部引入支持集與查詢圖像交互

Few-shot 分割的關(guān)鍵是讓模型理解 support 圖像中“要分割什么”，再把這種類別信息遷移到 query 圖像上。為此，作者提出了 Support-Query Interaction，簡稱 SQI。

SQI 包含兩個部分：

第一是 Support Information Injection，SII。如圖3所示，作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之間，額外加入一個 cross-attention 層，讓 query 特征去關(guān)注 support 特征。這樣，support 圖像和 support mask 中的目標(biāo)類別信息可以直接注入 query 特征。

第二是 Query Enhancement，QE。作者借鑒 prototype-based few-shot segmentation 的思想，從 support latent 中提取 foreground prototype，再用它與 query latent 計算相似度，篩選出 query 中可能屬于目標(biāo)區(qū)域的特征，形成 query prototype，并與原 query latent 拼接。這個模塊在圖2的黃色區(qū)域中展示，作用是進(jìn)一步增強(qiáng) query 表示，使其更貼近 support 中指定的器官類別。

3. Visual-to-Textual Condition Translator：把視覺提示翻譯成 Stable Diffusion 能理解的“文本條件”

Stable Diffusion 原本依賴文本 embedding 來控制生成過程。但在醫(yī)學(xué)圖像分割中，輸入條件并不是自然語言，而是 support 圖像和 support mask。為了解決這個不匹配問題，作者提出 Visual-to-Textual Condition Translator，簡稱 VTCT。

VTCT 的作用是把 support 圖像中的視覺類別信息轉(zhuǎn)換成類似文本 embedding 的條件向量。具體來說，作者使用凍結(jié)的 DINOv2-small 圖像編碼器提取 support 圖像特征，再通過 support mask 做 Masked Average Pooling，得到目標(biāo)器官的視覺原型，最后用一個可學(xué)習(xí) MLP 將其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空間。

這一模塊在圖2紅色區(qū)域中展示。它的意義在于：不是簡單使用空文本提示，而是讓模型通過 support 圖像自動生成“隱式文本條件”，從而更精準(zhǔn)地引導(dǎo) Stable Diffusion 關(guān)注目標(biāo)器官。

4. 單步擴(kuò)散預(yù)測，提高分割效率

在推理階段，SD-FSMIS 并不進(jìn)行復(fù)雜的多步擴(kuò)散采樣，而是采用 single-step x0 prediction。如圖4所示，support 與 query 被編碼到 latent space 后，U-Net 在 VTCT 生成的條件引導(dǎo)下，直接一步預(yù)測 query mask latent，再由 VAE decoder 解碼得到最終 mask。

這種設(shè)計降低了擴(kuò)散模型用于分割時的推理成本，使其更適合醫(yī)學(xué)圖像分割任務(wù)。

三、實驗結(jié)果

1. 標(biāo)準(zhǔn) FSMIS 設(shè)置下取得競爭性結(jié)果

論文在 Abd-MRI 和 Abd-CT 兩個腹部醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實驗，分割目標(biāo)包括 spleen、liver、left kidney 和 right kidney。評價指標(biāo)主要為 Dice Similarity Coefficient。

在表1中，作者比較了 SD-FSMIS 與 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 數(shù)據(jù)集上，SD-FSMIS 的平均 Dice 與當(dāng)前強(qiáng)方法 DIFD 接近；在 Abd-CT 數(shù)據(jù)集上，本文方法優(yōu)勢更明顯。

例如，在 Setting 1 下，SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice，超過此前最優(yōu)的 DIFD 的 80.19%。在 Setting 2 下，SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice，同樣明顯優(yōu)于 DIFD 的 79.85%。

這說明，在標(biāo)準(zhǔn)少樣本醫(yī)學(xué)圖像分割場景下，SD-FSMIS 已經(jīng)具備很強(qiáng)競爭力。

2. 跨域場景下優(yōu)勢更突出

本文最重要的實驗亮點是跨域少樣本醫(yī)學(xué)圖像分割，即從 CT 遷移到 MRI，或從 MRI 遷移到 CT。該場景比普通 few-shot 更接近真實臨床，因為不同模態(tài)之間存在顯著域差異。

在表2中，作者展示了 Setting 1 下的跨域?qū)嶒灲Y(jié)果。SD-FSMIS 在 Abd-CT → MRI 任務(wù)上達(dá)到 81.42% 平均 Dice，在 Abd-MRI → CT 任務(wù)上達(dá)到 75.90% 平均 Dice，均超過此前方法。其中，DiffewS 已經(jīng)利用擴(kuò)散模型先驗并表現(xiàn)較強(qiáng)，但 SD-FSMIS 仍進(jìn)一步提升，說明 SQI 與 VTCT 對擴(kuò)散模型適配是有效的。

補充材料中的表6進(jìn)一步展示了更嚴(yán)格 Setting 2 下的跨域結(jié)果。SD-FSMIS 在 Abd-CT → MRI 上達(dá)到 80.54%，相比 DIFD 的 69.13% 提升 11.41%；在 Abd-MRI → CT 上達(dá)到 74.82%，相比 DIFD 的 57.93% 提升 16.89%。這充分體現(xiàn)了本文方法在跨模態(tài)泛化上的優(yōu)勢。

3. 可視化結(jié)果顯示分割更穩(wěn)定、邊界更準(zhǔn)確

圖5給出了 SD-FSMIS 與 DiffewS 的可視化對比?？梢钥吹?，在 Abd-MRI、Abd-CT 以及跨域場景中，SD-FSMIS 對不同形態(tài)、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS，本文方法在器官邊界、局部結(jié)構(gòu)和復(fù)雜背景下更穩(wěn)定。

補充材料中的圖6比較了 SD-FSMIS 與 UniverSeg、MultiverSeg 等通用醫(yī)學(xué)分割模型。結(jié)果顯示，在 1-shot 設(shè)置下，通用模型容易出現(xiàn)目標(biāo)定位不準(zhǔn)、邊界混淆或背景組織誤分割，而 SD-FSMIS 能更準(zhǔn)確地區(qū)分目標(biāo)器官與相似組織。

4. 消融實驗驗證每個模塊都有效

在表3中，作者對 SII、QE 和 VTCT 三個關(guān)鍵模塊做了消融實驗。僅使用 SII 時，模型在 Abd-CT Setting 1 上的平均 Dice 為 80.11%。加入 QE 后提升到 83.17%；加入 VTCT 后提升到 82.27%；三者全部使用時達(dá)到最高的 83.66%。

這說明：

SII 是基礎(chǔ)，它實現(xiàn) support 信息向 query 的注入；
QE 能增強(qiáng) query latent 中目標(biāo)區(qū)域的表示；
VTCT 能把 support 視覺信息轉(zhuǎn)化為更有效的條件引導(dǎo)；
三者組合后具有互補效果。

5. Stable Diffusion 版本對性能有影響

表4比較了 Stable Diffusion 1.5 和 2.1 作為骨干時的性能。SD 1.5 的平均 Dice 為 83.66%，高于 SD 2.1 的 82.84%。作者認(rèn)為，SD 1.5 的預(yù)訓(xùn)練數(shù)據(jù)更寬泛，保留了更通用的視覺先驗，因此更適合遷移到醫(yī)學(xué)圖像結(jié)構(gòu)和紋理理解任務(wù)中。

6. 失敗案例揭示未來改進(jìn)方向

補充材料中的圖7展示了失敗案例。SD-FSMIS 在部分 Abd-MRI 圖像上仍會出現(xiàn)肝臟分割不完整、左腎受高顯著區(qū)域干擾、脾臟和左腎距離較近時發(fā)生誤合并等問題。作者認(rèn)為，這主要來自醫(yī)學(xué)圖像低對比度邊界和復(fù)雜器官空間關(guān)系。未來可以通過更強(qiáng)的邊界建模或注意力機(jī)制進(jìn)一步改進(jìn)。

圖8展示訓(xùn)練過程可視化，模型在訓(xùn)練早期就能較好分割簡單類別，在約 5000 次迭代時對肝臟等復(fù)雜類別也能形成較好的分割結(jié)果。這從側(cè)面說明擴(kuò)散模型先驗確實為少樣本分割提供了較強(qiáng)初始化能力。

四、總結(jié)

這篇論文的核心貢獻(xiàn)在于：它沒有繼續(xù)沿著傳統(tǒng) FSMIS 方法“設(shè)計更復(fù)雜專用網(wǎng)絡(luò)”的路線前進(jìn)，而是提出了一種更具基礎(chǔ)模型思維的新范式——將預(yù)訓(xùn)練 Stable Diffusion 適配到少樣本醫(yī)學(xué)圖像分割中。

SD-FSMIS 通過 SQI 實現(xiàn) support-query 交互，通過 VTCT 把 support 視覺信息轉(zhuǎn)化為 text-like condition，再通過 QE 增強(qiáng) query latent 表示，從而讓 Stable Diffusion 的通用視覺先驗服務(wù)于醫(yī)學(xué)圖像分割任務(wù)。實驗結(jié)果表明，該方法不僅在標(biāo)準(zhǔn) FSMIS 設(shè)置下表現(xiàn)優(yōu)異，更在跨 CT/MRI 的跨域場景中展現(xiàn)出明顯優(yōu)勢。

從研究意義上看，這篇論文說明：大規(guī)模生成模型不僅可以用于圖像生成，也可以被有效改造為醫(yī)學(xué)圖像理解和分割工具。對于標(biāo)注稀缺、域偏移嚴(yán)重的醫(yī)學(xué)場景而言，這種“適配基礎(chǔ)模型”的路線可能比從零訓(xùn)練專用模型更具潛力。