CVPR 2026 I SD-FSMIS：把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

本文作者：陳淑瑜

2026-06-04 14:56

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：醫(yī)學(xué)圖像分割一直有一個(gè)繞不開(kāi)的問(wèn)題：標(biāo)注太貴，而且很難覆蓋所有臨床場(chǎng)景。

來(lái)源：公眾號(hào)“HiLab實(shí)驗(yàn)室”

原文鏈接：https://mp.weixin.qq.com/s/0qp3IN0hdHGTzjn3BAUOBg?scene=1&click_id=45

CVPR 2026 I SD-FSMIS：把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

Overview

論文標(biāo)題：

SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation

論文鏈接：

https://arxiv.org/abs/2604.03134

Abstract

醫(yī)學(xué)圖像分割一直有一個(gè)繞不開(kāi)的問(wèn)題：標(biāo)注太貴，而且很難覆蓋所有臨床場(chǎng)景。

比如不同醫(yī)院的掃描協(xié)議、設(shè)備型號(hào)、成像模態(tài)，甚至病人的個(gè)體差異，都會(huì)讓模型在換一個(gè)數(shù)據(jù)域后明顯掉點(diǎn)。對(duì)于深度學(xué)習(xí)分割模型來(lái)說(shuō)，模型越依賴大量精細(xì)標(biāo)注，越容易被真實(shí)臨床里的數(shù)據(jù)變化卡住。

這篇文章關(guān)注的是少樣本醫(yī)學(xué)圖像分割（FSMIS）：只給模型極少量帶掩膜的支持樣本，讓它去分割查詢圖像中的同類器官或結(jié)構(gòu)。傳統(tǒng)FSMIS通常會(huì)圍繞支持-查詢匹配、原型學(xué)習(xí)、注意力交互去設(shè)計(jì)網(wǎng)絡(luò)。如圖1所示，這類方法一般先用任務(wù)特定網(wǎng)絡(luò)分別提取支持和查詢特征，再?gòu)挠邢拗С謽颖局猩深悇e原型，最后通過(guò)特征匹配得到預(yù)測(cè)掩膜。然而，由于缺乏足夠強(qiáng)的通用視覺(jué)先驗(yàn)，這類方法在數(shù)據(jù)有限、視覺(jué)變化復(fù)雜或跨域場(chǎng)景下往往容易退化。

作者在本篇文章中提出了SD-FSMIS，它不是重新從頭設(shè)計(jì)一個(gè)醫(yī)學(xué)分割網(wǎng)絡(luò)，而是嘗試把預(yù)訓(xùn)練Stable Diffusion改造成一個(gè)少樣本分割框架。實(shí)驗(yàn)結(jié)果表明：不僅標(biāo)準(zhǔn)FSMIS場(chǎng)景下表現(xiàn)不錯(cuò)，在CT→MRI、MRI→CT這種跨域設(shè)置里，優(yōu)勢(shì)反而更明顯。

圖1：傳統(tǒng) fully supervised FSMIS方法與SD-FSMIS的對(duì)比

Background

1.為什么少樣本醫(yī)學(xué)圖像分割重要？

醫(yī)學(xué)圖像分割通常需要醫(yī)生或?qū)I(yè)標(biāo)注人員進(jìn)行逐像素標(biāo)注，這一過(guò)程不僅耗時(shí)，而且成本很高。對(duì)于罕見(jiàn)病灶、新器官結(jié)構(gòu)或新成像協(xié)議下的數(shù)據(jù)，收集大規(guī)模標(biāo)注集往往并不現(xiàn)實(shí)。因此，如何讓模型在僅有少量標(biāo)注樣本的情況下快速適應(yīng)新類別，是醫(yī)學(xué)圖像分析中的關(guān)鍵問(wèn)題。

FSMIS正是為了解決這一問(wèn)題而提出：給定少量圖像-標(biāo)注對(duì)，模型需要對(duì)查詢圖像中相同類別的結(jié)構(gòu)進(jìn)行分割。這種設(shè)定更貼近真實(shí)臨床場(chǎng)景，因?yàn)榕R床中經(jīng)常出現(xiàn)標(biāo)注稀缺、類別變化和數(shù)據(jù)分布漂移的問(wèn)題。

2.現(xiàn)有FSMIS方法的局限

已有方法主要沿著兩條路線發(fā)展：

一類是原型匹配方法，即從支持集中提取類別原型，再與查詢圖像特征進(jìn)行匹配；另一類是支持-查詢交互方法，通過(guò)注意力、雙分支網(wǎng)絡(luò)或多尺度對(duì)齊機(jī)制增強(qiáng)支持圖像和查詢圖像之間的聯(lián)系。

這些方法雖然在標(biāo)準(zhǔn)設(shè)置下取得了不錯(cuò)效果，但仍然存在一個(gè)核心問(wèn)題：它們通常是在有限醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練得到的任務(wù)特定模型，因此學(xué)到的視覺(jué)先驗(yàn)較窄。當(dāng)測(cè)試數(shù)據(jù)來(lái)自新的模態(tài)、新設(shè)備或新的解剖分布時(shí)，模型容易出現(xiàn)明顯性能退化。

3.為什么考慮Stable Diffusion？

Stable Diffusion這類大規(guī)模擴(kuò)散模型在海量數(shù)據(jù)上訓(xùn)練，具備較強(qiáng)的紋理、形狀和上下文建模能力。雖然它最初主要用于圖像生成任務(wù)，但近年來(lái)已有研究發(fā)現(xiàn)，擴(kuò)散模型內(nèi)部特征也可以遷移到語(yǔ)義對(duì)應(yīng)、像素級(jí)預(yù)測(cè)、開(kāi)放詞匯分割等視覺(jué)理解任務(wù)中。

本文的出發(fā)點(diǎn)是：如果Stable Diffusion已經(jīng)具備豐富的通用視覺(jué)先驗(yàn)，那么是否可以通過(guò)較小的適配成本，將這些先驗(yàn)遷移到少樣本醫(yī)學(xué)圖像分割中。

Contributions

本文的主要貢獻(xiàn)可以概括為以下三點(diǎn)：

1. 提出一種新的FSMIS范式：從“重新設(shè)計(jì)任務(wù)網(wǎng)絡(luò)”轉(zhuǎn)向“適配大規(guī)模生成式基礎(chǔ)模型”。

以往FSMIS方法大多圍繞支持-查詢匹配、原型生成或注意力交互進(jìn)行結(jié)構(gòu)設(shè)計(jì)，但這些模型通常受限于醫(yī)學(xué)訓(xùn)練數(shù)據(jù)規(guī)模，面對(duì)跨模態(tài)或跨域數(shù)據(jù)時(shí)容易性能下降。本文則嘗試?yán)肧table Diffusion中已有的豐富視覺(jué)先驗(yàn)，為少樣本醫(yī)學(xué)圖像分割提供更強(qiáng)的基礎(chǔ)表征。

2.提出SD-FSMIS框架，將Stable Diffusion的條件生成結(jié)構(gòu)改造為少樣本分割框架。

文章引入兩個(gè)關(guān)鍵組件：Support-Query Interaction和Visual-to-Textual Condition Translator。前者用于增強(qiáng)支持圖像與查詢圖像之間的信息交互，后者將支持集中的視覺(jué)線索轉(zhuǎn)換為類似文本條件的嵌入，從而讓Stable Diffusion以其熟悉的條件機(jī)制完成醫(yī)學(xué)結(jié)構(gòu)定位。

3.在標(biāo)準(zhǔn)FSMIS和跨域FSMIS場(chǎng)景下驗(yàn)證了方法的有效性。

實(shí)驗(yàn)結(jié)果顯示，SD-FSMIS在Abd-MRI和Abd-CT數(shù)據(jù)集上均取得強(qiáng)性能，尤其在CT→MRI、MRI→CT等跨域設(shè)置中，相比傳統(tǒng)少樣本分割方法和擴(kuò)散模型基線都有明顯優(yōu)勢(shì)，說(shuō)明大規(guī)模生成模型的視覺(jué)先驗(yàn)對(duì)醫(yī)學(xué)場(chǎng)景中的domain shift具有較強(qiáng)緩解作用。

Method

SD-FSMIS 模型總體

SD-FSMIS的核心思想是：不再?gòu)牧阍O(shè)計(jì)一個(gè)少樣本醫(yī)學(xué)分割網(wǎng)絡(luò)，而是把預(yù)訓(xùn)練Stable Diffusion當(dāng)作一個(gè)具有強(qiáng)視覺(jué)先驗(yàn)的基礎(chǔ)模型，再把它改造成少樣本分割模型。傳統(tǒng)FSMIS方法通常依賴支持-查詢特征匹配、原型匹配或注意力融合，而SD-FSMIS認(rèn)為Stable Diffusion已經(jīng)在大規(guī)模圖文數(shù)據(jù)上學(xué)到了豐富的形狀、紋理和上下文先驗(yàn)，這些先驗(yàn)可以幫助模型在少樣本醫(yī)學(xué)圖像中更好地泛化。論文的方法主要由兩個(gè)關(guān)鍵模塊組成：Support-Query Interaction（支持-查詢交互模塊，SQI）和Visual-to-Textual Condition Translator（視覺(jué)到文本條件轉(zhuǎn)換模塊，VTCT）。

可以把整個(gè)方法拆成四個(gè)階段：

●潛空間編碼階段：使用Stable Diffusion自帶的VAE編碼器，把支持圖像、支持標(biāo)注和查詢圖像都編碼到潛空間。

●支持-查詢交互階段：通過(guò)SQI模塊，把支持集中的目標(biāo)類別信息注入查詢的處理過(guò)程。

●視覺(jué)條件翻譯階段：通過(guò)VTCT模塊，把支持圖像中的目標(biāo)區(qū)域視覺(jué)特征轉(zhuǎn)換成類似文本嵌入的條件向量，用來(lái)指導(dǎo)Stable Diffusion的U-Net。

●掩膜預(yù)測(cè)階段：U-Net在支持信息和隱式文本條件的共同引導(dǎo)下，直接預(yù)測(cè)查詢掩膜潛特征，再由VAE解碼器解碼得到最終分割結(jié)果。

任務(wù)設(shè)定：少樣本醫(yī)學(xué)圖像分割

SD-FSMIS采用標(biāo)準(zhǔn)的基于任務(wù)單元的少樣本分割設(shè)定。每個(gè)任務(wù)單元包含一個(gè)支持集和一個(gè)查詢集。支持集中有少量帶掩膜的樣本，查詢集中有需要預(yù)測(cè)掩膜的圖像。論文主要采用單類別單樣本設(shè)定，即每次任務(wù)只分割一個(gè)目標(biāo)類別，并且只有一個(gè)標(biāo)注支持樣本可用。模型需要從支持圖像和支持標(biāo)注中理解“這次要分割什么結(jié)構(gòu)”，然后在查詢圖像上找出同類結(jié)構(gòu)。

這個(gè)設(shè)定和普通醫(yī)學(xué)圖像分割不同。普通分割通常在固定類別上訓(xùn)練和測(cè)試，例如一直分割肝臟或腎臟；而少樣本分割更強(qiáng)調(diào)泛化能力，即模型在測(cè)試階段可能遇到訓(xùn)練時(shí)沒(méi)有顯式學(xué)習(xí)過(guò)的新器官或新域數(shù)據(jù)。因此，SD-FSMIS的關(guān)鍵不是單純擬合某個(gè)器官類別，而是學(xué)習(xí)如何利用支持樣本動(dòng)態(tài)地指導(dǎo)查詢分割。

Stable Diffusion作為分割骨干

SD-FSMIS使用Stable Diffusion v1.5作為基礎(chǔ)模型。原本的Stable Diffusion是一個(gè)文本生成圖像模型，輸入文本條件后，通過(guò)U-Net在潛空間中逐步去噪生成圖像。SD-FSMIS并不是直接用它生成醫(yī)學(xué)圖像，而是重新利用它的潛擴(kuò)散結(jié)構(gòu)，把“圖像生成”任務(wù)改造成“掩膜預(yù)測(cè)”任務(wù)。論文使用的是Stable Diffusion的VAE、U-Net和交叉注意力機(jī)制，其中VAE保持凍結(jié)，用于把圖像和掩膜映射到潛空間，再?gòu)臐摽臻g解碼回像素空間。

由于Stable Diffusion的VAE原本接收3通道RGB圖像，而醫(yī)學(xué)圖像和二值分割掩膜通常是單通道，作者采用了一個(gè)簡(jiǎn)單處理：把單通道醫(yī)學(xué)圖像和掩膜復(fù)制成3通道偽RGB輸入，并把像素值歸一化到Stable Diffusion需要的范圍。推理時(shí)，VAE解碼器輸出3通道掩膜，作者再對(duì)三個(gè)通道取平均，得到最終單通道分割掩膜。

這樣做的好處是最大程度復(fù)用Stable Diffusion的原始組件，不需要重新訓(xùn)練一個(gè)醫(yī)學(xué)圖像專用VAE，也避免了少樣本場(chǎng)景下模型參數(shù)過(guò)多導(dǎo)致的過(guò)擬合問(wèn)題。

圖2:SD-FSMIS 總體流程

圖2展示了SD-FSMIS的整體流程。首先，支持圖像、支持標(biāo)注和查詢圖像都會(huì)經(jīng)過(guò)凍結(jié)的VAE編碼器，被映射到潛空間中，得到對(duì)應(yīng)的潛空間表示。

接著，支持圖像潛特征和支持標(biāo)注潛特征會(huì)在通道維度上進(jìn)行拼接，形成帶有類別提示的信息輸入；查詢圖像潛特征則經(jīng)過(guò)查詢?cè)鰪?qiáng)模塊處理，得到增強(qiáng)后的查詢潛特征。

隨后，這些潛空間特征會(huì)被送入修改后的Stable Diffusion U-Net。這里的U-Net不再用于生成自然圖像，而是在支持信息和VTCT生成的隱式文本條件共同引導(dǎo)下，預(yù)測(cè)查詢圖像對(duì)應(yīng)的掩膜潛特征。

最后，VAE解碼器將預(yù)測(cè)得到的掩膜潛特征解碼回圖像空間，得到最終的分割結(jié)果。

核心模塊一：Support-Query Interaction（SQI）

SQI是SD-FSMIS中負(fù)責(zé)少樣本信息傳遞的核心模塊。它的作用是讓查詢圖像在分割過(guò)程中能夠顯式利用支持圖像和支持標(biāo)注提供的類別信息。

傳統(tǒng)少樣本分割方法通常通過(guò)原型匹配或特征相關(guān)性計(jì)算來(lái)建立支持與查詢之間的聯(lián)系。不同的是，SD-FSMIS將這種支持-查詢交互直接嵌入到Stable Diffusion的U-Net注意力模塊中。也就是說(shuō)，模型不是在外部單獨(dú)設(shè)計(jì)一個(gè)匹配模塊，而是在擴(kuò)散模型原有的U-Net結(jié)構(gòu)內(nèi)部完成支持樣本到查詢樣本的信息傳遞，從而更充分地利用預(yù)訓(xùn)練Stable Diffusion中的視覺(jué)先驗(yàn)。

SQI包含兩個(gè)部分：

●Support Information Injection，SII

Stable Diffusion的U-Net中包含基礎(chǔ)Transformer模塊，原始結(jié)構(gòu)通常由自注意力、交叉注意力和前饋網(wǎng)絡(luò)組成。SD-FSMIS在自注意力之后額外加入了一個(gè)支持到查詢的交叉注意力模塊。具體來(lái)說(shuō)，模型將查詢圖像的潛空間特征作為查詢項(xiàng)，將支持圖像的潛空間特征作為鍵和值，使查詢特征能夠主動(dòng)關(guān)注支持中與目標(biāo)類別相關(guān)的區(qū)域。這樣，支持標(biāo)注提供的類別提示就可以在U-Net內(nèi)部傳遞到查詢分支，從而指導(dǎo)最終的分割預(yù)測(cè)。

●Query Enhancement，QE

僅僅讓查詢圖像關(guān)注支持圖像還不夠，因?yàn)獒t(yī)學(xué)圖像中不同器官可能形態(tài)差異大、邊界模糊，而且灰度分布相近。因此，QE模塊進(jìn)一步借鑒原型學(xué)習(xí)的思想，對(duì)查詢圖像的潛空間特征進(jìn)行增強(qiáng)。

具體來(lái)說(shuō)，模型首先根據(jù)支持標(biāo)注，在支持圖像的潛空間特征上進(jìn)行掩膜平均池化，得到目標(biāo)區(qū)域的前景原型。然后，模型計(jì)算查詢圖像特征與該前景原型之間的余弦相似度，從而找到查詢圖像中可能屬于目標(biāo)類別的區(qū)域。作者設(shè)定相似度閾值為0.7，篩選出高相似度區(qū)域，并對(duì)這些區(qū)域的特征求平均，得到查詢?cè)?。最后，將查詢?cè)蛿U(kuò)展到與原始特征相同的空間尺寸，并與原始查詢特征拼接，形成增強(qiáng)后的查詢表示。

可以理解為，SII負(fù)責(zé)“讓查詢看支持”，QE負(fù)責(zé)“讓查詢自己內(nèi)部先找到疑似目標(biāo)區(qū)域”。前者強(qiáng)調(diào)支持-查詢交互，后者強(qiáng)調(diào)查詢的目標(biāo)區(qū)域增強(qiáng)。

圖3:修改后的 BasicTransformerBlock

圖3展示了作者對(duì)Stable Diffusion中U-Net基礎(chǔ)Transformer模塊的修改。原始Stable Diffusion主要用于根據(jù)文本條件生成圖像，因此其中的交叉注意力模塊通常用來(lái)讓圖像潛特征接收文本特征的引導(dǎo)。

而在SD-FSMIS中，作者在這個(gè)結(jié)構(gòu)里額外加入了支持信息注入模塊。它的作用是讓查詢圖像的潛特征先與支持圖像的潛特征進(jìn)行交互，再接受由視覺(jué)到文本條件轉(zhuǎn)換模塊生成的條件信息。這個(gè)改動(dòng)很關(guān)鍵，因?yàn)樯贅颖痉指畹暮诵奶崾静⒉皇亲匀徽Z(yǔ)言中的類別名稱，而是支持圖像和支持標(biāo)注本身。也就是說(shuō)，模型需要從支持樣本中理解“要分割什么”，再把這個(gè)信息傳遞給查詢圖像的分割過(guò)程。

核心模塊二：

Visual-to-Textual Condition Translator（VTCT）

VTCT是SD-FSMIS的另一個(gè)關(guān)鍵創(chuàng)新。Stable Diffusion原本擅長(zhǎng)根據(jù)文本嵌入進(jìn)行條件生成，但在醫(yī)學(xué)少樣本分割中，支持集提供的條件并不是文字，而是一張醫(yī)學(xué)圖像及其對(duì)應(yīng)的分割標(biāo)注。如果直接使用空文本嵌入，模型就無(wú)法明確當(dāng)前要分割的目標(biāo)結(jié)構(gòu)。因此，作者設(shè)計(jì)了VTCT，將支持圖像中目標(biāo)區(qū)域的視覺(jué)信息轉(zhuǎn)換成Stable Diffusion能夠利用的“隱式文本條件”。

VTCT的流程可以概括為三步。首先，模型使用一個(gè)凍結(jié)的預(yù)訓(xùn)練圖像編碼器提取支持圖像的視覺(jué)特征，論文中采用的是DINOv2-small。然后，利用支持標(biāo)注對(duì)支持圖像特征進(jìn)行掩膜平均池化，只聚合目標(biāo)區(qū)域的前景特征，從而得到與當(dāng)前類別相關(guān)的視覺(jué)原型。最后，這個(gè)視覺(jué)原型會(huì)被送入一個(gè)可學(xué)習(xí)的MLP，并映射到Stable Diffusion中U-Net交叉注意力所需的文本嵌入空間，生成用于引導(dǎo)分割的隱式文本條件。

這個(gè)設(shè)計(jì)的意義在于，模型不需要人工編寫(xiě)提示詞，例如“肝臟”或“腎臟”，也不依賴類別名稱是否準(zhǔn)確。它直接從支持圖像中提取“這次要分割的目標(biāo)長(zhǎng)什么樣”，再把這個(gè)視覺(jué)信息轉(zhuǎn)換成Stable Diffusion原本熟悉的條件格式。也就是說(shuō)，VTCT相當(dāng)于一個(gè)從視覺(jué)到語(yǔ)義的橋梁，把醫(yī)學(xué)圖像中的類別提示轉(zhuǎn)換成擴(kuò)散模型可以利用的條件信號(hào)。

訓(xùn)練目標(biāo)：從查詢圖像潛特征預(yù)測(cè)分割掩膜潛特征

SD-FSMIS的訓(xùn)練目標(biāo)比較直接。模型輸入支持圖像、支持標(biāo)注和查詢圖像，輸出查詢掩膜的潛空間預(yù)測(cè)結(jié)果。訓(xùn)練時(shí)的監(jiān)督信號(hào)來(lái)自真實(shí)查詢掩膜經(jīng)過(guò)VAE編碼器后得到的掩膜潛特征。作者使用MSE損失約束預(yù)測(cè)掩膜潛特征和真實(shí)掩膜潛特征之間的差異。

這和普通醫(yī)學(xué)圖像分割常用的交叉熵?fù)p失或Dice損失不同。SD-FSMIS并不是直接在像素空間預(yù)測(cè)每個(gè)像素屬于前景或背景的概率，而是在Stable Diffusion的潛空間中學(xué)習(xí)如何生成分割掩膜。這樣做可以更自然地復(fù)用Stable Diffusion原有的U-Net結(jié)構(gòu)和潛擴(kuò)散表示能力。

在具體實(shí)現(xiàn)中，論文還采用單步DDIM調(diào)度器，并將時(shí)間步設(shè)置為999。這樣，模型可以用一步預(yù)測(cè)完成掩膜潛特征的生成，而不需要像標(biāo)準(zhǔn)擴(kuò)散采樣那樣進(jìn)行多輪迭代去噪。因此，SD-FSMIS本質(zhì)上是把擴(kuò)散模型的潛空間生成能力簡(jiǎn)化為一次性的掩膜潛特征預(yù)測(cè)，從而更適合分割任務(wù)。

推理流程：?jiǎn)尾筋A(yù)測(cè)查詢圖像的分割結(jié)果

推理階段不需要重新訓(xùn)練模型。給定一個(gè)支持圖像-標(biāo)注對(duì)和一個(gè)查詢圖像，模型首先通過(guò)VAE編碼器將它們映射到潛空間，得到對(duì)應(yīng)的潛特征。

隨后，支持圖像潛特征和支持標(biāo)注潛特征會(huì)在通道維度上拼接，并作為帶有類別提示的信息輸入到U-Net中。與此同時(shí)，查詢潛特征會(huì)經(jīng)過(guò)QE模塊進(jìn)一步強(qiáng)化目標(biāo)相關(guān)區(qū)域；VTCT則從支持圖像前景區(qū)域中提取目標(biāo)視覺(jué)信息，并生成隱式文本條件。

最后，U-Net在支持樣本信息和隱式文本條件的共同引導(dǎo)下，直接預(yù)測(cè)查詢掩膜潛特征。預(yù)測(cè)結(jié)果再經(jīng)過(guò)VAE解碼器解碼回像素空間，并通過(guò)通道平均得到最終的二值分割掩膜。整體來(lái)看，SD-FSMIS的推理過(guò)程可以理解為：支持樣本告訴模型“要分割什么”，查詢圖像提供“在哪里找目標(biāo)”，擴(kuò)散模型則利用已有視覺(jué)先驗(yàn)完成最終分割。

方法總結(jié)

SD-FSMIS的方法貢獻(xiàn)可以概括為三點(diǎn)。

第一，它將Stable Diffusion從文本生成圖像模型改造成少樣本醫(yī)學(xué)圖像分割模型，證明擴(kuò)散模型中學(xué)到的視覺(jué)先驗(yàn)不僅可以用于圖像生成，也可以用于醫(yī)學(xué)圖像中的密集預(yù)測(cè)任務(wù)。

第二，它提出了SQI模塊，在Stable Diffusion的U-Net潛空間注意力結(jié)構(gòu)中建立支持圖像和查詢圖像之間的信息交互，使support mask中的類別提示能夠有效傳遞到query圖像的分割過(guò)程中。

第三，它提出了VTCT模塊，將支持圖像前景區(qū)域的視覺(jué)信息轉(zhuǎn)換成隱式文本條件，使模型能夠繼續(xù)利用Stable Diffusion原有的條件生成機(jī)制，而不是簡(jiǎn)單使用空文本提示或完全丟棄文本條件分支。

總體而言，SD-FSMIS的核心不是“用擴(kuò)散模型生成更多醫(yī)學(xué)數(shù)據(jù)”，而是直接把Stable Diffusion適配成一個(gè)少樣本分割模型。它的優(yōu)勢(shì)在于充分利用大規(guī)模預(yù)訓(xùn)練擴(kuò)散模型中的通用視覺(jué)先驗(yàn)，并通過(guò)少量結(jié)構(gòu)修改，將這些先驗(yàn)遷移到醫(yī)學(xué)少樣本分割任務(wù)中。

圖5：BUSGen 用于乳腺癌預(yù)后相關(guān)指標(biāo)預(yù)測(cè)。圖5a 展示 TNBC 與 non-TNBC 分子亞型分類結(jié)果；圖5b 展示腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài)分類結(jié)果；圖5c 和圖5d 展示不同模型的特征分布；圖5e 和圖5f 展示模型在預(yù)測(cè)不同預(yù)后指標(biāo)時(shí)關(guān)注的關(guān)鍵影像區(qū)域。

Experiments

實(shí)驗(yàn)設(shè)置

本文主要在Abd-MRI和Abd-CT兩個(gè)腹部醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行評(píng)估，任務(wù)目標(biāo)包括脾臟、肝臟、左腎和右腎等器官結(jié)構(gòu)。評(píng)價(jià)指標(biāo)采用醫(yī)學(xué)分割中常用的Dice相似系數(shù)，DSC。

所有實(shí)驗(yàn)均在單樣本設(shè)置下進(jìn)行，并采用五折交叉驗(yàn)證來(lái)保證評(píng)估穩(wěn)定性。文章還設(shè)置了兩種更具挑戰(zhàn)性的測(cè)試條件：
設(shè)置1中，測(cè)試類別可能以未標(biāo)注背景形式出現(xiàn)在訓(xùn)練切片中；
設(shè)置2中，包含測(cè)試類別的訓(xùn)練切片會(huì)被直接移除，因此模型在訓(xùn)練階段完全沒(méi)有見(jiàn)過(guò)目標(biāo)結(jié)構(gòu)，這一設(shè)置更接近真實(shí)臨床中的跨域泛化問(wèn)題。

與現(xiàn)有先進(jìn)方法的對(duì)比

在Abd-MRI和Abd-CT數(shù)據(jù)集上，SD-FSMIS與PANet、SENet、SSL-ALPNet、ADNet、RPT、DIFD、DiffewS等方法進(jìn)行了對(duì)比，具體定量結(jié)果如表 1 所示。

標(biāo)準(zhǔn)FSMIS設(shè)置中，SD-FSMIS整體表現(xiàn)具有競(jìng)爭(zhēng)力。尤其在Abd-CT數(shù)據(jù)集上，SD-FSMIS在Setting 1和Setting 2中的平均Dice均超過(guò)已有最優(yōu)方法，說(shuō)明其在CT圖像中對(duì)器官結(jié)構(gòu)的定位和邊界恢復(fù)能力較強(qiáng)。

而且相比DiffewS這類同樣引入擴(kuò)散模型思想的方法，SD-FSMIS取得了更高的平均Dice。表明僅僅利用擴(kuò)散模型的視覺(jué)表征還不夠，如何有效引導(dǎo)support信息、如何構(gòu)造適合醫(yī)學(xué)分割的條件信號(hào)，是更為關(guān)鍵。

表 1：SD-FSMIS 與現(xiàn)有 few-shot medical image segmentation 方法在 Abd-MRI 和 Abd-CT 數(shù)據(jù)集上的 Dice (%) 定量對(duì)比

跨域?qū)嶒?yàn)結(jié)果

本文還重點(diǎn)評(píng)估了Cross-Domain FSMIS，包括Abd-CT→Abd-MRI和Abd-MRI→Abd-CT兩個(gè)方向。

在跨域設(shè)置下，傳統(tǒng)FSMIS方法通常會(huì)出現(xiàn)明顯性能下降，因?yàn)樗鼈儗W(xué)到的特征更依賴訓(xùn)練域分布。而SD-FSMIS借助Stable Diffusion中更通用的視覺(jué)先驗(yàn)，在跨模態(tài)轉(zhuǎn)移時(shí)表現(xiàn)更加穩(wěn)定。

如表2所示，在Setting 1（設(shè)置1）的跨域?qū)嶒?yàn)中，SD-FSMIS在Abd-CT→Abd-MRI和Abd-MRI→Abd-CT兩個(gè)遷移方向上都取得了最高平均Dice，分別達(dá)到81.42%和75.90%。相比同樣引入擴(kuò)散模型思想的DiffewS，SD-FSMIS在兩個(gè)方向上都有進(jìn)一步提升。

這一結(jié)果說(shuō)明，本文的方法并不是簡(jiǎn)單使用擴(kuò)散模型的視覺(jué)特征，而是通過(guò)支持-查詢交互和視覺(jué)到文本條件轉(zhuǎn)換，更有效地將支持樣本中的目標(biāo)信息傳遞到查詢圖像分割過(guò)程中。尤其是在CT和MRI這種模態(tài)差異明顯的場(chǎng)景下，SD-FSMIS仍然能夠保持較強(qiáng)的器官定位能力和邊界恢復(fù)能力，體現(xiàn)出預(yù)訓(xùn)練基礎(chǔ)模型在跨域少樣本醫(yī)學(xué)圖像分割中的優(yōu)勢(shì)。

表 2：不同 cross-domain few-shot medical image segmentation 方法在 Setting 1 下的 Dice (%) 定量對(duì)比

更嚴(yán)格跨域?qū)嶒?yàn)

實(shí)驗(yàn)設(shè)置為更嚴(yán)格的跨域設(shè)置2：訓(xùn)練集中包含目標(biāo)器官的切片被移除，模型對(duì)目標(biāo)類別幾乎沒(méi)有訓(xùn)練階段暴露。

在這個(gè)更困難設(shè)置下，SD-FSMIS依然保持領(lǐng)先，具體結(jié)果見(jiàn)表3：
Abd-CT → MRI平均Dice為80.54%，相比DIFD的69.13%提升11.41%；
Abd-MRI → CT平均Dice為74.82%，相比DIFD的57.93%提升16.89%。

這說(shuō)明跨域優(yōu)勢(shì)并不是偶然的。即使在目標(biāo)器官?gòu)挠?xùn)練數(shù)據(jù)中被更徹底移除的情況下，SD-FSMIS仍然能依靠Stable Diffusion中更通用的視覺(jué)先驗(yàn)保持魯棒性。

表 3：不同 cross-domain few-shot medical image segmentation 方法在 Setting 2 下的 Dice

與通用模型對(duì)比

與UniverSeg、MultiverSeg等通用醫(yī)學(xué)圖像分割模型的比較。這部分是想說(shuō)明雖然SD-FSMIS利用了基礎(chǔ)模型先驗(yàn)，但它相比已有通用分割模型仍有優(yōu)勢(shì)。

表4中結(jié)果顯示，SD-FSMIS在Abd-MRI和 Abd-CT上都明顯優(yōu)于UniverSeg和MultiverSeg。以Abd-CT Setting 2為例，SD-FSMIS的Mean Dice為 83.25%，而UniverSeg和MultiverSeg分別只有37.20%和61.82%；同時(shí)，SD-FSMIS在HD95和ASSD等邊界指標(biāo)上也更好，說(shuō)明它不僅區(qū)域重疊率更高，邊界質(zhì)量也更穩(wěn)定。

表4：不同方法在Abd-CT Setting 2下的定量比較

可視化結(jié)果分析

從下面圖4可視化結(jié)果看，SD-FSMIS在Abd-MRI和Abd-CT上都能生成較完整的器官分割mask。相比DiffewS，SD-FSMIS在器官邊界、局部結(jié)構(gòu)一致性以及復(fù)雜背景下的目標(biāo)定位方面表現(xiàn)更穩(wěn)定。

在跨域場(chǎng)景中，模型仍然能夠較好地定位目標(biāo)器官，說(shuō)明其并不是簡(jiǎn)單記憶某一數(shù)據(jù)集的強(qiáng)度分布，而是借助更通用的形狀、紋理和上下文先驗(yàn)來(lái)完成分割。

圖 4：SD-FSMIS 與 DiffewS 在 Abd-MRI 和 Abd-CT 數(shù)據(jù)集上的定性分割結(jié)果對(duì)比

消融實(shí)驗(yàn)

文章進(jìn)一步分析了不同組件對(duì)性能的貢獻(xiàn)。如表格5結(jié)果顯示，以Abd-CT設(shè)置1為例，僅使用基礎(chǔ)支持信息注入時(shí)，模型平均Dice為80.11%；加入Query Enhancement后提升到83.17%；加入VTCT模塊后提升到82.27%；完整模型達(dá)到83.66%。

這一結(jié)果說(shuō)明，兩個(gè)模塊并非簡(jiǎn)單疊加，而是具有互補(bǔ)作用：一個(gè)增強(qiáng)support-query之間的視覺(jué)交互，另一個(gè)利用類文本條件更好地激活Stable Diffusion的條件建模能力。最終完整框架取得最佳表現(xiàn)。

表5：SD-FSMIS 在 Abd-CT Setting 1 下不同組件的消融實(shí)驗(yàn)結(jié)果

VAE重建驗(yàn)證

作者驗(yàn)證了Stable Diffusion的VAE是否能夠較好重建醫(yī)學(xué)圖像和mask。表6結(jié)果顯示，在Abd-MRI和Abd-CT上，VAE對(duì)圖像和掩膜都取得較低MSE以及較高PSNR/SSIM，說(shuō)明其潛空間能夠保留醫(yī)學(xué)圖像中的結(jié)構(gòu)和紋理信息。

表6：Abd-MRI和 Abd-CT數(shù)據(jù)集上的VAE重建質(zhì)量評(píng)估

Discussion

總體來(lái)看，SD-FSMIS的價(jià)值不只是將Stable Diffusion引入少樣本醫(yī)學(xué)圖像分割，更重要的是展示了擴(kuò)散基礎(chǔ)模型在數(shù)據(jù)高效醫(yī)學(xué)分割中的更大潛力。

首先，Stable Diffusion有望進(jìn)一步發(fā)展為統(tǒng)一的生成—判別框架。當(dāng)前方法主要利用其預(yù)訓(xùn)練視覺(jué)先驗(yàn)完成查詢圖像掩膜預(yù)測(cè)，而擴(kuò)散模型本身還具備強(qiáng)大的數(shù)據(jù)生成能力。未來(lái)可以探索讓模型一方面生成結(jié)構(gòu)合理的合成醫(yī)學(xué)圖像及對(duì)應(yīng)掩膜，擴(kuò)展少樣本訓(xùn)練數(shù)據(jù)；另一方面直接承擔(dān)分割任務(wù)。相比傳統(tǒng)數(shù)據(jù)增強(qiáng)，這種方式能夠在潛空間中生成更具解剖合理性和任務(wù)相關(guān)性的樣本，從而為少樣本分割提供更豐富、更可控的監(jiān)督信號(hào)。

其次，SD-FSMIS也啟發(fā)我們重新思考支持集—查詢集交互中“位置先驗(yàn)”和“語(yǔ)義信息”的作用。醫(yī)學(xué)圖像中的器官通常具有相對(duì)穩(wěn)定的解剖位置，但真正支持跨模態(tài)、跨中心泛化的，可能是更穩(wěn)定的目標(biāo)語(yǔ)義與形態(tài)表征。未來(lái)如果能夠?qū)⑽恢眉s束與語(yǔ)義表示進(jìn)一步解耦，一部分模塊學(xué)習(xí)跨模態(tài)一致的器官語(yǔ)義，另一部分模塊建?？勺兊慕馄士臻g關(guān)系，將有助于提升模型在更復(fù)雜模態(tài)遷移場(chǎng)景中的適應(yīng)能力。

此外，該工作也為弱監(jiān)督和偽標(biāo)簽適配提供了新的思路。醫(yī)學(xué)圖像的像素級(jí)密集標(biāo)注成本高、獲取難，而具有強(qiáng)視覺(jué)先驗(yàn)的基礎(chǔ)模型有望降低對(duì)高質(zhì)量人工標(biāo)注的依賴。結(jié)合偽標(biāo)簽生成、可靠性篩選、少量人工修正和自訓(xùn)練策略，未來(lái)少樣本醫(yī)學(xué)圖像分割可能從“少量精確標(biāo)注樣本”進(jìn)一步走向“強(qiáng)基礎(chǔ)模型先驗(yàn)+少量標(biāo)注+可控偽標(biāo)簽”的實(shí)用流程。

因此，SD-FSMIS的意義不僅在于提升少樣本醫(yī)學(xué)圖像分割性能，更在于提示了一條新的研究方向：通過(guò)生成能力、語(yǔ)義—位置解耦和弱監(jiān)督適配，將擴(kuò)散基礎(chǔ)模型構(gòu)建為更加通用、魯棒且數(shù)據(jù)高效的醫(yī)學(xué)圖像分割框架。

0人收藏

專題

CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

CVPR 2026 I SD-FSMIS：把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議