97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

導(dǎo)語(yǔ):醫(yī)學(xué)圖像分割一直有一個(gè)繞不開(kāi)的問(wèn)題:標(biāo)注太貴,而且很難覆蓋所有臨床場(chǎng)景。

來(lái)源:公眾號(hào)“HiLab實(shí)驗(yàn)室”

原文鏈接:https://mp.weixin.qq.com/s/0qp3IN0hdHGTzjn3BAUOBg?scene=1&click_id=45

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

Overview


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

論文標(biāo)題:

SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation

論文鏈接:

https://arxiv.org/abs/2604.03134

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器


Abstract


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

醫(yī)學(xué)圖像分割一直有一個(gè)繞不開(kāi)的問(wèn)題:標(biāo)注太貴,而且很難覆蓋所有臨床場(chǎng)景。

比如不同醫(yī)院的掃描協(xié)議、設(shè)備型號(hào)、成像模態(tài),甚至病人的個(gè)體差異,都會(huì)讓模型在換一個(gè)數(shù)據(jù)域后明顯掉點(diǎn)。對(duì)于深度學(xué)習(xí)分割模型來(lái)說(shuō),模型越依賴大量精細(xì)標(biāo)注,越容易被真實(shí)臨床里的數(shù)據(jù)變化卡住。

這篇文章關(guān)注的是少樣本醫(yī)學(xué)圖像分割(FSMIS):只給模型極少量帶掩膜的支持樣本,讓它去分割查詢圖像中的同類器官或結(jié)構(gòu)。傳統(tǒng)FSMIS通常會(huì)圍繞支持-查詢匹配、原型學(xué)習(xí)、注意力交互去設(shè)計(jì)網(wǎng)絡(luò)。如圖1所示,這類方法一般先用任務(wù)特定網(wǎng)絡(luò)分別提取支持和查詢特征,再?gòu)挠邢拗С謽颖局猩深悇e原型,最后通過(guò)特征匹配得到預(yù)測(cè)掩膜。然而,由于缺乏足夠強(qiáng)的通用視覺(jué)先驗(yàn),這類方法在數(shù)據(jù)有限、視覺(jué)變化復(fù)雜或跨域場(chǎng)景下往往容易退化。

作者在本篇文章中提出了SD-FSMIS,它不是重新從頭設(shè)計(jì)一個(gè)醫(yī)學(xué)分割網(wǎng)絡(luò),而是嘗試把預(yù)訓(xùn)練Stable Diffusion改造成一個(gè)少樣本分割框架。實(shí)驗(yàn)結(jié)果表明:不僅標(biāo)準(zhǔn)FSMIS場(chǎng)景下表現(xiàn)不錯(cuò),在CT→MRI、MRI→CT這種跨域設(shè)置里,優(yōu)勢(shì)反而更明顯。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

圖1:傳統(tǒng) fully supervised FSMIS方法與SD-FSMIS的對(duì)比

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器


Background


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器


1.為什么少樣本醫(yī)學(xué)圖像分割重要?

醫(yī)學(xué)圖像分割通常需要醫(yī)生或?qū)I(yè)標(biāo)注人員進(jìn)行逐像素標(biāo)注,這一過(guò)程不僅耗時(shí),而且成本很高。對(duì)于罕見(jiàn)病灶、新器官結(jié)構(gòu)或新成像協(xié)議下的數(shù)據(jù),收集大規(guī)模標(biāo)注集往往并不現(xiàn)實(shí)。因此,如何讓模型在僅有少量標(biāo)注樣本的情況下快速適應(yīng)新類別,是醫(yī)學(xué)圖像分析中的關(guān)鍵問(wèn)題。

FSMIS正是為了解決這一問(wèn)題而提出:給定少量圖像-標(biāo)注對(duì),模型需要對(duì)查詢圖像中相同類別的結(jié)構(gòu)進(jìn)行分割。這種設(shè)定更貼近真實(shí)臨床場(chǎng)景,因?yàn)榕R床中經(jīng)常出現(xiàn)標(biāo)注稀缺、類別變化和數(shù)據(jù)分布漂移的問(wèn)題。

2.現(xiàn)有FSMIS方法的局限

已有方法主要沿著兩條路線發(fā)展:

一類是原型匹配方法,即從支持集中提取類別原型,再與查詢圖像特征進(jìn)行匹配;另一類是支持-查詢交互方法,通過(guò)注意力、雙分支網(wǎng)絡(luò)或多尺度對(duì)齊機(jī)制增強(qiáng)支持圖像和查詢圖像之間的聯(lián)系。

這些方法雖然在標(biāo)準(zhǔn)設(shè)置下取得了不錯(cuò)效果,但仍然存在一個(gè)核心問(wèn)題:它們通常是在有限醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練得到的任務(wù)特定模型,因此學(xué)到的視覺(jué)先驗(yàn)較窄。當(dāng)測(cè)試數(shù)據(jù)來(lái)自新的模態(tài)、新設(shè)備或新的解剖分布時(shí),模型容易出現(xiàn)明顯性能退化。

3.為什么考慮Stable Diffusion?

Stable Diffusion這類大規(guī)模擴(kuò)散模型在海量數(shù)據(jù)上訓(xùn)練,具備較強(qiáng)的紋理、形狀和上下文建模能力。雖然它最初主要用于圖像生成任務(wù),但近年來(lái)已有研究發(fā)現(xiàn),擴(kuò)散模型內(nèi)部特征也可以遷移到語(yǔ)義對(duì)應(yīng)、像素級(jí)預(yù)測(cè)、開(kāi)放詞匯分割等視覺(jué)理解任務(wù)中。

本文的出發(fā)點(diǎn)是:如果Stable Diffusion已經(jīng)具備豐富的通用視覺(jué)先驗(yàn),那么是否可以通過(guò)較小的適配成本,將這些先驗(yàn)遷移到少樣本醫(yī)學(xué)圖像分割中。


Contributions



CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

本文的主要貢獻(xiàn)可以概括為以下三點(diǎn):

1. 提出一種新的FSMIS范式:從“重新設(shè)計(jì)任務(wù)網(wǎng)絡(luò)”轉(zhuǎn)向“適配大規(guī)模生成式基礎(chǔ)模型”。

以往FSMIS方法大多圍繞支持-查詢匹配、原型生成或注意力交互進(jìn)行結(jié)構(gòu)設(shè)計(jì),但這些模型通常受限于醫(yī)學(xué)訓(xùn)練數(shù)據(jù)規(guī)模,面對(duì)跨模態(tài)或跨域數(shù)據(jù)時(shí)容易性能下降。本文則嘗試?yán)肧table Diffusion中已有的豐富視覺(jué)先驗(yàn),為少樣本醫(yī)學(xué)圖像分割提供更強(qiáng)的基礎(chǔ)表征。

2.提出SD-FSMIS框架,將Stable Diffusion的條件生成結(jié)構(gòu)改造為少樣本分割框架。

文章引入兩個(gè)關(guān)鍵組件:Support-Query Interaction和Visual-to-Textual Condition Translator。前者用于增強(qiáng)支持圖像與查詢圖像之間的信息交互,后者將支持集中的視覺(jué)線索轉(zhuǎn)換為類似文本條件的嵌入,從而讓Stable Diffusion以其熟悉的條件機(jī)制完成醫(yī)學(xué)結(jié)構(gòu)定位。

3.在標(biāo)準(zhǔn)FSMIS和跨域FSMIS場(chǎng)景下驗(yàn)證了方法的有效性。

實(shí)驗(yàn)結(jié)果顯示,SD-FSMIS在Abd-MRI和Abd-CT數(shù)據(jù)集上均取得強(qiáng)性能,尤其在CT→MRI、MRI→CT等跨域設(shè)置中,相比傳統(tǒng)少樣本分割方法和擴(kuò)散模型基線都有明顯優(yōu)勢(shì),說(shuō)明大規(guī)模生成模型的視覺(jué)先驗(yàn)對(duì)醫(yī)學(xué)場(chǎng)景中的domain shift具有較強(qiáng)緩解作用。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器


Method



CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

SD-FSMIS 模型總體

SD-FSMIS的核心思想是:不再?gòu)牧阍O(shè)計(jì)一個(gè)少樣本醫(yī)學(xué)分割網(wǎng)絡(luò),而是把預(yù)訓(xùn)練Stable Diffusion當(dāng)作一個(gè)具有強(qiáng)視覺(jué)先驗(yàn)的基礎(chǔ)模型,再把它改造成少樣本分割模型。傳統(tǒng)FSMIS方法通常依賴支持-查詢特征匹配、原型匹配或注意力融合,而SD-FSMIS認(rèn)為Stable Diffusion已經(jīng)在大規(guī)模圖文數(shù)據(jù)上學(xué)到了豐富的形狀、紋理和上下文先驗(yàn),這些先驗(yàn)可以幫助模型在少樣本醫(yī)學(xué)圖像中更好地泛化。論文的方法主要由兩個(gè)關(guān)鍵模塊組成:Support-Query Interaction(支持-查詢交互模塊,SQI)和Visual-to-Textual Condition Translator(視覺(jué)到文本條件轉(zhuǎn)換模塊,VTCT)。

可以把整個(gè)方法拆成四個(gè)階段:

●潛空間編碼階段:使用Stable Diffusion自帶的VAE編碼器,把支持圖像、支持標(biāo)注和查詢圖像都編碼到潛空間。

●支持-查詢交互階段:通過(guò)SQI模塊,把支持集中的目標(biāo)類別信息注入查詢的處理過(guò)程。

●視覺(jué)條件翻譯階段:通過(guò)VTCT模塊,把支持圖像中的目標(biāo)區(qū)域視覺(jué)特征轉(zhuǎn)換成類似文本嵌入的條件向量,用來(lái)指導(dǎo)Stable Diffusion的U-Net。

●掩膜預(yù)測(cè)階段:U-Net在支持信息和隱式文本條件的共同引導(dǎo)下,直接預(yù)測(cè)查詢掩膜潛特征,再由VAE解碼器解碼得到最終分割結(jié)果。

任務(wù)設(shè)定:少樣本醫(yī)學(xué)圖像分割

SD-FSMIS采用標(biāo)準(zhǔn)的基于任務(wù)單元的少樣本分割設(shè)定。每個(gè)任務(wù)單元包含一個(gè)支持集和一個(gè)查詢集。支持集中有少量帶掩膜的樣本,查詢集中有需要預(yù)測(cè)掩膜的圖像。論文主要采用單類別單樣本設(shè)定,即每次任務(wù)只分割一個(gè)目標(biāo)類別,并且只有一個(gè)標(biāo)注支持樣本可用。模型需要從支持圖像和支持標(biāo)注中理解“這次要分割什么結(jié)構(gòu)”,然后在查詢圖像上找出同類結(jié)構(gòu)。

這個(gè)設(shè)定和普通醫(yī)學(xué)圖像分割不同。普通分割通常在固定類別上訓(xùn)練和測(cè)試,例如一直分割肝臟或腎臟;而少樣本分割更強(qiáng)調(diào)泛化能力,即模型在測(cè)試階段可能遇到訓(xùn)練時(shí)沒(méi)有顯式學(xué)習(xí)過(guò)的新器官或新域數(shù)據(jù)。因此,SD-FSMIS的關(guān)鍵不是單純擬合某個(gè)器官類別,而是學(xué)習(xí)如何利用支持樣本動(dòng)態(tài)地指導(dǎo)查詢分割。


Stable Diffusion作為分割骨干

SD-FSMIS使用Stable Diffusion v1.5作為基礎(chǔ)模型。原本的Stable Diffusion是一個(gè)文本生成圖像模型,輸入文本條件后,通過(guò)U-Net在潛空間中逐步去噪生成圖像。SD-FSMIS并不是直接用它生成醫(yī)學(xué)圖像,而是重新利用它的潛擴(kuò)散結(jié)構(gòu),把“圖像生成”任務(wù)改造成“掩膜預(yù)測(cè)”任務(wù)。論文使用的是Stable Diffusion的VAE、U-Net和交叉注意力機(jī)制,其中VAE保持凍結(jié),用于把圖像和掩膜映射到潛空間,再?gòu)臐摽臻g解碼回像素空間。

由于Stable Diffusion的VAE原本接收3通道RGB圖像,而醫(yī)學(xué)圖像和二值分割掩膜通常是單通道,作者采用了一個(gè)簡(jiǎn)單處理:把單通道醫(yī)學(xué)圖像和掩膜復(fù)制成3通道偽RGB輸入,并把像素值歸一化到Stable Diffusion需要的范圍。推理時(shí),VAE解碼器輸出3通道掩膜,作者再對(duì)三個(gè)通道取平均,得到最終單通道分割掩膜。

這樣做的好處是最大程度復(fù)用Stable Diffusion的原始組件,不需要重新訓(xùn)練一個(gè)醫(yī)學(xué)圖像專用VAE,也避免了少樣本場(chǎng)景下模型參數(shù)過(guò)多導(dǎo)致的過(guò)擬合問(wèn)題。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

圖2:SD-FSMIS 總體流程

圖2展示了SD-FSMIS的整體流程。首先,支持圖像、支持標(biāo)注和查詢圖像都會(huì)經(jīng)過(guò)凍結(jié)的VAE編碼器,被映射到潛空間中,得到對(duì)應(yīng)的潛空間表示。

接著,支持圖像潛特征和支持標(biāo)注潛特征會(huì)在通道維度上進(jìn)行拼接,形成帶有類別提示的信息輸入;查詢圖像潛特征則經(jīng)過(guò)查詢?cè)鰪?qiáng)模塊處理,得到增強(qiáng)后的查詢潛特征。

隨后,這些潛空間特征會(huì)被送入修改后的Stable Diffusion U-Net。這里的U-Net不再用于生成自然圖像,而是在支持信息和VTCT生成的隱式文本條件共同引導(dǎo)下,預(yù)測(cè)查詢圖像對(duì)應(yīng)的掩膜潛特征。

最后,VAE解碼器將預(yù)測(cè)得到的掩膜潛特征解碼回圖像空間,得到最終的分割結(jié)果。


核心模塊一:Support-Query Interaction(SQI)

SQI是SD-FSMIS中負(fù)責(zé)少樣本信息傳遞的核心模塊。它的作用是讓查詢圖像在分割過(guò)程中能夠顯式利用支持圖像和支持標(biāo)注提供的類別信息。

傳統(tǒng)少樣本分割方法通常通過(guò)原型匹配或特征相關(guān)性計(jì)算來(lái)建立支持與查詢之間的聯(lián)系。不同的是,SD-FSMIS將這種支持-查詢交互直接嵌入到Stable Diffusion的U-Net注意力模塊中。也就是說(shuō),模型不是在外部單獨(dú)設(shè)計(jì)一個(gè)匹配模塊,而是在擴(kuò)散模型原有的U-Net結(jié)構(gòu)內(nèi)部完成支持樣本到查詢樣本的信息傳遞,從而更充分地利用預(yù)訓(xùn)練Stable Diffusion中的視覺(jué)先驗(yàn)。


SQI包含兩個(gè)部分:

●Support Information Injection,SII

Stable Diffusion的U-Net中包含基礎(chǔ)Transformer模塊,原始結(jié)構(gòu)通常由自注意力、交叉注意力和前饋網(wǎng)絡(luò)組成。SD-FSMIS在自注意力之后額外加入了一個(gè)支持到查詢的交叉注意力模塊。具體來(lái)說(shuō),模型將查詢圖像的潛空間特征作為查詢項(xiàng),將支持圖像的潛空間特征作為鍵和值,使查詢特征能夠主動(dòng)關(guān)注支持中與目標(biāo)類別相關(guān)的區(qū)域。這樣,支持標(biāo)注提供的類別提示就可以在U-Net內(nèi)部傳遞到查詢分支,從而指導(dǎo)最終的分割預(yù)測(cè)。

●Query Enhancement,QE

僅僅讓查詢圖像關(guān)注支持圖像還不夠,因?yàn)獒t(yī)學(xué)圖像中不同器官可能形態(tài)差異大、邊界模糊,而且灰度分布相近。因此,QE模塊進(jìn)一步借鑒原型學(xué)習(xí)的思想,對(duì)查詢圖像的潛空間特征進(jìn)行增強(qiáng)。

具體來(lái)說(shuō),模型首先根據(jù)支持標(biāo)注,在支持圖像的潛空間特征上進(jìn)行掩膜平均池化,得到目標(biāo)區(qū)域的前景原型。然后,模型計(jì)算查詢圖像特征與該前景原型之間的余弦相似度,從而找到查詢圖像中可能屬于目標(biāo)類別的區(qū)域。作者設(shè)定相似度閾值為0.7,篩選出高相似度區(qū)域,并對(duì)這些區(qū)域的特征求平均,得到查詢?cè)?。最后,將查詢?cè)蛿U(kuò)展到與原始特征相同的空間尺寸,并與原始查詢特征拼接,形成增強(qiáng)后的查詢表示。

可以理解為,SII負(fù)責(zé)“讓查詢看支持”,QE負(fù)責(zé)“讓查詢自己內(nèi)部先找到疑似目標(biāo)區(qū)域”。前者強(qiáng)調(diào)支持-查詢交互,后者強(qiáng)調(diào)查詢的目標(biāo)區(qū)域增強(qiáng)。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

圖3:修改后的 BasicTransformerBlock

圖3展示了作者對(duì)Stable Diffusion中U-Net基礎(chǔ)Transformer模塊的修改。原始Stable Diffusion主要用于根據(jù)文本條件生成圖像,因此其中的交叉注意力模塊通常用來(lái)讓圖像潛特征接收文本特征的引導(dǎo)。

而在SD-FSMIS中,作者在這個(gè)結(jié)構(gòu)里額外加入了支持信息注入模塊。它的作用是讓查詢圖像的潛特征先與支持圖像的潛特征進(jìn)行交互,再接受由視覺(jué)到文本條件轉(zhuǎn)換模塊生成的條件信息。這個(gè)改動(dòng)很關(guān)鍵,因?yàn)樯贅颖痉指畹暮诵奶崾静⒉皇亲匀徽Z(yǔ)言中的類別名稱,而是支持圖像和支持標(biāo)注本身。也就是說(shuō),模型需要從支持樣本中理解“要分割什么”,再把這個(gè)信息傳遞給查詢圖像的分割過(guò)程。


核心模塊二:

Visual-to-Textual Condition Translator(VTCT)

VTCT是SD-FSMIS的另一個(gè)關(guān)鍵創(chuàng)新。Stable Diffusion原本擅長(zhǎng)根據(jù)文本嵌入進(jìn)行條件生成,但在醫(yī)學(xué)少樣本分割中,支持集提供的條件并不是文字,而是一張醫(yī)學(xué)圖像及其對(duì)應(yīng)的分割標(biāo)注。如果直接使用空文本嵌入,模型就無(wú)法明確當(dāng)前要分割的目標(biāo)結(jié)構(gòu)。因此,作者設(shè)計(jì)了VTCT,將支持圖像中目標(biāo)區(qū)域的視覺(jué)信息轉(zhuǎn)換成Stable Diffusion能夠利用的“隱式文本條件”。

VTCT的流程可以概括為三步。首先,模型使用一個(gè)凍結(jié)的預(yù)訓(xùn)練圖像編碼器提取支持圖像的視覺(jué)特征,論文中采用的是DINOv2-small。然后,利用支持標(biāo)注對(duì)支持圖像特征進(jìn)行掩膜平均池化,只聚合目標(biāo)區(qū)域的前景特征,從而得到與當(dāng)前類別相關(guān)的視覺(jué)原型。最后,這個(gè)視覺(jué)原型會(huì)被送入一個(gè)可學(xué)習(xí)的MLP,并映射到Stable Diffusion中U-Net交叉注意力所需的文本嵌入空間,生成用于引導(dǎo)分割的隱式文本條件。

這個(gè)設(shè)計(jì)的意義在于,模型不需要人工編寫(xiě)提示詞,例如“肝臟”或“腎臟”,也不依賴類別名稱是否準(zhǔn)確。它直接從支持圖像中提取“這次要分割的目標(biāo)長(zhǎng)什么樣”,再把這個(gè)視覺(jué)信息轉(zhuǎn)換成Stable Diffusion原本熟悉的條件格式。也就是說(shuō),VTCT相當(dāng)于一個(gè)從視覺(jué)到語(yǔ)義的橋梁,把醫(yī)學(xué)圖像中的類別提示轉(zhuǎn)換成擴(kuò)散模型可以利用的條件信號(hào)。


訓(xùn)練目標(biāo):從查詢圖像潛特征預(yù)測(cè)分割掩膜潛特征

SD-FSMIS的訓(xùn)練目標(biāo)比較直接。模型輸入支持圖像、支持標(biāo)注和查詢圖像,輸出查詢掩膜的潛空間預(yù)測(cè)結(jié)果。訓(xùn)練時(shí)的監(jiān)督信號(hào)來(lái)自真實(shí)查詢掩膜經(jīng)過(guò)VAE編碼器后得到的掩膜潛特征。作者使用MSE損失約束預(yù)測(cè)掩膜潛特征和真實(shí)掩膜潛特征之間的差異。

這和普通醫(yī)學(xué)圖像分割常用的交叉熵?fù)p失或Dice損失不同。SD-FSMIS并不是直接在像素空間預(yù)測(cè)每個(gè)像素屬于前景或背景的概率,而是在Stable Diffusion的潛空間中學(xué)習(xí)如何生成分割掩膜。這樣做可以更自然地復(fù)用Stable Diffusion原有的U-Net結(jié)構(gòu)和潛擴(kuò)散表示能力。

在具體實(shí)現(xiàn)中,論文還采用單步DDIM調(diào)度器,并將時(shí)間步設(shè)置為999。這樣,模型可以用一步預(yù)測(cè)完成掩膜潛特征的生成,而不需要像標(biāo)準(zhǔn)擴(kuò)散采樣那樣進(jìn)行多輪迭代去噪。因此,SD-FSMIS本質(zhì)上是把擴(kuò)散模型的潛空間生成能力簡(jiǎn)化為一次性的掩膜潛特征預(yù)測(cè),從而更適合分割任務(wù)。


推理流程:?jiǎn)尾筋A(yù)測(cè)查詢圖像的分割結(jié)果

推理階段不需要重新訓(xùn)練模型。給定一個(gè)支持圖像-標(biāo)注對(duì)和一個(gè)查詢圖像,模型首先通過(guò)VAE編碼器將它們映射到潛空間,得到對(duì)應(yīng)的潛特征。

隨后,支持圖像潛特征和支持標(biāo)注潛特征會(huì)在通道維度上拼接,并作為帶有類別提示的信息輸入到U-Net中。與此同時(shí),查詢潛特征會(huì)經(jīng)過(guò)QE模塊進(jìn)一步強(qiáng)化目標(biāo)相關(guān)區(qū)域;VTCT則從支持圖像前景區(qū)域中提取目標(biāo)視覺(jué)信息,并生成隱式文本條件。

最后,U-Net在支持樣本信息和隱式文本條件的共同引導(dǎo)下,直接預(yù)測(cè)查詢掩膜潛特征。預(yù)測(cè)結(jié)果再經(jīng)過(guò)VAE解碼器解碼回像素空間,并通過(guò)通道平均得到最終的二值分割掩膜。整體來(lái)看,SD-FSMIS的推理過(guò)程可以理解為:支持樣本告訴模型“要分割什么”,查詢圖像提供“在哪里找目標(biāo)”,擴(kuò)散模型則利用已有視覺(jué)先驗(yàn)完成最終分割。


方法總結(jié)

SD-FSMIS的方法貢獻(xiàn)可以概括為三點(diǎn)。

第一,它將Stable Diffusion從文本生成圖像模型改造成少樣本醫(yī)學(xué)圖像分割模型,證明擴(kuò)散模型中學(xué)到的視覺(jué)先驗(yàn)不僅可以用于圖像生成,也可以用于醫(yī)學(xué)圖像中的密集預(yù)測(cè)任務(wù)。

第二,它提出了SQI模塊,在Stable Diffusion的U-Net潛空間注意力結(jié)構(gòu)中建立支持圖像和查詢圖像之間的信息交互,使support mask中的類別提示能夠有效傳遞到query圖像的分割過(guò)程中。

第三,它提出了VTCT模塊,將支持圖像前景區(qū)域的視覺(jué)信息轉(zhuǎn)換成隱式文本條件,使模型能夠繼續(xù)利用Stable Diffusion原有的條件生成機(jī)制,而不是簡(jiǎn)單使用空文本提示或完全丟棄文本條件分支。

總體而言,SD-FSMIS的核心不是“用擴(kuò)散模型生成更多醫(yī)學(xué)數(shù)據(jù)”,而是直接把Stable Diffusion適配成一個(gè)少樣本分割模型。它的優(yōu)勢(shì)在于充分利用大規(guī)模預(yù)訓(xùn)練擴(kuò)散模型中的通用視覺(jué)先驗(yàn),并通過(guò)少量結(jié)構(gòu)修改,將這些先驗(yàn)遷移到醫(yī)學(xué)少樣本分割任務(wù)中。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

圖5:BUSGen 用于乳腺癌預(yù)后相關(guān)指標(biāo)預(yù)測(cè)。圖5a 展示 TNBC 與 non-TNBC 分子亞型分類結(jié)果;圖5b 展示腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài)分類結(jié)果;圖5c 和圖5d 展示不同模型的特征分布;圖5e 和圖5f 展示模型在預(yù)測(cè)不同預(yù)后指標(biāo)時(shí)關(guān)注的關(guān)鍵影像區(qū)域。


Experiments


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器
CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器


實(shí)驗(yàn)設(shè)置

本文主要在Abd-MRI和Abd-CT兩個(gè)腹部醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行評(píng)估,任務(wù)目標(biāo)包括脾臟、肝臟、左腎和右腎等器官結(jié)構(gòu)。評(píng)價(jià)指標(biāo)采用醫(yī)學(xué)分割中常用的Dice相似系數(shù),DSC。

所有實(shí)驗(yàn)均在單樣本設(shè)置下進(jìn)行,并采用五折交叉驗(yàn)證來(lái)保證評(píng)估穩(wěn)定性。文章還設(shè)置了兩種更具挑戰(zhàn)性的測(cè)試條件:
設(shè)置1中,測(cè)試類別可能以未標(biāo)注背景形式出現(xiàn)在訓(xùn)練切片中;
設(shè)置2中,包含測(cè)試類別的訓(xùn)練切片會(huì)被直接移除,因此模型在訓(xùn)練階段完全沒(méi)有見(jiàn)過(guò)目標(biāo)結(jié)構(gòu),這一設(shè)置更接近真實(shí)臨床中的跨域泛化問(wèn)題。


與現(xiàn)有先進(jìn)方法的對(duì)比

在Abd-MRI和Abd-CT數(shù)據(jù)集上,SD-FSMIS與PANet、SENet、SSL-ALPNet、ADNet、RPT、DIFD、DiffewS等方法進(jìn)行了對(duì)比,具體定量結(jié)果如表 1 所示。

標(biāo)準(zhǔn)FSMIS設(shè)置中,SD-FSMIS整體表現(xiàn)具有競(jìng)爭(zhēng)力。尤其在Abd-CT數(shù)據(jù)集上,SD-FSMIS在Setting 1和Setting 2中的平均Dice均超過(guò)已有最優(yōu)方法,說(shuō)明其在CT圖像中對(duì)器官結(jié)構(gòu)的定位和邊界恢復(fù)能力較強(qiáng)。

而且相比DiffewS這類同樣引入擴(kuò)散模型思想的方法,SD-FSMIS取得了更高的平均Dice。表明僅僅利用擴(kuò)散模型的視覺(jué)表征還不夠,如何有效引導(dǎo)support信息、如何構(gòu)造適合醫(yī)學(xué)分割的條件信號(hào),是更為關(guān)鍵。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表 1:SD-FSMIS 與現(xiàn)有 few-shot medical image segmentation 方法在 Abd-MRI 和 Abd-CT 數(shù)據(jù)集上的 Dice (%) 定量對(duì)比


跨域?qū)嶒?yàn)結(jié)果

本文還重點(diǎn)評(píng)估了Cross-Domain FSMIS,包括Abd-CT→Abd-MRI和Abd-MRI→Abd-CT兩個(gè)方向。

在跨域設(shè)置下,傳統(tǒng)FSMIS方法通常會(huì)出現(xiàn)明顯性能下降,因?yàn)樗鼈儗W(xué)到的特征更依賴訓(xùn)練域分布。而SD-FSMIS借助Stable Diffusion中更通用的視覺(jué)先驗(yàn),在跨模態(tài)轉(zhuǎn)移時(shí)表現(xiàn)更加穩(wěn)定。

如表2所示,在Setting 1(設(shè)置1)的跨域?qū)嶒?yàn)中,SD-FSMIS在Abd-CT→Abd-MRI和Abd-MRI→Abd-CT兩個(gè)遷移方向上都取得了最高平均Dice,分別達(dá)到81.42%和75.90%。相比同樣引入擴(kuò)散模型思想的DiffewS,SD-FSMIS在兩個(gè)方向上都有進(jìn)一步提升。

這一結(jié)果說(shuō)明,本文的方法并不是簡(jiǎn)單使用擴(kuò)散模型的視覺(jué)特征,而是通過(guò)支持-查詢交互和視覺(jué)到文本條件轉(zhuǎn)換,更有效地將支持樣本中的目標(biāo)信息傳遞到查詢圖像分割過(guò)程中。尤其是在CT和MRI這種模態(tài)差異明顯的場(chǎng)景下,SD-FSMIS仍然能夠保持較強(qiáng)的器官定位能力和邊界恢復(fù)能力,體現(xiàn)出預(yù)訓(xùn)練基礎(chǔ)模型在跨域少樣本醫(yī)學(xué)圖像分割中的優(yōu)勢(shì)。


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表 2:不同 cross-domain few-shot medical image segmentation 方法在 Setting 1 下的 Dice (%) 定量對(duì)比


更嚴(yán)格跨域?qū)嶒?yàn)

實(shí)驗(yàn)設(shè)置為更嚴(yán)格的跨域設(shè)置2:訓(xùn)練集中包含目標(biāo)器官的切片被移除,模型對(duì)目標(biāo)類別幾乎沒(méi)有訓(xùn)練階段暴露。

在這個(gè)更困難設(shè)置下,SD-FSMIS依然保持領(lǐng)先,具體結(jié)果見(jiàn)表3:
Abd-CT → MRI平均Dice為80.54%,相比DIFD的69.13%提升11.41%;
Abd-MRI → CT平均Dice為74.82%,相比DIFD的57.93%提升16.89%。

這說(shuō)明跨域優(yōu)勢(shì)并不是偶然的。即使在目標(biāo)器官?gòu)挠?xùn)練數(shù)據(jù)中被更徹底移除的情況下,SD-FSMIS仍然能依靠Stable Diffusion中更通用的視覺(jué)先驗(yàn)保持魯棒性。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表 3:不同 cross-domain few-shot medical image segmentation 方法在 Setting 2 下的 Dice


與通用模型對(duì)比

與UniverSeg、MultiverSeg等通用醫(yī)學(xué)圖像分割模型的比較。這部分是想說(shuō)明雖然SD-FSMIS利用了基礎(chǔ)模型先驗(yàn),但它相比已有通用分割模型仍有優(yōu)勢(shì)。

表4中結(jié)果顯示,SD-FSMIS在Abd-MRI和 Abd-CT上都明顯優(yōu)于UniverSeg和MultiverSeg。以Abd-CT Setting 2為例,SD-FSMIS的Mean Dice為 83.25%,而UniverSeg和MultiverSeg分別只有37.20%和61.82%;同時(shí),SD-FSMIS在HD95和ASSD等邊界指標(biāo)上也更好,說(shuō)明它不僅區(qū)域重疊率更高,邊界質(zhì)量也更穩(wěn)定。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表4:不同方法在Abd-CT Setting 2下的定量比較


可視化結(jié)果分析

從下面圖4可視化結(jié)果看,SD-FSMIS在Abd-MRI和Abd-CT上都能生成較完整的器官分割mask。相比DiffewS,SD-FSMIS在器官邊界、局部結(jié)構(gòu)一致性以及復(fù)雜背景下的目標(biāo)定位方面表現(xiàn)更穩(wěn)定。

在跨域場(chǎng)景中,模型仍然能夠較好地定位目標(biāo)器官,說(shuō)明其并不是簡(jiǎn)單記憶某一數(shù)據(jù)集的強(qiáng)度分布,而是借助更通用的形狀、紋理和上下文先驗(yàn)來(lái)完成分割。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

圖 4:SD-FSMIS 與 DiffewS 在 Abd-MRI 和 Abd-CT 數(shù)據(jù)集上的定性分割結(jié)果對(duì)比


消融實(shí)驗(yàn)

文章進(jìn)一步分析了不同組件對(duì)性能的貢獻(xiàn)。如表格5結(jié)果顯示,以Abd-CT設(shè)置1為例,僅使用基礎(chǔ)支持信息注入時(shí),模型平均Dice為80.11%;加入Query Enhancement后提升到83.17%;加入VTCT模塊后提升到82.27%;完整模型達(dá)到83.66%。

這一結(jié)果說(shuō)明,兩個(gè)模塊并非簡(jiǎn)單疊加,而是具有互補(bǔ)作用:一個(gè)增強(qiáng)support-query之間的視覺(jué)交互,另一個(gè)利用類文本條件更好地激活Stable Diffusion的條件建模能力。最終完整框架取得最佳表現(xiàn)。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表5:SD-FSMIS 在 Abd-CT Setting 1 下不同組件的消融實(shí)驗(yàn)結(jié)果


VAE重建驗(yàn)證

作者驗(yàn)證了Stable Diffusion的VAE是否能夠較好重建醫(yī)學(xué)圖像和mask。表6結(jié)果顯示,在Abd-MRI和Abd-CT上,VAE對(duì)圖像和掩膜都取得較低MSE以及較高PSNR/SSIM,說(shuō)明其潛空間能夠保留醫(yī)學(xué)圖像中的結(jié)構(gòu)和紋理信息。

CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

表6:Abd-MRI和 Abd-CT數(shù)據(jù)集上的VAE重建質(zhì)量評(píng)估


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

Discussion


CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

總體來(lái)看,SD-FSMIS的價(jià)值不只是將Stable Diffusion引入少樣本醫(yī)學(xué)圖像分割,更重要的是展示了擴(kuò)散基礎(chǔ)模型在數(shù)據(jù)高效醫(yī)學(xué)分割中的更大潛力。

首先,Stable Diffusion有望進(jìn)一步發(fā)展為統(tǒng)一的生成—判別框架。當(dāng)前方法主要利用其預(yù)訓(xùn)練視覺(jué)先驗(yàn)完成查詢圖像掩膜預(yù)測(cè),而擴(kuò)散模型本身還具備強(qiáng)大的數(shù)據(jù)生成能力。未來(lái)可以探索讓模型一方面生成結(jié)構(gòu)合理的合成醫(yī)學(xué)圖像及對(duì)應(yīng)掩膜,擴(kuò)展少樣本訓(xùn)練數(shù)據(jù);另一方面直接承擔(dān)分割任務(wù)。相比傳統(tǒng)數(shù)據(jù)增強(qiáng),這種方式能夠在潛空間中生成更具解剖合理性和任務(wù)相關(guān)性的樣本,從而為少樣本分割提供更豐富、更可控的監(jiān)督信號(hào)。

其次,SD-FSMIS也啟發(fā)我們重新思考支持集—查詢集交互中“位置先驗(yàn)”和“語(yǔ)義信息”的作用。醫(yī)學(xué)圖像中的器官通常具有相對(duì)穩(wěn)定的解剖位置,但真正支持跨模態(tài)、跨中心泛化的,可能是更穩(wěn)定的目標(biāo)語(yǔ)義與形態(tài)表征。未來(lái)如果能夠?qū)⑽恢眉s束與語(yǔ)義表示進(jìn)一步解耦,一部分模塊學(xué)習(xí)跨模態(tài)一致的器官語(yǔ)義,另一部分模塊建??勺兊慕馄士臻g關(guān)系,將有助于提升模型在更復(fù)雜模態(tài)遷移場(chǎng)景中的適應(yīng)能力。

此外,該工作也為弱監(jiān)督和偽標(biāo)簽適配提供了新的思路。醫(yī)學(xué)圖像的像素級(jí)密集標(biāo)注成本高、獲取難,而具有強(qiáng)視覺(jué)先驗(yàn)的基礎(chǔ)模型有望降低對(duì)高質(zhì)量人工標(biāo)注的依賴。結(jié)合偽標(biāo)簽生成、可靠性篩選、少量人工修正和自訓(xùn)練策略,未來(lái)少樣本醫(yī)學(xué)圖像分割可能從“少量精確標(biāo)注樣本”進(jìn)一步走向“強(qiáng)基礎(chǔ)模型先驗(yàn)+少量標(biāo)注+可控偽標(biāo)簽”的實(shí)用流程。

因此,SD-FSMIS的意義不僅在于提升少樣本醫(yī)學(xué)圖像分割性能,更在于提示了一條新的研究方向:通過(guò)生成能力、語(yǔ)義—位置解耦和弱監(jiān)督適配,將擴(kuò)散基礎(chǔ)模型構(gòu)建為更加通用、魯棒且數(shù)據(jù)高效的醫(yī)學(xué)圖像分割框架。



CVPR 2026 I SD-FSMIS:把Stable Diffusion改造成小樣本醫(yī)學(xué)分割利器

分享:
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
大足县| 金寨县| 西宁市| 乌兰察布市| 康保县| 安福县| 高邑县| 兴山县| 灵璧县| 荥经县| 巴林左旗| 甘洛县| 新野县| 拉孜县| 承德市| 湘乡市| 玛沁县| 乐东| 呼和浩特市| 嵩明县| 陆丰市| 罗平县| 漳平市| 玉田县| 水富县| 吉安市| SHOW| 台江县| 贵溪市| 安达市| 漳州市| 贺州市| 麟游县| 宜春市| 封开县| 江口县| 华宁县| 兴义市| 衡南县| 桓台县| 巴南区|