97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

導(dǎo)語: FSMIS希望模型只依賴極少量標(biāo)注樣本,就能完成新器官、新類別或新域醫(yī)學(xué)圖像的分割。

來源:知乎“智能CV”

原文鏈接:https://zhuanlan.zhihu.com/p/2040370312253071756


CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

論文:https://arxiv.org/pdf/2604.03134

代碼:https://github.com/Galaxy-Knight-Lee/SD-FSMIS

一、研究方向及背景

這篇論文聚焦于少樣本醫(yī)學(xué)圖像分割,即 Few-Shot Medical Image Segmentation,簡稱 FSMIS。該任務(wù)希望模型只依賴極少量標(biāo)注樣本,就能完成新器官、新類別或新域醫(yī)學(xué)圖像的分割。

醫(yī)學(xué)圖像分割在疾病診斷、放療計劃、個性化治療等臨床場景中非常重要,但其核心難點在于:高質(zhì)量像素級標(biāo)注成本高、不同醫(yī)院和設(shè)備帶來的域偏移明顯、目標(biāo)器官形態(tài)差異大。傳統(tǒng) FSMIS 方法多采用原型匹配、注意力交互或雙分支結(jié)構(gòu),但這些方法通常需要從有限醫(yī)學(xué)數(shù)據(jù)中學(xué)習(xí)任務(wù)特定表示,面對跨模態(tài)、跨域場景時容易性能下降。

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

論文在圖1中對比了傳統(tǒng)方法和本文方法。傳統(tǒng)方法通常基于 CNN 或?qū)iT設(shè)計的 few-shot 網(wǎng)絡(luò),通過 support 圖像和 mask 提取原型,再與 query 圖像進(jìn)行特征匹配;而本文不再從零構(gòu)建任務(wù)網(wǎng)絡(luò),而是嘗試直接適配一個強(qiáng)大的預(yù)訓(xùn)練基礎(chǔ)模型——Stable Diffusion。作者認(rèn)為,大規(guī)模擴(kuò)散模型已經(jīng)從海量圖文數(shù)據(jù)中學(xué)習(xí)到了關(guān)于形狀、紋理和上下文的通用視覺先驗,這些先驗可以為醫(yī)學(xué)少樣本分割提供更強(qiáng)的魯棒性和跨域泛化能力。


二、研究方法或創(chuàng)新點

本文提出的方法名為 SD-FSMIS,核心思想是:把 Stable Diffusion 從文本到圖像生成模型,改造成一個能夠根據(jù)少量 support 樣本完成醫(yī)學(xué)圖像分割的 few-shot 分割框架。

1. 用 Stable Diffusion 的視覺先驗替代從零訓(xùn)練的任務(wù)網(wǎng)絡(luò)

傳統(tǒng) FSMIS 方法往往依賴任務(wù)特定網(wǎng)絡(luò)設(shè)計,而本文將 Stable Diffusion v1.5 作為主干模型,保留其 VAE 和 U-Net 結(jié)構(gòu),并通過輕量化改造使其適配醫(yī)學(xué)圖像分割任務(wù)。

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

圖2中,作者展示了 SD-FSMIS 的整體訓(xùn)練流程。Support 圖像、support mask 和 query 圖像首先經(jīng)過 Stable Diffusion 的 VAE 編碼器進(jìn)入 latent space。隨后,support 信息與 query 信息在 U-Net 中交互,最終生成 query mask 的 latent 表示,再通過 VAE 解碼器得到最終分割結(jié)果。

這種設(shè)計的關(guān)鍵優(yōu)勢在于:模型不是從有限醫(yī)學(xué)訓(xùn)練集里重新學(xué)習(xí)視覺規(guī)律,而是復(fù)用 Stable Diffusion 中已經(jīng)存在的通用視覺知識。


2. Support-Query Interaction:在擴(kuò)散模型內(nèi)部引入支持集與查詢圖像交互

Few-shot 分割的關(guān)鍵是讓模型理解 support 圖像中“要分割什么”,再把這種類別信息遷移到 query 圖像上。為此,作者提出了 Support-Query Interaction,簡稱 SQI。

SQI 包含兩個部分:

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

第一是 Support Information Injection,SII。如圖3所示,作者修改了 Stable Diffusion U-Net 中的 BasicTransformerBlock。在原本的 self-attention 和 text cross-attention 之間,額外加入一個 cross-attention 層,讓 query 特征去關(guān)注 support 特征。這樣,support 圖像和 support mask 中的目標(biāo)類別信息可以直接注入 query 特征。

第二是 Query Enhancement,QE。作者借鑒 prototype-based few-shot segmentation 的思想,從 support latent 中提取 foreground prototype,再用它與 query latent 計算相似度,篩選出 query 中可能屬于目標(biāo)區(qū)域的特征,形成 query prototype,并與原 query latent 拼接。這個模塊在圖2的黃色區(qū)域中展示,作用是進(jìn)一步增強(qiáng) query 表示,使其更貼近 support 中指定的器官類別。


3. Visual-to-Textual Condition Translator:把視覺提示翻譯成 Stable Diffusion 能理解的“文本條件”

Stable Diffusion 原本依賴文本 embedding 來控制生成過程。但在醫(yī)學(xué)圖像分割中,輸入條件并不是自然語言,而是 support 圖像和 support mask。為了解決這個不匹配問題,作者提出 Visual-to-Textual Condition Translator,簡稱 VTCT。

VTCT 的作用是把 support 圖像中的視覺類別信息轉(zhuǎn)換成類似文本 embedding 的條件向量。具體來說,作者使用凍結(jié)的 DINOv2-small 圖像編碼器提取 support 圖像特征,再通過 support mask 做 Masked Average Pooling,得到目標(biāo)器官的視覺原型,最后用一個可學(xué)習(xí) MLP 將其投影到 Stable Diffusion U-Net cross-attention 所需的文本 embedding 空間。

這一模塊在圖2紅色區(qū)域中展示。它的意義在于:不是簡單使用空文本提示,而是讓模型通過 support 圖像自動生成“隱式文本條件”,從而更精準(zhǔn)地引導(dǎo) Stable Diffusion 關(guān)注目標(biāo)器官。


4. 單步擴(kuò)散預(yù)測,提高分割效率

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

在推理階段,SD-FSMIS 并不進(jìn)行復(fù)雜的多步擴(kuò)散采樣,而是采用 single-step x0 prediction。如圖4所示,support 與 query 被編碼到 latent space 后,U-Net 在 VTCT 生成的條件引導(dǎo)下,直接一步預(yù)測 query mask latent,再由 VAE decoder 解碼得到最終 mask。

這種設(shè)計降低了擴(kuò)散模型用于分割時的推理成本,使其更適合醫(yī)學(xué)圖像分割任務(wù)。


三、實驗結(jié)果

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

1. 標(biāo)準(zhǔn) FSMIS 設(shè)置下取得競爭性結(jié)果

論文在 Abd-MRI 和 Abd-CT 兩個腹部醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實驗,分割目標(biāo)包括 spleen、liver、left kidney 和 right kidney。評價指標(biāo)主要為 Dice Similarity Coefficient。

表1中,作者比較了 SD-FSMIS 與 PANet、SENet、SSL-ALPNet、ADNet、RPT、PAMI、PGRNet、DIFD、DiffewS 等方法。在 Abd-MRI 數(shù)據(jù)集上,SD-FSMIS 的平均 Dice 與當(dāng)前強(qiáng)方法 DIFD 接近;在 Abd-CT 數(shù)據(jù)集上,本文方法優(yōu)勢更明顯。

例如,在 Setting 1 下,SD-FSMIS 在 Abd-CT 上取得 83.66% 的平均 Dice,超過此前最優(yōu)的 DIFD 的 80.19%。在 Setting 2 下,SD-FSMIS 在 Abd-CT 上取得 83.25% 的平均 Dice,同樣明顯優(yōu)于 DIFD 的 79.85%。

這說明,在標(biāo)準(zhǔn)少樣本醫(yī)學(xué)圖像分割場景下,SD-FSMIS 已經(jīng)具備很強(qiáng)競爭力。


2. 跨域場景下優(yōu)勢更突出

本文最重要的實驗亮點是跨域少樣本醫(yī)學(xué)圖像分割,即從 CT 遷移到 MRI,或從 MRI 遷移到 CT。該場景比普通 few-shot 更接近真實臨床,因為不同模態(tài)之間存在顯著域差異。

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

表2中,作者展示了 Setting 1 下的跨域?qū)嶒灲Y(jié)果。SD-FSMIS 在 Abd-CT → MRI 任務(wù)上達(dá)到 81.42% 平均 Dice,在 Abd-MRI → CT 任務(wù)上達(dá)到 75.90% 平均 Dice,均超過此前方法。其中,DiffewS 已經(jīng)利用擴(kuò)散模型先驗并表現(xiàn)較強(qiáng),但 SD-FSMIS 仍進(jìn)一步提升,說明 SQI 與 VTCT 對擴(kuò)散模型適配是有效的。

補充材料中的表6進(jìn)一步展示了更嚴(yán)格 Setting 2 下的跨域結(jié)果。SD-FSMIS 在 Abd-CT → MRI 上達(dá)到 80.54%,相比 DIFD 的 69.13% 提升 11.41%;在 Abd-MRI → CT 上達(dá)到 74.82%,相比 DIFD 的 57.93% 提升 16.89%。這充分體現(xiàn)了本文方法在跨模態(tài)泛化上的優(yōu)勢。


3. 可視化結(jié)果顯示分割更穩(wěn)定、邊界更準(zhǔn)確

CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

圖5給出了 SD-FSMIS 與 DiffewS 的可視化對比??梢钥吹?,在 Abd-MRI、Abd-CT 以及跨域場景中,SD-FSMIS 對不同形態(tài)、不同尺度和不同灰度分布的器官都能生成更完整的 mask。相比 DiffewS,本文方法在器官邊界、局部結(jié)構(gòu)和復(fù)雜背景下更穩(wěn)定。

補充材料中的圖6比較了 SD-FSMIS 與 UniverSeg、MultiverSeg 等通用醫(yī)學(xué)分割模型。結(jié)果顯示,在 1-shot 設(shè)置下,通用模型容易出現(xiàn)目標(biāo)定位不準(zhǔn)、邊界混淆或背景組織誤分割,而 SD-FSMIS 能更準(zhǔn)確地區(qū)分目標(biāo)器官與相似組織。


4. 消融實驗驗證每個模塊都有效

表3中,作者對 SII、QE 和 VTCT 三個關(guān)鍵模塊做了消融實驗。僅使用 SII 時,模型在 Abd-CT Setting 1 上的平均 Dice 為 80.11%。加入 QE 后提升到 83.17%;加入 VTCT 后提升到 82.27%;三者全部使用時達(dá)到最高的 83.66%

這說明:

SII 是基礎(chǔ),它實現(xiàn) support 信息向 query 的注入;
QE 能增強(qiáng) query latent 中目標(biāo)區(qū)域的表示;
VTCT 能把 support 視覺信息轉(zhuǎn)化為更有效的條件引導(dǎo);
三者組合后具有互補效果。


5. Stable Diffusion 版本對性能有影響

表4比較了 Stable Diffusion 1.5 和 2.1 作為骨干時的性能。SD 1.5 的平均 Dice 為 83.66%,高于 SD 2.1 的 82.84%。作者認(rèn)為,SD 1.5 的預(yù)訓(xùn)練數(shù)據(jù)更寬泛,保留了更通用的視覺先驗,因此更適合遷移到醫(yī)學(xué)圖像結(jié)構(gòu)和紋理理解任務(wù)中。


6. 失敗案例揭示未來改進(jìn)方向

補充材料中的圖7展示了失敗案例。SD-FSMIS 在部分 Abd-MRI 圖像上仍會出現(xiàn)肝臟分割不完整、左腎受高顯著區(qū)域干擾、脾臟和左腎距離較近時發(fā)生誤合并等問題。作者認(rèn)為,這主要來自醫(yī)學(xué)圖像低對比度邊界和復(fù)雜器官空間關(guān)系。未來可以通過更強(qiáng)的邊界建模或注意力機(jī)制進(jìn)一步改進(jìn)。

圖8展示訓(xùn)練過程可視化,模型在訓(xùn)練早期就能較好分割簡單類別,在約 5000 次迭代時對肝臟等復(fù)雜類別也能形成較好的分割結(jié)果。這從側(cè)面說明擴(kuò)散模型先驗確實為少樣本分割提供了較強(qiáng)初始化能力。


四、總結(jié)

這篇論文的核心貢獻(xiàn)在于:它沒有繼續(xù)沿著傳統(tǒng) FSMIS 方法“設(shè)計更復(fù)雜專用網(wǎng)絡(luò)”的路線前進(jìn),而是提出了一種更具基礎(chǔ)模型思維的新范式——將預(yù)訓(xùn)練 Stable Diffusion 適配到少樣本醫(yī)學(xué)圖像分割中。

SD-FSMIS 通過 SQI 實現(xiàn) support-query 交互,通過 VTCT 把 support 視覺信息轉(zhuǎn)化為 text-like condition,再通過 QE 增強(qiáng) query latent 表示,從而讓 Stable Diffusion 的通用視覺先驗服務(wù)于醫(yī)學(xué)圖像分割任務(wù)。實驗結(jié)果表明,該方法不僅在標(biāo)準(zhǔn) FSMIS 設(shè)置下表現(xiàn)優(yōu)異,更在跨 CT/MRI 的跨域場景中展現(xiàn)出明顯優(yōu)勢。

從研究意義上看,這篇論文說明:大規(guī)模生成模型不僅可以用于圖像生成,也可以被有效改造為醫(yī)學(xué)圖像理解和分割工具。對于標(biāo)注稀缺、域偏移嚴(yán)重的醫(yī)學(xué)場景而言,這種“適配基礎(chǔ)模型”的路線可能比從零訓(xùn)練專用模型更具潛力。


CVPR 2026 | 只給一個標(biāo)注樣本,擴(kuò)散模型也能做醫(yī)學(xué)圖像分割?深圳大學(xué)提出 SD-FSMIS

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
辽阳县| 星子县| 柳州市| 重庆市| 河西区| 沅陵县| 富平县| 阳曲县| 济南市| 柘城县| 叙永县| 威宁| 靖州| 武威市| 务川| 咸阳市| 金堂县| 北海市| 休宁县| 漳浦县| 宣武区| 宁陕县| 民县| 张北县| 嘉峪关市| 桑植县| 武川县| 綦江县| 开鲁县| 孝感市| 莎车县| 土默特右旗| 乐陵市| 江安县| 西乌珠穆沁旗| 平顺县| 阜南县| 阿荣旗| 固阳县| 乌兰察布市| 厦门市|