來(lái)源:公眾號(hào)“遙感與深度學(xué)習(xí)“原文鏈接:https://mp.weixin.qq.com/s/2bONrB7za70sCN9b43H-ig?scene=1&click_id=34
題目:F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation
會(huì)議: The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文: https://arxiv.org/abs/2506.07847
數(shù)據(jù): DeepGlobe、Inria Aerial
年份: 2026 (本篇基于2025年6月arxiv版)
單位: 悉尼大學(xué)、阿德萊德大學(xué)、清華大學(xué)、埃迪斯科文大學(xué)
CVPR2026 遙感AI方向合集:CVPR2026

創(chuàng)新點(diǎn)
- 提出基于自適應(yīng)頻率分解的多分支網(wǎng)絡(luò) F2Net,將超高分辨率遙感圖像分解為高頻與低頻分量分別處理,兼顧細(xì)節(jié)保留與語(yǔ)義建模
- 設(shè)計(jì)混合頻率融合模塊(HFF),通過(guò)跨分支通道注意力實(shí)現(xiàn)高、低頻特征的層次化自適應(yīng)聚合
- 提出跨頻率對(duì)齊損失(CFAL),利用對(duì)稱 KL 散度約束高低頻分支在語(yǔ)義層面保持一致性
- 提出跨頻率平衡損失(CFBL),顯式正則化各分支梯度范數(shù),解決多分支聯(lián)合訓(xùn)練中的梯度失衡問(wèn)題
背景
超高分辨率(UHR)遙感圖像語(yǔ)義分割在城市規(guī)劃、環(huán)境監(jiān)測(cè)等領(lǐng)域具有重要應(yīng)用價(jià)值,但其極大的圖像尺寸給現(xiàn)有分割網(wǎng)絡(luò)帶來(lái)嚴(yán)峻的計(jì)算挑戰(zhàn)。傳統(tǒng)方法通常采用下采樣或裁塊兩種策略適配網(wǎng)絡(luò)輸入,前者丟失細(xì)粒度邊界細(xì)節(jié),后者破壞全局上下文一致性。
為此,學(xué)界提出多分支架構(gòu)(如 GLNet、ISDNet)以同時(shí)保留局部細(xì)節(jié)與全局語(yǔ)義,但這類方法存在兩個(gè)核心問(wèn)題:一是分支內(nèi)部計(jì)算效率低(如反復(fù)裁塊推理),二是多分支并行訓(xùn)練引發(fā)梯度競(jìng)爭(zhēng),導(dǎo)致收斂不穩(wěn)定與特征對(duì)齊困難。本文從頻率域視角出發(fā),通過(guò)將圖像分解為高低頻分量并為各分量設(shè)計(jì)專屬分支,同時(shí)引入專用損失函數(shù),系統(tǒng)性地解決上述問(wèn)題。

數(shù)據(jù)
DeepGlobe
- 共 803 張超高分辨率衛(wèi)星圖像,分辨率為 2448×2448 像素
- 按 455/207/142 劃分訓(xùn)練、驗(yàn)證和測(cè)試集
- 包含七類地表語(yǔ)義標(biāo)注:城市、農(nóng)業(yè)、牧草地、森林、水體、裸地及未知類(未知類不參與評(píng)估)
Inria Aerial
- 共 180 張高分辨率航空影像,分辨率為 5000×5000 像素,覆蓋多樣城市場(chǎng)景
- 按 126/27/27 劃分訓(xùn)練、驗(yàn)證和測(cè)試集
- 提供二值語(yǔ)義掩碼,僅區(qū)分建筑與非建筑兩類
方法
自適應(yīng)頻率分解(AFD)
- 對(duì)輸入圖像先通過(guò)逐點(diǎn)卷積進(jìn)行跨通道映射,再沿通道維度分組
- 為每組特征動(dòng)態(tài)生成空間自適應(yīng)低通濾波器(Softmax 歸一化),并通過(guò)單位核相減得到對(duì)應(yīng)高通濾波器
- 輸出高頻分量(保留原始分辨率)與低頻分量(可安全下采樣),供后續(xù)分支分別處理
高頻分支
- 輸入為全分辨率高頻特征,采用基于狀態(tài)空間模型(VMamba)的多階段編碼器提取層次化表示
- 每個(gè)階段由多個(gè) Visual State Space(VSS)塊構(gòu)成,通過(guò) SS2D 模塊捕獲空間長(zhǎng)程依賴
- 相鄰階段間施加下采樣以逐步擴(kuò)大感受野,最終輸出高頻語(yǔ)義特征圖
低頻分支
短程子分支
- 基于 CNN 骨干網(wǎng)絡(luò)(DeepLabv3+ResNet-18)對(duì)下采樣低頻分量建模局部語(yǔ)義特征
- 處理分辨率為原圖的 1/4,兼顧局部細(xì)節(jié)與計(jì)算效率
長(zhǎng)程子分支
- 基于輕量級(jí)視覺(jué) Transformer(TinyViT)建模長(zhǎng)程全局依賴
- 同樣在 1/4 分辨率下運(yùn)行,捕獲宏觀語(yǔ)義上下文
混合頻率融合模塊(HFF)
- 對(duì)兩個(gè)低頻子分支分別施加通道注意力,再通過(guò)跨分支注意力矩陣建模兩者間的特征交互關(guān)系
- 融合后的低頻聯(lián)合特征再與高頻分支輸出經(jīng)第二個(gè) HFF 模塊進(jìn)行最終聚合
- 聚合后特征送入分割頭生成預(yù)測(cè)結(jié)果
跨頻率損失函數(shù)
CFAL
:采用對(duì)稱 KL 散度約束高、低頻分支輸出在語(yǔ)義層面的一致性,防止融合時(shí)的語(yǔ)義錯(cuò)位CFBL
:計(jì)算各分支相對(duì)于交叉熵?fù)p失的梯度范數(shù),并懲罰其與均值的偏差,抑制某一分支主導(dǎo)優(yōu)化過(guò)程- 最終損失為三項(xiàng)加權(quán)之和,各權(quán)重為可調(diào)超參數(shù)
結(jié)果與分析
F2Net 在 DeepGlobe 和 Inria Aerial 兩個(gè)基準(zhǔn)上均達(dá)到當(dāng)前最優(yōu)性能,相比已有最佳 UHR 分割方法在 mIoU 上取得了顯著提升。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各分支、融合模塊及損失函數(shù)的獨(dú)立貢獻(xiàn),以及三者協(xié)同帶來(lái)的性能增益。



