0
本文為 AI 研習社編譯的技術博客,原標題 :
Review: SegNet (Semantic Segmentation)
作者 | SH Tsang
翻譯 | 斯蒂芬?二狗子
校對 | 醬番梨 審核 | 約翰遜 · 李加薪 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/review-segnet-semantic-segmentation-e66f2e30fb96
這個圖是SegNet演示效果,來源是作者上傳到YouTube的一個視頻 (https://www.youtube.com/watch?v=CxanE_W46ts)
在本文中,我將簡要回顧劍橋大學的SegNet。最初它被提交到2015年CVPR,但最后它沒有在CVPR上發(fā)布(但它的2015年arXiv技術報告版本仍然有超過100次引用)。相反,它發(fā)布于2017年TPAMI,引用次數(shù)超過1800次?,F(xiàn)在,第一作者成為Magic Leap Inc.的深度學習和人工智能總監(jiān)(SH Tsang @ Medium)
以下是作者的演示鏈接:
(https://www.youtube.com/watch?v=CxanE_W46ts)
還有一個有趣的演示,我們可以選擇隨機圖像,甚至上傳我們自己的圖像來試用SegNet。我試過如下例子:
http://mi.eng.cam.ac.uk/projects/segnet/demo.php
我從這個鏈接得到的道路場景圖像的分割結果
文章大綱
編碼-解碼器架構
DeconvNet 和 U-Net與的不同之處
結論
SegNet: 編碼-解碼結構
SegNet具有編碼器網(wǎng)絡和相應的解碼器網(wǎng)絡,接著是按最終像素的分類層。
1.1. Encoder編碼器
在編碼器處,執(zhí)行卷積和最大池化。
VGG-16有13個卷積層。 (不用全連接的層)
在進行2×2最大池化時,存儲相應的最大池化索引(位置)。
1.2. Decoder解碼器
使用最大池化的索引進行上采樣
在解碼器處,執(zhí)行上采樣和卷積。最后,每個像素送到softmax分類器。
在上采樣期間,如上所示,調(diào)用相應編碼器層處的最大池化索引以進行上采樣。
最后,使用K類softmax分類器來預測每個像素的類別。
DeconvNet和U-Net具有與SegNet類似的結構。
2.1. DeconvNet 與 SegNet不同之處
Similar upsampling approach called unpooling is used.使用了類似的上采樣方法,稱為unpooling 反池化。
不同,有完全連接的層,這使模型規(guī)模更大。
2.2. U-Net 與 SegNet不同之處
用于生物醫(yī)學圖像分割。
整個特征映射不是使用池化索引,而是從編碼器傳輸?shù)浇獯a器,然后使用concatenation串聯(lián)來執(zhí)行卷積。
這使模型更大,需要更多內(nèi)存
嘗試了兩個數(shù)據(jù)集。一個是用于道路場景分割的CamVid數(shù)據(jù)集。一個是用于室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集。
3.1. 用于道路場景分割的CamVid數(shù)據(jù)集
道路場景分割的CamVid數(shù)據(jù)集上,與傳統(tǒng)方法相互比較
如上所示,SegNet在多類分割問題上獲得了非常好的結果。它也獲得了最高級別的類平均值和全局平均值。
道路場景分割的CamVid數(shù)據(jù)集上,與深度學習方法相比較
獲得最高的全局平均準確度(G),類別平均準確度(C),mIOU和邊界F1測量(BF)。它的結果優(yōu)于FCN,DeepLabv1和DeconvNet。
定性結果
3.2. 用于室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集
僅使用RGB,不使用深度(D)信息。
在室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集,與深度學習方法比較
同樣,SegNet優(yōu)于FCN,DeconvNet和DeepLabv1。
對于mIOU指標,SegNet只比DeepLabv1略差一些。
不同類的類平均準確度
大尺寸目標的準確度更高。
小尺寸目標的準確度較低。
定性分析結果
3.3. 內(nèi)存和推斷時間
內(nèi)存和推斷時間
SegNet比FCN和DeepLabv1慢,因為SegNet包含解碼器架構。它比DeconvNet更快,因為它沒有全連接層。
SegNet在訓練和測試期間的內(nèi)存要求都很低。并且模型尺寸比FCN和DeconvNet小得多。
參考文獻
[2015 arXiv] [SegNet]
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling
[2017 TPAMI] [SegNet]
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
想要繼續(xù)查看該篇文章相關鏈接和參考文獻?
點擊【一文帶你讀懂SegNet(語義分割)】或長按下方地址:
https://ai.yanxishe.com/page/TextTranslation/1532
AI研習社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
李飛飛主講王牌課程,計算機視覺的深化課程,神經(jīng)網(wǎng)絡在計算機視覺領域的應用,涵蓋圖像分類、定位、檢測等視覺識別任務,以及其在搜索、圖像理解、應用、地圖繪制、醫(yī)學、無人駕駛飛機和自動駕駛汽車領域的前沿應用。
加入小組免費觀看視頻:https://ai.yanxishe.com/page/groupDetail/19

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。