97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

本文作者: 陳淑瑜   2026-06-01 15:41 專題:CVPR 計算機視覺與模式識別會議
導(dǎo)語:LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點:視覺 foundation model 很強,但很多輸出仍然是 patch-level feature。

 


來源:公眾號“AI上分搭子

原文鏈接:https://mp.weixin.qq.com/s/6VviwXMsnFYLQHkVKMUZ3w

    TL;DR

    LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點:

    視覺 foundation model 很強,但很多輸出仍然是 patch-level feature。

    做分類、檢索,patch feature 很夠用。

    但做 video object segmentation、surface normal、semantic segmentation,就會卡在更細的地方:

    邊界、幾何、跨幀一致性。

    LILA 的辦法是從未標注視頻里學(xué) pixel-level feature。

    它不需要人工 mask。

    也不要求推理時輸入視頻。

    訓(xùn)練時,它借用 off-the-shelf 模型給出的 depth、optical flow,再加上 self-distillation cue。

    核心機制叫 linear in-context learning

    簡單說:

    在一幀上學(xué)到的“從特征讀出 cue 的線性規(guī)則”,換到相鄰幀也應(yīng)該成立。

    先看幾組數(shù)字:

    • ? DAVIS-2017 / DINOv2-S14:linear probing J&F 57.5 → 68.6。
    • ? DAVIS-2017 / DINOv2-S14:local k-NN J&F 65.1 → 73.9
    • ? COCO-Stuff / DINOv2-B14:mIoU 58.5 → 62.4。
    • ? ADE20K / DINOv2-B14:mIoU 45.5 → 47.5
    • ? Table 6:MAE-B16 的 VOS J&F 44.2 → 53.6。

    01|為什么還要學(xué) pixel-level feature

    DINOv2、DINOv3 這類視覺 foundation model 已經(jīng)很強。

    它們的特征里有語義,也有不少幾何信息。

    問題在于,很多 encoder 的輸出仍然是 patch grid。

    一個 patch 里有很多像素。

    當(dāng)任務(wù)需要細邊界、局部幾何、跨幀對應(yīng)時,patch-level feature 就有點粗。

    當(dāng)然,也可以把輸入圖像放大,或者用后處理方法上采樣 feature。

    但這會帶來兩個麻煩:

    • ? 計算變貴。
    • ? 訓(xùn)練和推理的輸入分辨率不一致。

    LILA 的目標更直接:

    讓模型天然輸出每個像素一個 feature。

    而且這個 feature 不只是“看起來更細”。

    它還要帶有三類信息:

    • ? semantic
    • ? geometric
    • ? temporal consistency

    視頻在這里就派上用場了。

    視頻天然有運動,也隱含 3D 幾何。

    如果能把這些線索轉(zhuǎn)成訓(xùn)練信號,就有機會補上 image-only pretraining 缺少的部分。


    02|Key Insight:不是直接蒸餾 depth / flow,而是學(xué)“能被穩(wěn)定讀出來”的特征

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    LILA 用了 depth 和 optical flow。

    但它并不是簡單訓(xùn)練模型去預(yù)測 depth 和 flow。

    這點要先說清楚。

    因為這些 cue 本身有噪聲。

    off-the-shelf depth / flow 模型在很多視頻上能用,但不可能每個像素都準。

    如果直接把 noisy cue 當(dāng)答案蒸餾,模型很容易連噪聲一起學(xué)進去。

    LILA 換了一個問法:

    如果一幀里的 feature 真的學(xué)到了穩(wěn)定結(jié)構(gòu),那么從這幀 feature 到 cue map 的線性映射,換到相鄰幀也應(yīng)該還能用。

    這就是 linear in-context learning

    它學(xué)的不是 depth 或 flow 本身。

    它學(xué)的是一種 pixel feature:

    同一個線性讀出器,在相鄰幀里也能解釋它。

    約束很輕,但視頻里的時間一致性被用進來了。


    03|核心方法:LILA 怎么訓(xùn)練

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    LILA 從一個預(yù)訓(xùn)練 ViT 出發(fā),比如 DINOv2。

    encoder 凍住。

    只訓(xùn)練一個 DPT decoder。

    這個 decoder 通過 skip connections,把 patch-level token 上采樣成 pixel-level feature map。

    訓(xùn)練時,每次取一對相鄰幀:

    • ? context frame:
    • ? query frame:

    模型分別輸出:

    • ? context feature:
    • ? query feature:

    監(jiān)督信號來自三類 cue:

    • ? PAMR refine 后的 encoder feature
    • ? monocular depth
    • ? optical flow

    cue map 的構(gòu)造可以寫成:

    這里的  和  是對應(yīng) crop。

     是 refine 后的 encoder feature, 是 depth, 是 optical flow。

    接著,在 context frame 上求一個線性映射:

    然后要求同一個  也能解釋 query frame:

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    換個更直觀的說法:

    context frame 先給出一個“小考題”:

    這個 feature 里能不能線性讀出 depth、motion 和 encoder cue?

    query frame 接著驗證:

    同一套讀出規(guī)則,換一幀還成立嗎?

    如果成立,說明 feature 里學(xué)到的不是單幀噪聲,而是更穩(wěn)定的時空結(jié)構(gòu)。


    04|和相關(guān)方法比,LILA 提升在哪

    主結(jié)果覆蓋三個方向:

    • ? video object segmentation
    • ? surface normal estimation
    • ? semantic segmentation

    DAVIS-2017:VOS 上的提升最直觀

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    在 DINOv2-S14 上:

    方法
    Linear Probing J&F
    Local k-NN J&F
    DINOv2-S14
    57.5
    65.1
    + FeatUp
    60.5
    65.5
    + LoftUp
    63.0
    66.0
    + FlowFeat
    65.8
    67.6
    + LILA
    68.673.9

    LILA 的優(yōu)勢不只是 linear probe。

    local k-NN 也明顯提高。

    這說明它不只是讓類別更容易線性讀出來,也讓跨幀像素匹配更穩(wěn)。

    DINOv2-B14 上,LILA 也超過 FlowFeat:

    方法
    Linear Probing J&F
    Local k-NN J&F
    FlowFeat
    65.7
    69.0
    LILA
    70.474.2

    NYUv2 / COCO-Stuff:幾何和語義都受益

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Table 2 說明,LILA 并不是只為 VOS 調(diào)出來的。

    在 surface normal estimation 上,RMSE 越低越好:

    方法
    NYUv2 RMSE
    DINOv2-B14
    26.56
    FlowFeat
    26.28
    LILA
    25.71

    COCO-Stuff 上,mIoU 越高越好:

    方法
    COCO-Stuff mIoU
    DINOv2-B14
    58.5
    FlowFeat
    60.4
    LILA
    62.4

    DINOv2-L14 + Kinetics 這一行也值得看。

    LILA 的 COCO-Stuff mIoU 到 63.3

    這說明擴大視頻數(shù)據(jù)后,語義表征還能繼續(xù)漲。

    ADE20K 和 zero-shot COCO-Stuff

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Table 3 補了兩個測試。

    ADE20K 上:

    方法
    mIoU
    DINOv2-S14
    43.5
    + LILA
    45.1
    DINOv2-B14
    45.5
    + LILA
    47.5

    zero-shot COCO-Stuff 上,DINOv2-B14 的 harmonic mIoU:

    這說明 LILA 學(xué)到的 dense feature,對 unseen classes 也有幫助。


    05|Ablation:哪些部分真的有用

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Table 4 看 cue modality。

    只用 self-distillation 時,VOS local k-NN J&F 是 68.6。

    加入 depth 或 flow 后都會漲。

    三種 cue 一起用,local k-NN J&F 到 73.9。

    這說明 depth、motion、encoder feature 是互補的。

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Table 5 更關(guān)鍵。

    它比較了 LILA 和直接預(yù)測外部 cue 的 ERM distillation。

    方法
    VOS Linear / k-NN J&F
    NYUv2 RMSE
    COCO-Stuff mIoU
    ERM distillation
    63.2 / 61.1
    28.86
    58.4
    LILA Full
    68.6 / 73.928.5359.6

    兩者用的是類似 cue。

    差別在于:ERM 直接學(xué) noisy cue,LILA 用跨幀線性一致性過濾噪聲。

    這個差距說明,linear in-context learning 本身不是裝飾。它確實在起作用。

    其他組件也有貢獻:

    • ? 去掉 PAMR,VOS k-NN 從 73.9 到 71.9
    • ? 去掉 cropping,VOS k-NN 到 72.4
    • ? 去掉 temporal sampling,VOS k-NN 到 72.4。
    • ? 去掉 edge loss,VOS k-NN 到 72.9
    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Figure 7 看 temporal gap。

     太小,任務(wù)太容易,學(xué)到的表征反而弱。

     變大后,cue predictability 更難,但精度是平滑下降。

    這說明 LILA 確實在利用視頻里的時間間隔,而不是只做單幀蒸餾。


    06|Qualitative Analysis

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Figure 5 適合講兩個點:

    • ? surface normal 里,家具、邊界、局部結(jié)構(gòu)更細。
    • ? semantic segmentation 里,邊界和背景細節(jié)更清楚。
    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    Figure 6 值得放在“注意點”附近。

    它有兩個信息:

    • ? 相比 ERM distillation,LILA 的 feature map 更銳利。
    • ? 到域外圖像時,LILA 對 chest X-ray 還能給出合理表示,但 aerial image 會被陰影干擾。

    這張圖也能提醒讀者:別把方法理解成“哪里都無腦好”。

    LILA 強,但它確實依賴 depth / flow cue 的適用范圍。


    07|Takeaway Message

    LILA 的信息可以壓成一句話:

    未標注視頻里的 depth 和 motion,不只是訓(xùn)練目標,也可以變成 pixel-level representation learning 的橋。

    它沒有推翻 DINOv2 這類大 encoder。

    更像是給它們補了一個 dense decoder。

    encoder 負責(zé)強語義。

    decoder 負責(zé)把語義、幾何和時間一致性落到每個像素。

    這條路線的好處是很實用:

    訓(xùn)練時用視頻。

    推理時只要單張圖。

    不需要人工 mask。

    結(jié)果也不是只在一個 benchmark 上變好,而是在 VOS、surface normal、semantic segmentation 上一起提升。


    08|代碼、注意點與 GPT-5.5 編輯點評

    代碼 / 項目頁:

    • https://github.com/google-research/google-research/tree/master/lila
    • https://lila-pixels.github.io

    項目頁和 GitHub 已放出代碼與 pretrained checkpoints。


    GPT-5.5 尾注

    為什么值得看

    我覺得這篇最值得看的地方,是它很清楚地補了 foundation model 的一個短板。

    大 encoder 已經(jīng)有強語義。

    但 dense tasks 需要的是每個像素都可靠。

    LILA 沒有強行重訓(xùn)整個 foundation model,而是凍結(jié) encoder、訓(xùn)練 decoder,用視頻里的 depth / flow cue 把 pixel detail 補上。

    這個選擇很克制,也很工程。

    讀的時候要保留的判斷

    LILA 依賴 off-the-shelf depth 和 optical flow。

    如果這些 cue 在域外場景里不可靠,feature 也可能受影響。

    Figure 6 里的 aerial image 就是一個提醒。

    另外,很多結(jié)果是 probing 設(shè)置。

    它證明了 representation 更好,但真正接到復(fù)雜下游系統(tǒng)時,還要看 task head、訓(xùn)練數(shù)據(jù)和部署場景。

    后續(xù)可以關(guān)注什么

    第一個方向,是接更多 backbone。

    附錄 Table 6 已經(jīng)顯示,MAE-B16、DINOv2-Reg、DINOv3 上都能有提升,只是幅度不同。

    第二個方向,是引入更多 cue。

    比如更強的 3D cue、object permanence、interaction signal,甚至來自機器人交互的視頻反饋。

    第三個方向,是把 LILA 這種 dense decoder 變成視覺 foundation model 的標準配件。

    Reference

    • ? Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. arXiv 2023.
    • ? Siméoni et al. DINOv3. arXiv 2025.
    • ? Fu et al. FeatUp: A Model-Agnostic Framework for Features at Any Resolution. ICLR 2024.
    • ? Huang et al. LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models. ICCV 2025.
    • ? Araslanov et al. FlowFeat: Pixel-Dense Embedding of Motion Profiles. NeurIPS 2025.
    • ? Xu et al. YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark. arXiv 2018.
    • ? Caesar et al. COCO-Stuff: Thing and Stuff Classes in Context. CVPR 2018.

     


    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    渝北区| 江北区| 甘泉县| 梅州市| 镇巴县| 屯昌县| 河间市| 昌乐县| 建阳市| 乌鲁木齐市| 葫芦岛市| 叶城县| 永福县| 湛江市| 阿拉善盟| 垣曲县| 湘阴县| 科技| 潜江市| 普兰县| 沙河市| 政和县| 荥阳市| 凭祥市| 丰都县| 香港 | 汨罗市| 江山市| 获嘉县| 合山市| 名山县| 石渠县| 大姚县| 平遥县| 方山县| 天等县| 育儿| 姜堰市| 山西省| 越西县| 西吉县|