97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

本文作者: 陳淑瑜   2026-06-11 13:44
導(dǎo)語(yǔ):用 VLM 生成 object-level supervision,再訓(xùn)練專門模型,是一個(gè)很可復(fù)用的思路。

 

來(lái)源:公眾號(hào)“AI上分搭子”

原文鏈接:https://mp.weixin.qq.com/s/M8hMiiMzQeIcRwwPe7eZ3Q

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

TL;DR

Dense Video Object Captioning,簡(jiǎn)稱 DVOC。

它想做的事很細(xì):

  • ? 在視頻里找到每個(gè)物體;
  • ? 給它分割 mask 或 box;
  • ? 跨幀跟住它;
  • ? 最后為這條物體軌跡寫(xiě)一句 caption。

這篇 CVPR 2026 論文走了一條很干凈的路線。

先造數(shù)據(jù)。

作者用 Gemini 2.0 Flash 給 LVIS 和 LV-VIS 生成 object-level captions,得到兩個(gè)新數(shù)據(jù)集:LVISCap 和 LV-VISCap。

再訓(xùn)模型。

CaptionFormer 用 OVFormer / Mask2Former 做 clip-level segmentation,再把同一個(gè)物體在多個(gè)片段里的 query 聚合起來(lái),交給 BLIP-2 風(fēng)格的 captioning head。

結(jié)果也比較清楚:

  • VidSTG:CHOTA 到 64.0
  • VLN:CHOTA 到 47.7
  • BenSMOT:CIDEr 到 42.6
CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚



01|視頻理解里,有個(gè)很麻煩的小任務(wù)

普通的視頻檢測(cè)任務(wù),大多回答:

畫(huà)面里有什么?

Tracking 再多問(wèn)一句:

這個(gè)物體下一幀去哪了?

DVOC 要求更細(xì)。

它希望模型對(duì)視頻里的每個(gè)物體都交出一份“小報(bào)告”:

  • ? 它在哪里;
  • ? 它屬于哪條軌跡;
  • ? 它在做什么;
  • ? 怎么用自然語(yǔ)言描述它。

比如一個(gè)人拿著削筆刀,模型不能只說(shuō)“person”。

它最好能描述:

一個(gè)人正用手拿著并轉(zhuǎn)動(dòng)一個(gè)黑色削筆刀。

聽(tīng)起來(lái)只是多一句話。

但訓(xùn)練時(shí)會(huì)很貴。

因?yàn)槊總€(gè)視頻都有多個(gè)物體,每個(gè)物體又跨越多個(gè)時(shí)間點(diǎn)。要給這些軌跡逐條寫(xiě) caption,人工標(biāo)注成本會(huì)迅速爆炸。

已有方法通常繞著走:

  • ? 檢測(cè)、跟蹤、captioning 分開(kāi)訓(xùn);
  • ? 或者把多個(gè)預(yù)訓(xùn)練模塊拼起來(lái);
  • ? 再靠評(píng)估時(shí)的格式適配完成 DVOC。

能跑。

但監(jiān)督信號(hào)沒(méi)有真正合在一起。

CaptionFormer 抓住的,就是這個(gè)數(shù)據(jù)缺口。


02|Key Insight:segmentation 數(shù)據(jù)里,其實(shí)已經(jīng)藏著半個(gè)答案

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

Figure 2 是這篇論文最值得先看的圖。

它講數(shù)據(jù)怎么來(lái)。

LVIS 和 LV-VIS 本來(lái)就有物體 mask、box 和 category。

缺的是 caption。

作者沒(méi)有從零人工寫(xiě) caption,而是把已有標(biāo)注轉(zhuǎn)成一個(gè) VLM 能理解的問(wèn)題:

請(qǐng)描述這個(gè)被框出來(lái)的物體。

做法并不繞。

先從 mask 提取 bounding box。

再把目標(biāo)物體的 box 畫(huà)到視頻幀上。

然后把這些信息寫(xiě)進(jìn) prompt:

  • ? 目標(biāo)類別;
  • ? bbox 坐標(biāo);
  • ? bbox 面積;
  • ? 其他物體類別;
  • ? 少量示例。

最后送給 Gemini 2.0 Flash,生成 object-level caption。

這樣一來(lái),原來(lái)的 segmentation 數(shù)據(jù)集被擴(kuò)展成 DVOC 訓(xùn)練集:

  • LVISCap:圖像物體 caption,用來(lái)做 image-level pretraining;
  • LV-VISCap:視頻物體軌跡 caption,用來(lái)做 video-level training。

這一步把問(wèn)題換了一個(gè)形態(tài):不再死磕昂貴人工標(biāo)注,而是想辦法穩(wěn)定地產(chǎn)生細(xì)粒度監(jiān)督。


03|CaptionFormer 怎么工作

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

Figure 3 是方法圖。

CaptionFormer 大致分三段。

第一段:clip-level 視覺(jué)理解

視頻被切成若干 clip。

每個(gè) clip 先經(jīng)過(guò) OVFormer / Mask2Former,輸出 object queries。

這些 query 會(huì)對(duì)應(yīng):

  • ? mask;
  • ? box;
  • ? object score;
  • ? class score。

第二段:跨 clip 跟蹤

同一個(gè)物體會(huì)出現(xiàn)在不同 clip 里。

模型用 Hungarian matching 做 query matching,把這些片段接成軌跡。

這一步讓模型能處理“物體消失又出現(xiàn)”的情況。

第三段:給軌跡寫(xiě) caption

對(duì)每條物體軌跡,CaptionFormer 會(huì)從多個(gè) clip 里取 query。

再做 temporal aggregation。

最后把聚合后的 video-level query 送到 BLIP-2 風(fēng)格的 LLM decoder,生成一句 caption。

最后輸出的是:

一條物體軌跡 + mask / box + caption。

DVOC 需要的幾件事,在同一個(gè)模型里接上了。


04|最少公式版理解

這里保留三條公式。

不用細(xì)摳符號(hào),看它們分別在做什么就夠了。

1. 把 mask 變成 VLM 能看的視覺(jué)提示

意思是:

第  個(gè)物體的 bounding box 被畫(huà)到第  幀上。

VLM 看到的不是原始視頻,而是“這個(gè)框里的物體”。


2. 把多個(gè) clip 的 query 聚合成一條軌跡表示

同一個(gè)物體在不同 clip 里會(huì)有不同 query。

CaptionFormer 用檢測(cè)分?jǐn)?shù)  做權(quán)重,把它們匯總起來(lái)。

這就是 temporal aggregation。


3. 訓(xùn)練時(shí)把視覺(jué)和語(yǔ)言監(jiān)督放在一起

這里不用糾結(jié)某個(gè) loss 的細(xì)節(jié)。

關(guān)鍵在于,captioning loss 也會(huì)回到 object query 上。

這讓 caption 監(jiān)督不只是最后接一個(gè)文字生成頭,而是參與塑造物體表示。


05|實(shí)驗(yàn)結(jié)果:它到底強(qiáng)在哪

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

Table 3 是 VidSTG 上的主結(jié)果。

先看幾組數(shù)字。

Benchmark
方法
關(guān)鍵指標(biāo)
VidSTG
DVOC-DS
CHOTA 56.9
VidSTG
CaptionFormer + temp agg
CHOTA 64.0
VidSTG
DVOC-DS
CapA 39.7
VidSTG
CaptionFormer + temp agg
CapA 55.4

VidSTG 里,CapA 的提升尤其明顯。

synthetic object captions 不是裝飾性的文字補(bǔ)丁,它補(bǔ)的是 DVOC 最缺的監(jiān)督。

再看 VLN。

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚
Benchmark
方法
CHOTA
VLN
DVOC-DS
41.3
VLN
CaptionFormer
45.4
VLN
CaptionFormer + mask loss + temp agg
47.7

這張表還有一個(gè)細(xì)節(jié)。

加入 mask loss 后,DetA 從 48.7 到 50.1,AssA 從 89.7 到 92.7。

也就是說(shuō),把 DVOC 從 box 擴(kuò)展到 segmentation mask,不只是形式上更細(xì),指標(biāo)也受益。

BenSMOT 上看 CIDEr。

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚
方法
CIDEr
SMOTer
8.7
DVOC-DS
25.4
CaptionFormer
39.9
CaptionFormer + temp agg
42.6

BenSMOT 主要關(guān)注人。

CaptionFormer 在這里的 CIDEr 提升很大,說(shuō)明它對(duì)“物體軌跡描述”本身更有優(yōu)勢(shì)。

還有一個(gè)實(shí)際成本信息也值得留意。

作者寫(xiě)到,相比 DVOC-DS 的 2032 GPU hours,他們的方法對(duì)應(yīng) 208 GPU hours。

如果這個(gè)數(shù)字在復(fù)現(xiàn)中能站住,CaptionFormer 不只是效果更好,也更容易被后續(xù)工作拿來(lái)用。


06|Ablation:哪些設(shè)計(jì)真的有用

Ablation 部分可以看四個(gè)地方。

Prompt 怎么寫(xiě)

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

Table 1 很直觀。

只給單幀或多幀,人工評(píng)分只有 26.8 / 27.1。

加入 category labels 后,直接到 80.7

再加 bbox coordinates、bbox area 和 few-shot examples,最終到 85.1

這個(gè)差距很說(shuō)明問(wèn)題。

VLM 本身很強(qiáng),但它不會(huì)自動(dòng)知道你到底想描述哪個(gè)物體。

框、類別、面積、上下文,這些提示都在幫模型把注意力落到目標(biāo)軌跡上。

LVISCap 和 LV-VISCap 是否互補(bǔ)

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

SwinB 設(shè)置下:

訓(xùn)練數(shù)據(jù)
CHOTA
只用 LV-VISCap
54.7
只用 LVISCap
45.8
LVISCap + LV-VISCap
59.5

圖像數(shù)據(jù)給規(guī)模。

視頻數(shù)據(jù)給時(shí)間和軌跡語(yǔ)境。

兩者合起來(lái),模型表現(xiàn)最好。

數(shù)據(jù)規(guī)模還能不能繼續(xù)吃

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

Figure 4 顯示,CapA 和 LVISCap captions 數(shù)量呈 log-linear 相關(guān)。

換成更直白的話:

繼續(xù)生成更多 caption,可能還有提升空間。

當(dāng)然,前提是 caption 質(zhì)量不能塌。

temporal aggregation 有沒(méi)有必要

CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚
聚合方式
CapA
CHOTA
1 clip, best score
51.0
62.3
8 uniform clips
52.7
63.0
16 uniform clips
53.8
63.4
32 uniform clips
55.464.0

視頻里的動(dòng)作通常不是一幀能講完的。

多個(gè) clip 聚合后,captioning 的信息更完整。

Table 8 還有一個(gè)小驚喜。

加入 captioning loss 后,LV-VISCap 上 video instance segmentation 的 mAP 從 31.7 到 34.2。

caption 監(jiān)督反過(guò)來(lái)幫了視覺(jué) query。

這也是本文一個(gè)挺有意思的副作用。


07|Takeaway Message

CaptionFormer 最值得記住的點(diǎn),是它把 DVOC 缺的監(jiān)督補(bǔ)齊了。

每個(gè)物體不再只有 mask、box、category。

它還有一條跨時(shí)間的 caption。

有了這份數(shù)據(jù),模型就可以圍繞 object query 同時(shí)學(xué)習(xí):

  • ? 分割;
  • ? 檢測(cè);
  • ? 跟蹤;
  • ? 描述。

這條路線的實(shí)用性很強(qiáng)。

先用強(qiáng) VLM 批量生成細(xì)粒度監(jiān)督。

再訓(xùn)練一個(gè)更專門、更可評(píng)估的視頻模型。

對(duì)于長(zhǎng)視頻理解、視頻編輯、機(jī)器人和交互式檢索,這種“軌跡 + 描述”的輸出會(huì)很有用。


08|代碼、數(shù)據(jù)與 GPT-5.5 編輯點(diǎn)評(píng)

代碼 / 項(xiàng)目頁(yè):

  • https://www.gabriel.fiastre.fr/captionformer/

論文正文寫(xiě)明:code 和 generated annotations 會(huì)在項(xiàng)目頁(yè)提供。


GPT-5.5 尾注

為什么值得看

  • ? DVOC 比普通視頻檢測(cè)更接近真實(shí)理解:系統(tǒng)要知道物體在哪里,也要能講清楚它在視頻里發(fā)生了什么。
  • ? 它沒(méi)有只改模型。先補(bǔ)數(shù)據(jù),再訓(xùn)模型,路線比較完整。
  • ? 用 VLM 生成 object-level supervision,再訓(xùn)練專門模型,是一個(gè)很可復(fù)用的思路。

讀的時(shí)候要保留的判斷

  • ? CaptionFormer 是面向 DVOC 的專門系統(tǒng),不是通用視頻大模型。
  • ? synthetic captions 的質(zhì)量很關(guān)鍵。Table 1 已經(jīng)說(shuō)明,prompt 寫(xiě)法會(huì)明顯影響標(biāo)注質(zhì)量。
  • ? 當(dāng)前 benchmark 的動(dòng)作復(fù)雜度有限。Table 7 里單個(gè) best-score clip 已經(jīng)表現(xiàn)不錯(cuò),更長(zhǎng)、更復(fù)雜的視頻可能會(huì)更考驗(yàn) temporal aggregation。

后續(xù)可以關(guān)注什么

  • ? 這套 caption 生成流水線能否擴(kuò)到更長(zhǎng)視頻、更開(kāi)放類別和更復(fù)雜交互。
  • ? 生成 captions 的偏差如何控制,尤其是 VLM 自身的幻覺(jué)和模板化描述。
  • ? 如果代碼和標(biāo)注開(kāi)放順利,CaptionFormer 可能會(huì)成為 DVOC 后續(xù)工作的一個(gè)方便起點(diǎn)。

Reference

  • ? Zhou et al. Dense Video Object Captioning from Disjoint Supervision. ICLR 2025.
  • ? Choudhuri et al. OW-VisCapTor: Open-World Video Instance Captioning and Tracking. arXiv 2025.
  • ? Li et al. Beyond MOT: Semantic Multi-Object Tracking. ECCV 2024.
  • ? Fang et al. Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation. ECCV 2025.
  • ? Wang et al. Towards Open-Vocabulary Video Instance Segmentation. ICCV 2023.
  • ? Li et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.

 


CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個(gè)物體,都能被跟住、分出來(lái)、說(shuō)清楚

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
徐水县| 湖南省| 南和县| 独山县| 玛沁县| 连州市| 四平市| 宁津县| 昌乐县| 军事| 景泰县| 祁连县| 女性| 三都| 修武县| 建水县| 南召县| 三都| 麻阳| 嵩明县| 岳阳市| 留坝县| 广昌县| 应用必备| 肇庆市| 武义县| 绵阳市| 永新县| 大冶市| 苍山县| 安图县| 双柏县| 钟山县| 辰溪县| 都安| 永福县| 邵武市| 会宁县| 中西区| 云浮市| 南郑县|