CVPR 2026｜DeepMind 出品 CaptionFormer：視頻的每個(gè)物體，都能被跟住、分出來(lái)、說(shuō)清楚

本文作者：陳淑瑜

2026-06-11 13:44

導(dǎo)語(yǔ)：用 VLM 生成 object-level supervision，再訓(xùn)練專門模型，是一個(gè)很可復(fù)用的思路。

來(lái)源：公眾號(hào)“AI上分搭子”

原文鏈接：https://mp.weixin.qq.com/s/M8hMiiMzQeIcRwwPe7eZ3Q

CVPR 2026｜DeepMind 出品 CaptionFormer：視頻的每個(gè)物體，都能被跟住、分出來(lái)、說(shuō)清楚

TL;DR

Dense Video Object Captioning，簡(jiǎn)稱 DVOC。

它想做的事很細(xì)：

? 在視頻里找到每個(gè)物體；
? 給它分割 mask 或 box；
? 跨幀跟住它；
? 最后為這條物體軌跡寫(xiě)一句 caption。

這篇 CVPR 2026 論文走了一條很干凈的路線。

先造數(shù)據(jù)。

作者用 Gemini 2.0 Flash 給 LVIS 和 LV-VIS 生成 object-level captions，得到兩個(gè)新數(shù)據(jù)集：LVISCap 和 LV-VISCap。

再訓(xùn)模型。

CaptionFormer 用 OVFormer / Mask2Former 做 clip-level segmentation，再把同一個(gè)物體在多個(gè)片段里的 query 聚合起來(lái)，交給 BLIP-2 風(fēng)格的 captioning head。

結(jié)果也比較清楚：

? VidSTG：CHOTA 到 64.0
? VLN：CHOTA 到 47.7
? BenSMOT：CIDEr 到 42.6

01｜視頻理解里，有個(gè)很麻煩的小任務(wù)

普通的視頻檢測(cè)任務(wù)，大多回答：

畫(huà)面里有什么？

Tracking 再多問(wèn)一句：

這個(gè)物體下一幀去哪了？

DVOC 要求更細(xì)。

它希望模型對(duì)視頻里的每個(gè)物體都交出一份“小報(bào)告”：

? 它在哪里；
? 它屬于哪條軌跡；
? 它在做什么；
? 怎么用自然語(yǔ)言描述它。

比如一個(gè)人拿著削筆刀，模型不能只說(shuō)“person”。

它最好能描述：

一個(gè)人正用手拿著并轉(zhuǎn)動(dòng)一個(gè)黑色削筆刀。

聽(tīng)起來(lái)只是多一句話。

但訓(xùn)練時(shí)會(huì)很貴。

因?yàn)槊總€(gè)視頻都有多個(gè)物體，每個(gè)物體又跨越多個(gè)時(shí)間點(diǎn)。要給這些軌跡逐條寫(xiě) caption，人工標(biāo)注成本會(huì)迅速爆炸。

已有方法通常繞著走：

? 檢測(cè)、跟蹤、captioning 分開(kāi)訓(xùn)；
? 或者把多個(gè)預(yù)訓(xùn)練模塊拼起來(lái)；
? 再靠評(píng)估時(shí)的格式適配完成 DVOC。

能跑。

但監(jiān)督信號(hào)沒(méi)有真正合在一起。

CaptionFormer 抓住的，就是這個(gè)數(shù)據(jù)缺口。

02｜Key Insight：segmentation 數(shù)據(jù)里，其實(shí)已經(jīng)藏著半個(gè)答案

Figure 2 是這篇論文最值得先看的圖。

它講數(shù)據(jù)怎么來(lái)。

LVIS 和 LV-VIS 本來(lái)就有物體 mask、box 和 category。

缺的是 caption。

作者沒(méi)有從零人工寫(xiě) caption，而是把已有標(biāo)注轉(zhuǎn)成一個(gè) VLM 能理解的問(wèn)題：

請(qǐng)描述這個(gè)被框出來(lái)的物體。

做法并不繞。

先從 mask 提取 bounding box。

再把目標(biāo)物體的 box 畫(huà)到視頻幀上。

然后把這些信息寫(xiě)進(jìn) prompt：

? 目標(biāo)類別；
? bbox 坐標(biāo)；
? bbox 面積；
? 其他物體類別；
? 少量示例。

最后送給 Gemini 2.0 Flash，生成 object-level caption。

這樣一來(lái)，原來(lái)的 segmentation 數(shù)據(jù)集被擴(kuò)展成 DVOC 訓(xùn)練集：

? LVISCap：圖像物體 caption，用來(lái)做 image-level pretraining；
? LV-VISCap：視頻物體軌跡 caption，用來(lái)做 video-level training。

這一步把問(wèn)題換了一個(gè)形態(tài)：不再死磕昂貴人工標(biāo)注，而是想辦法穩(wěn)定地產(chǎn)生細(xì)粒度監(jiān)督。

03｜CaptionFormer 怎么工作

Figure 3 是方法圖。

CaptionFormer 大致分三段。

第一段：clip-level 視覺(jué)理解

視頻被切成若干 clip。

每個(gè) clip 先經(jīng)過(guò) OVFormer / Mask2Former，輸出 object queries。

這些 query 會(huì)對(duì)應(yīng)：

? mask；
? box；
? object score；
? class score。

第二段：跨 clip 跟蹤

同一個(gè)物體會(huì)出現(xiàn)在不同 clip 里。

模型用 Hungarian matching 做 query matching，把這些片段接成軌跡。

這一步讓模型能處理“物體消失又出現(xiàn)”的情況。

第三段：給軌跡寫(xiě) caption

對(duì)每條物體軌跡，CaptionFormer 會(huì)從多個(gè) clip 里取 query。

再做 temporal aggregation。

最后把聚合后的 video-level query 送到 BLIP-2 風(fēng)格的 LLM decoder，生成一句 caption。

最后輸出的是：

一條物體軌跡 + mask / box + caption。

DVOC 需要的幾件事，在同一個(gè)模型里接上了。

04｜最少公式版理解

這里保留三條公式。

不用細(xì)摳符號(hào)，看它們分別在做什么就夠了。

1. 把 mask 變成 VLM 能看的視覺(jué)提示

意思是：

第個(gè)物體的 bounding box 被畫(huà)到第幀上。

VLM 看到的不是原始視頻，而是“這個(gè)框里的物體”。

2. 把多個(gè) clip 的 query 聚合成一條軌跡表示

同一個(gè)物體在不同 clip 里會(huì)有不同 query。

CaptionFormer 用檢測(cè)分?jǐn)?shù) 做權(quán)重，把它們匯總起來(lái)。

這就是 temporal aggregation。

3. 訓(xùn)練時(shí)把視覺(jué)和語(yǔ)言監(jiān)督放在一起

這里不用糾結(jié)某個(gè) loss 的細(xì)節(jié)。

關(guān)鍵在于，captioning loss 也會(huì)回到 object query 上。

這讓 caption 監(jiān)督不只是最后接一個(gè)文字生成頭，而是參與塑造物體表示。

05｜實(shí)驗(yàn)結(jié)果：它到底強(qiáng)在哪

Table 3 是 VidSTG 上的主結(jié)果。

先看幾組數(shù)字。

Benchmark	方法	關(guān)鍵指標(biāo)
VidSTG	DVOC-DS	CHOTA 56.9
VidSTG	CaptionFormer + temp agg	CHOTA 64.0
VidSTG	DVOC-DS	CapA 39.7
VidSTG	CaptionFormer + temp agg	CapA 55.4

VidSTG 里，CapA 的提升尤其明顯。

synthetic object captions 不是裝飾性的文字補(bǔ)丁，它補(bǔ)的是 DVOC 最缺的監(jiān)督。

再看 VLN。

Benchmark	方法	CHOTA
VLN	DVOC-DS	41.3
VLN	CaptionFormer	45.4
VLN	CaptionFormer + mask loss + temp agg	47.7

這張表還有一個(gè)細(xì)節(jié)。

加入 mask loss 后，DetA 從 48.7 到 50.1，AssA 從 89.7 到 92.7。

也就是說(shuō)，把 DVOC 從 box 擴(kuò)展到 segmentation mask，不只是形式上更細(xì)，指標(biāo)也受益。

BenSMOT 上看 CIDEr。

方法	CIDEr
SMOTer	8.7
DVOC-DS	25.4
CaptionFormer	39.9
CaptionFormer + temp agg	42.6

BenSMOT 主要關(guān)注人。

CaptionFormer 在這里的 CIDEr 提升很大，說(shuō)明它對(duì)“物體軌跡描述”本身更有優(yōu)勢(shì)。

還有一個(gè)實(shí)際成本信息也值得留意。

作者寫(xiě)到，相比 DVOC-DS 的 2032 GPU hours，他們的方法對(duì)應(yīng) 208 GPU hours。

如果這個(gè)數(shù)字在復(fù)現(xiàn)中能站住，CaptionFormer 不只是效果更好，也更容易被后續(xù)工作拿來(lái)用。

06｜Ablation：哪些設(shè)計(jì)真的有用

Ablation 部分可以看四個(gè)地方。

Prompt 怎么寫(xiě)

Table 1 很直觀。

只給單幀或多幀，人工評(píng)分只有 26.8 / 27.1。

加入 category labels 后，直接到 80.7。

再加 bbox coordinates、bbox area 和 few-shot examples，最終到 85.1。

這個(gè)差距很說(shuō)明問(wèn)題。

VLM 本身很強(qiáng)，但它不會(huì)自動(dòng)知道你到底想描述哪個(gè)物體。

框、類別、面積、上下文，這些提示都在幫模型把注意力落到目標(biāo)軌跡上。

LVISCap 和 LV-VISCap 是否互補(bǔ)

SwinB 設(shè)置下：

訓(xùn)練數(shù)據(jù)	CHOTA
只用 LV-VISCap	54.7
只用 LVISCap	45.8
LVISCap + LV-VISCap	59.5

圖像數(shù)據(jù)給規(guī)模。

視頻數(shù)據(jù)給時(shí)間和軌跡語(yǔ)境。

兩者合起來(lái)，模型表現(xiàn)最好。

數(shù)據(jù)規(guī)模還能不能繼續(xù)吃

Figure 4 顯示，CapA 和 LVISCap captions 數(shù)量呈 log-linear 相關(guān)。

換成更直白的話：

繼續(xù)生成更多 caption，可能還有提升空間。

當(dāng)然，前提是 caption 質(zhì)量不能塌。

temporal aggregation 有沒(méi)有必要

聚合方式	CapA	CHOTA
1 clip, best score	51.0	62.3
8 uniform clips	52.7	63.0
16 uniform clips	53.8	63.4
32 uniform clips	55.4	64.0

視頻里的動(dòng)作通常不是一幀能講完的。

多個(gè) clip 聚合后，captioning 的信息更完整。

Table 8 還有一個(gè)小驚喜。

加入 captioning loss 后，LV-VISCap 上 video instance segmentation 的 mAP 從 31.7 到 34.2。

caption 監(jiān)督反過(guò)來(lái)幫了視覺(jué) query。

這也是本文一個(gè)挺有意思的副作用。

07｜Takeaway Message

CaptionFormer 最值得記住的點(diǎn)，是它把 DVOC 缺的監(jiān)督補(bǔ)齊了。

每個(gè)物體不再只有 mask、box、category。

它還有一條跨時(shí)間的 caption。

有了這份數(shù)據(jù)，模型就可以圍繞 object query 同時(shí)學(xué)習(xí)：

? 分割；
? 檢測(cè)；
? 跟蹤；
? 描述。

這條路線的實(shí)用性很強(qiáng)。

先用強(qiáng) VLM 批量生成細(xì)粒度監(jiān)督。

再訓(xùn)練一個(gè)更專門、更可評(píng)估的視頻模型。

對(duì)于長(zhǎng)視頻理解、視頻編輯、機(jī)器人和交互式檢索，這種“軌跡 + 描述”的輸出會(huì)很有用。

08｜代碼、數(shù)據(jù)與 GPT-5.5 編輯點(diǎn)評(píng)

代碼 / 項(xiàng)目頁(yè)：

? https://www.gabriel.fiastre.fr/captionformer/

論文正文寫(xiě)明：code 和 generated annotations 會(huì)在項(xiàng)目頁(yè)提供。

GPT-5.5 尾注

為什么值得看

? DVOC 比普通視頻檢測(cè)更接近真實(shí)理解：系統(tǒng)要知道物體在哪里，也要能講清楚它在視頻里發(fā)生了什么。
? 它沒(méi)有只改模型。先補(bǔ)數(shù)據(jù)，再訓(xùn)模型，路線比較完整。
? 用 VLM 生成 object-level supervision，再訓(xùn)練專門模型，是一個(gè)很可復(fù)用的思路。

讀的時(shí)候要保留的判斷

? CaptionFormer 是面向 DVOC 的專門系統(tǒng)，不是通用視頻大模型。
? synthetic captions 的質(zhì)量很關(guān)鍵。Table 1 已經(jīng)說(shuō)明，prompt 寫(xiě)法會(huì)明顯影響標(biāo)注質(zhì)量。
? 當(dāng)前 benchmark 的動(dòng)作復(fù)雜度有限。Table 7 里單個(gè) best-score clip 已經(jīng)表現(xiàn)不錯(cuò)，更長(zhǎng)、更復(fù)雜的視頻可能會(huì)更考驗(yàn) temporal aggregation。

后續(xù)可以關(guān)注什么

? 這套 caption 生成流水線能否擴(kuò)到更長(zhǎng)視頻、更開(kāi)放類別和更復(fù)雜交互。
? 生成 captions 的偏差如何控制，尤其是 VLM 自身的幻覺(jué)和模板化描述。
? 如果代碼和標(biāo)注開(kāi)放順利，CaptionFormer 可能會(huì)成為 DVOC 后續(xù)工作的一個(gè)方便起點(diǎn)。

Reference

? Zhou et al. Dense Video Object Captioning from Disjoint Supervision. ICLR 2025.
? Choudhuri et al. OW-VisCapTor: Open-World Video Instance Captioning and Tracking. arXiv 2025.
? Li et al. Beyond MOT: Semantic Multi-Object Tracking. ECCV 2024.
? Fang et al. Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation. ECCV 2025.
? Wang et al. Towards Open-Vocabulary Video Instance Segmentation. ICCV 2023.
? Li et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.