騰訊CVPR 50+中稿，這些技術(shù)亮點(diǎn)值得你關(guān)注！

本文作者：陳淑瑜

2026-06-02 18:19

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：在近日公布的 CVPR 2026 論文接收結(jié)果中，騰訊共有50余篇論文入選，多篇成果獲Oral與Highlight收錄。

來(lái)源：公眾號(hào)“騰訊招聘”

原文鏈接：https://mp.weixin.qq.com/s/G0JIVvBbRNt0dwe691RMmA?scene=1&click_id=41

CVPR是計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力和權(quán)威性的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一（CCF-A 類），聚焦計(jì)算機(jī)視覺(jué)、圖像識(shí)別、多模態(tài)理解、生成式視覺(jué)模型、3D 視覺(jué)、自動(dòng)駕駛等前沿方向。第43屆會(huì)議將在美國(guó)丹佛舉行，本屆會(huì)議共收到全球16,092篇有效投稿，錄用4,090篇，錄用率為25.42%。

在近日公布的 CVPR 2026 論文接收結(jié)果中，騰訊共有50余篇論文入選，多篇成果獲Oral與Highlight收錄。入選論文來(lái)自騰訊混元、優(yōu)圖實(shí)驗(yàn)室、微信、騰訊游戲、騰訊視頻等多個(gè)業(yè)務(wù)與研究團(tuán)隊(duì)，覆蓋視覺(jué)生成、多模態(tài)理解、3D 視覺(jué)、視頻理解、自動(dòng)駕駛等核心 AI 研究方向。團(tuán)隊(duì)將攜最新技術(shù)成果亮相丹佛 CVPR 現(xiàn)場(chǎng)，期待6月3日會(huì)場(chǎng)相見(jiàn)，碰撞技術(shù)火花！

From seeing to understanding，以下為部分騰訊入選本屆 CVPR 2026 的 Oral 與 Highlight 論文精選，誠(chéng)邀各位與騰訊開(kāi)啟一場(chǎng)關(guān)于視覺(jué)智能的深度對(duì)話。

Oral 論文精選

CoSMo3D: Open-World Promptable 3D Semantic Segmentation through LLM-Guided Canonical Spatial Modeling

? 2026 CVPR Best Paper Candidate ?

Oral摘要

1. 提出了 CoSMo3D，一種面向開(kāi)放世界（Open-World）的可提示（Promptable）3D語(yǔ)義部件分割方法。用戶僅需輸入任意文本描述（如“handle”“wing”等），即可在任意類別、任意姿態(tài)的3D模型中準(zhǔn)確定位對(duì)應(yīng)語(yǔ)義部件，實(shí)現(xiàn)開(kāi)放詞匯3D理解。

2. 針對(duì)現(xiàn)有方法主要依賴幾何形狀與文本語(yǔ)義匹配、缺乏空間語(yǔ)義理解的問(wèn)題，CoSMo3D首次將“Canonical Space（規(guī)范空間）感知”引入開(kāi)放世界3D語(yǔ)義分割。該方法模擬人類理解3D物體時(shí)的空間認(rèn)知機(jī)制，通過(guò)學(xué)習(xí)統(tǒng)一的規(guī)范空間表征，使模型能夠理解部件在物體中的功能位置關(guān)系，而不僅僅依賴局部幾何形狀。

3. CoSMo3D構(gòu)建了覆蓋200個(gè)類別、約17000個(gè)3D模型的跨類別規(guī)范空間數(shù)據(jù)集，并提出LLM引導(dǎo)的跨類別規(guī)范化方法，實(shí)現(xiàn)不同類別之間語(yǔ)義部件的空間對(duì)齊。同時(shí)設(shè)計(jì)雙分支網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)規(guī)范空間映射約束（Canonical Map Anchoring）和規(guī)范空間包圍盒校準(zhǔn)（Canonical Box Calibration）等機(jī)制，使模型獲得跨姿態(tài)、跨類別的一致語(yǔ)義理解能力。

4. 實(shí)驗(yàn)結(jié)果表明，CoSMo3D在3DCompat、ShapeNet-Part和PartNet-E等多個(gè)公開(kāi)基準(zhǔn)上取得新的SOTA性能，相比此前最佳3D方法Find3D平均提升25%以上，同時(shí)具備更好的跨類別泛化能力和姿態(tài)魯棒性，為開(kāi)放世界3D理解提供了新的技術(shù)路線。

團(tuán)隊(duì)介紹

騰訊游戲

光子工作室群

光子工作室群是全球知名的游戲研發(fā)團(tuán)隊(duì)，成立以來(lái)堅(jiān)持精品化和國(guó)際化發(fā)展戰(zhàn)略，致力于打造光子宇宙平臺(tái)，連接全球玩家和游戲生態(tài)。

光子持續(xù)推出了戰(zhàn)術(shù)競(jìng)技、MOBA、棋牌、MMO、射擊、體育、競(jìng)速、音樂(lè)和模擬經(jīng)營(yíng)等多個(gè)品類游戲，打造了《和平精英》《歡樂(lè)斗地主》《歡樂(lè)麻將》《黎明覺(jué)醒:生機(jī)》《末刀》《自由幻想》《最強(qiáng)美職籃》《英雄殺》《天天象棋》《斗戰(zhàn)神》《節(jié)奏大師》《全民飛機(jī)大戰(zhàn)》全民突擊》《全民小鎮(zhèn)》等多款熱門游戲，合作推出了《PUBG MOBILE》《英雄聯(lián)盟手游》，為全球億萬(wàn)用戶提供豐富優(yōu)質(zhì)的游戲體驗(yàn)。

光子以強(qiáng)大的游戲研發(fā)實(shí)力、廣闊的產(chǎn)品線為基礎(chǔ)，在IP衍生、電競(jìng)生態(tài)、社會(huì)責(zé)任等領(lǐng)域積極拓展；持續(xù)深耕游戲技術(shù)和美術(shù)核心能力，在中國(guó)、美國(guó)、新加坡、加拿大、英國(guó)、法國(guó)、日本、韓國(guó)、新西蘭、阿聯(lián)酋等多個(gè)國(guó)家和地區(qū)研發(fā)布局，不斷探索游戲的無(wú)限可能。

Highlight 論文精選

PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training

Highlight 論文摘要

1. 面對(duì)垂直領(lǐng)域或復(fù)雜視覺(jué)場(chǎng)景的開(kāi)放目標(biāo)檢測(cè)，現(xiàn)有文本提示的范式難以實(shí)現(xiàn)精準(zhǔn)的跨模態(tài)對(duì)齊，且業(yè)界普遍缺乏針對(duì)罕見(jiàn)或長(zhǎng)尾類別的多模態(tài)圖文對(duì)數(shù)據(jù)。針對(duì)這一挑戰(zhàn)，本文提出了一種能夠同時(shí)支持文本與視覺(jué)提示的通用開(kāi)放目標(biāo)檢測(cè)器PET-DINO。將視覺(jué)線索注入到先進(jìn)的文本提示檢測(cè)器中，這不僅使模型得以保持原生的文本提示檢測(cè)能力，同時(shí)顯著降低了雙模態(tài)提示檢測(cè)模型的研發(fā)與訓(xùn)練成本。

2. PET-DINO 的核心在于其創(chuàng)新設(shè)計(jì)的自適應(yīng)特征視覺(jué)提示生成模塊（AFVPG）。該模塊能夠高效提取經(jīng)由特征增強(qiáng)器處理后的圖像特征，并通過(guò)與文本分支進(jìn)行參數(shù)共享，促使模型在繼承高層語(yǔ)義理解的前提下，實(shí)現(xiàn)實(shí)例級(jí)細(xì)粒度圖像表征的精準(zhǔn)對(duì)齊。

3. 針對(duì)單圖視覺(jué)提示在開(kāi)放檢測(cè)中存在的泛化局限性與多樣性缺失問(wèn)題，本文進(jìn)一步提出了批次內(nèi)并行提示增強(qiáng)（IBP）和動(dòng)態(tài)記憶驅(qū)動(dòng)提示（DMD）策略。通過(guò)跨圖聚合當(dāng)前批次內(nèi)其他圖像的提示線索，并引入視覺(jué)線索庫(kù)（Visual Cues Bank）對(duì)歷史提示進(jìn)行流式動(dòng)態(tài)存儲(chǔ)與更新。該機(jī)制在保障多模態(tài)空間穩(wěn)健對(duì)齊的同時(shí)，有效提升了開(kāi)放檢測(cè)的泛化性，并極大拓寬了模型的跨類判別能力。

4. 相較于現(xiàn)有的前沿開(kāi)放檢測(cè)模型（如T-Rex2、CP-DETR 等），PET-DINO 在大幅減少數(shù)據(jù)依賴的前提下實(shí)現(xiàn)了性能的反超，并充分論證了基于成熟文本預(yù)訓(xùn)練模型的范式比從頭訓(xùn)練具有更高的性能上限。在 COCO、LVIS 和 ODinW 等基準(zhǔn)測(cè)試上的大量實(shí)驗(yàn)，一致驗(yàn)證了本方法的優(yōu)越性和高效性。

團(tuán)隊(duì)介紹

騰訊

優(yōu)圖實(shí)驗(yàn)室

優(yōu)圖實(shí)驗(yàn)室成立于2012年，致力于推動(dòng)AI前沿技術(shù)研究，將研究成果轉(zhuǎn)化為實(shí)際生產(chǎn)力，助力產(chǎn)業(yè)與產(chǎn)品的智能升級(jí)。

在技術(shù)研究層，重點(diǎn)研究方向包含：計(jì)算機(jī)視覺(jué)（覆蓋視覺(jué)感知理解、生圖生視頻等全棧視覺(jué)能力）、大模型技術(shù)（構(gòu)建大語(yǔ)言模型、多模態(tài)理解雙輪驅(qū)動(dòng)體系）、AI infra（聚焦計(jì)算加速、模型優(yōu)化等層地技術(shù)創(chuàng)新）

在應(yīng)用層，外部賦能通過(guò)騰訊云輸出慧眼核身、數(shù)智人、工業(yè)質(zhì)檢等解決方案；內(nèi)部支撐微信支付（人臉核身）、QQ瀏覽器（agent）、騰訊會(huì)議（虛擬背景）、騰訊元寶（rag）等算法能力

在學(xué)術(shù)成果上，優(yōu)圖實(shí)驗(yàn)室已在全球范圍內(nèi)斬獲逾1800項(xiàng)專利；發(fā)表高質(zhì)量學(xué)術(shù)論文近1000篇（包括CVPR、ICML、NeurIPS等CCF A類會(huì)議論文占比達(dá)90%），研究成果多次入選國(guó)際頂級(jí)學(xué)術(shù)會(huì)議，發(fā)表頂級(jí)期刊數(shù)量逐年攀升。

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Highlight 論文摘要

1.我們將幀內(nèi)與幀間編碼能力融合到同一個(gè)模型中，無(wú)需再單獨(dú)維護(hù)獨(dú)立的 I 幀模型。借鑒經(jīng)典視頻編碼"在幀間幀內(nèi)允許使用幀內(nèi)編碼工具"的思想，每一幀都由同一模型自適應(yīng)完成幀內(nèi)/幀間編碼。該設(shè)計(jì)有效應(yīng)對(duì)場(chǎng)景切換與新出現(xiàn)的內(nèi)容，同時(shí)降低了整體參數(shù)量。

2.我們訓(xùn)練模型根據(jù)參考信息質(zhì)量自適應(yīng)切換編碼策略：參考可靠時(shí)優(yōu)先幀間預(yù)測(cè)以最大化冗余消除，參考不可靠時(shí)則啟用幀內(nèi)編碼保障當(dāng)前幀質(zhì)量。該機(jī)制天然截?cái)鄮g誤差傳播，并徹底擺脫了人工刷新機(jī)制（manual refresh）所帶來(lái)的碼率尖峰與有效參考信息丟失問(wèn)題。

3.我們提出雙幀同步壓縮技術(shù)，對(duì)兩個(gè)連續(xù)幀進(jìn)行聯(lián)合編碼，使當(dāng)前幀能同時(shí)利用前向與后向參考信息，僅引入一幀延遲。兩幀協(xié)同建模還可挖掘單幀編碼無(wú)法捕獲的時(shí)序線索，在保持實(shí)時(shí)推理速度的同時(shí)，進(jìn)一步提升幀間冗余利用率。

4.我們的方案相比 SOTA 低復(fù)雜度方案 DCVC-RT平均取得 12.1% 的 BD-rate 下降，且具有更小的模型規(guī)模與相當(dāng)?shù)耐评硭俣龋?/span>逐幀碼率和質(zhì)量更加平穩(wěn)，無(wú)需任何刷新機(jī)制即可應(yīng)對(duì)場(chǎng)景切換與超長(zhǎng)序列下的誤差累積。

團(tuán)隊(duì)介紹

騰訊

云架構(gòu)平臺(tái)部

云架構(gòu)平臺(tái)部是騰訊最核心的技術(shù)部門之一，為內(nèi)外部業(yè)務(wù)提供數(shù)據(jù)接入下載、存儲(chǔ)傳輸、計(jì)算加速等技術(shù)服務(wù)，是騰訊各業(yè)務(wù)背后的“技術(shù)引擎”。

我們研發(fā)對(duì)象存儲(chǔ)、塊存儲(chǔ)、文件存儲(chǔ)、鍵值存儲(chǔ)等產(chǎn)品，支撐海量數(shù)據(jù)存儲(chǔ)，安全高可靠地讓信息穿越時(shí)光；通過(guò)緩存、智能路由、傳輸協(xié)議、編解碼等技術(shù)構(gòu)建全球加速引擎，讓直播、點(diǎn)播、云游戲觸手可達(dá)，助力用戶隨時(shí)隨地觀看高清視頻、沉浸式探索游戲體驗(yàn)、高效處理工作事務(wù)；通過(guò)分布式網(wǎng)關(guān)、高性能轉(zhuǎn)發(fā)框架、彈性資源調(diào)度系統(tǒng)打造一站式安全加速平臺(tái)EdgeOne，時(shí)刻守護(hù)用網(wǎng)安全；基于豐富場(chǎng)景和底層軟件積累的優(yōu)勢(shì)，自研業(yè)界領(lǐng)先的編解碼芯片和AI軟件棧，打破算力瓶頸；持續(xù)深耕公司網(wǎng)關(guān)TGW、TencentOS，并和OpenCloudOS社區(qū)共建操作系統(tǒng)生態(tài)，打造軟件之魂。

Evaluating Generative Models via One-Dimensional Code Distributions

Highlight 論文摘要

1. 提出了基于一維離散視覺(jué) token 分布的生成模型評(píng)價(jià)方法，用于更準(zhǔn)確地衡量生成圖像的分布質(zhì)量和感知質(zhì)量。不同于傳統(tǒng) FID 等依賴連續(xù)語(yǔ)義特征的評(píng)價(jià)指標(biāo)，該方法直接在離散視覺(jué) token 空間中建模生成圖像的統(tǒng)計(jì)規(guī)律，從而更好地保留紋理、風(fēng)格、局部結(jié)構(gòu)和細(xì)粒度視覺(jué)質(zhì)量信息。

2. 方法指出，現(xiàn)有生成模型評(píng)價(jià)指標(biāo)通常依賴 Inception、CLIP 或 DINO 等識(shí)別特征，這類特征往往被訓(xùn)練為對(duì)外觀變化保持不敏感，因此容易忽略顏色、紋理、局部偽影和空間一致性等人類感知敏感因素。同時(shí)，F(xiàn)ID 等指標(biāo)還依賴高斯分布假設(shè)，難以準(zhǔn)確刻畫(huà)藝術(shù)、醫(yī)學(xué)、圖表等復(fù)雜多模態(tài)視覺(jué)域中的真實(shí)分布。

3. 為解決上述問(wèn)題，論文提出了兩個(gè) token 空間評(píng)價(jià)指標(biāo)。其一是 Codebook Histogram Distance，簡(jiǎn)稱 CHD，通過(guò)比較真實(shí)圖像與生成圖像在視覺(jué) codebook 中的一階 token 頻率和二階局部共現(xiàn)統(tǒng)計(jì)，衡量生成模型是否學(xué)習(xí)到了正確的視覺(jué)“詞匯”和局部“語(yǔ)法”。其二是 Code Mixture Model Score，簡(jiǎn)稱 CMMS，通過(guò)對(duì) token 序列進(jìn)行合成退化訓(xùn)練，學(xué)習(xí)無(wú)參考的單圖像質(zhì)量評(píng)分，不依賴昂貴的人類偏好標(biāo)注。

4. 論文進(jìn)一步構(gòu)建了 VisForm 大規(guī)模跨域評(píng)價(jià)基準(zhǔn)，包含約 21 萬(wàn)張圖像、62 種視覺(jué)形態(tài)和 12 類生成模型，并引入專家標(biāo)注來(lái)評(píng)估不同指標(biāo)與人類感知的一致性。大量實(shí)驗(yàn)表明，所提出的 CHD 和 CMMS 在 AGIQA、HPDv2、HPDv3 以及 VisForm 上均取得了更強(qiáng)的人類判斷相關(guān)性，為生成模型評(píng)價(jià)提供了一種更具解釋性、可擴(kuò)展性和跨域魯棒性的 token-based 新范式。

團(tuán)隊(duì)介紹

騰訊

微信技術(shù)架構(gòu)團(tuán)隊(duì)

作為微信后臺(tái)的奠基團(tuán)隊(duì)，我們深耕底層架構(gòu)與前沿技術(shù)，是集基礎(chǔ)研究與落地應(yīng)用于一體的核心部門。

核心業(yè)務(wù)：負(fù)責(zé)微信消息系統(tǒng)、音視頻通話、朋友圈等超大規(guī)?；A(chǔ)服務(wù)的穩(wěn)定運(yùn)行，支撐全球14億+用戶的社交連接。

技術(shù)中臺(tái)：打造微信核心ABC(AI、BigData、Cloud)平臺(tái)。其中AI應(yīng)用平臺(tái)日均處理百億級(jí)調(diào)用；BigData平臺(tái)每日處理百萬(wàn)級(jí)任務(wù)；Cloud平臺(tái)支撐千萬(wàn)級(jí)核心調(diào)度與每秒百億級(jí)事務(wù)處理。

算法研究：專注于文本和多模態(tài)大模型領(lǐng)域、推薦算法和風(fēng)控算法的深度預(yù)研，推動(dòng)算法在真實(shí)業(yè)務(wù)場(chǎng)景的高效落地，并持續(xù)向開(kāi)源社區(qū)與學(xué)術(shù)界輸出成果。