97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

本文作者: 陳淑瑜   2026-05-27 18:08 專題:CVPR 計算機視覺與模式識別會議
導(dǎo)語:GVC1D利用視覺Transformer將視頻編碼為極緊湊的一維潛在標記,打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系,有效減少幀內(nèi)冗余并實現(xiàn) token 數(shù)量的自適應(yīng)縮減。

來源:微軟亞洲研究院

原文鏈接:https://mp.weixin.qq.com/s/GECHPc8h_mblnXirldVaRg?scene=1&click_id=96


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向
「 本期內(nèi)容速覽 」
CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向
01

CoD:面向圖像壓縮的擴散基礎(chǔ)模型

02

基于一維隱表示的生成式視頻壓縮

03

HiSpatial:增強視覺-語言大模型的層級3D空間認知能力

04

面向3D生成的原生緊湊結(jié)構(gòu)化隱表示(Oral, Award Candidate)

05

面向擴散Transformer 模型的區(qū)域自適應(yīng)采樣

06

基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實時說話人像視頻生成(Highlight)

07

語義主導(dǎo):借助異步隱擴散融合語義與紋理建模


01

CoD:面向圖像壓縮的擴散基礎(chǔ)模型


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向


論文鏈接:

https://arxiv.org/abs/2511.18706


現(xiàn)有的擴散編解碼器大多基于 Stable Diffusion 等文本到圖像的基礎(chǔ)模型,但從壓縮角度看,文本條件并不理想,尤其在極低碼率下會阻礙下游擴散編解碼器的潛力。為此,研究員們引入了首個面向壓縮的擴散基礎(chǔ)模型 CoD。該模型從頭開始訓(xùn)練,實現(xiàn)壓縮與生成的端到端聯(lián)合優(yōu)化。CoD 并非固定編解碼器,而是適用于各類擴散編解碼器的通用基礎(chǔ)模型。


CoD 采用原生圖像編碼器將圖像壓縮為緊湊表示,通過信息瓶頸強制極低碼率,再由擴散模塊在條件引導(dǎo)下重建像素。訓(xùn)練方面,CoD將整流流損失與失真優(yōu)化統(tǒng)一訓(xùn)練,并以完全自監(jiān)督的方式僅在公開圖像數(shù)據(jù)集上學(xué)習(xí)。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

圖1:CoD基礎(chǔ)模型概述


CoD 具備多重優(yōu)勢:在下游任務(wù)中替換 Stable Diffusion 可達到 SOTA,尤其在0.0039 bpp極低碼率下表現(xiàn)突出;訓(xùn)練成本極低,僅需約20 A100 GPU 天,訓(xùn)練速度提升約300 倍且完全可復(fù)現(xiàn)。研究發(fā)現(xiàn),CoD的像素空間擴散可實現(xiàn)VTM 級別 PSNR 與高感知質(zhì)量,并能夠以更少參數(shù)超越 GAN 類編解碼器。


02

基于一維隱表示的生成式視頻壓縮


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:

https://arxiv.org/abs/2603.15302 


傳統(tǒng)視頻編解碼器與現(xiàn)有神經(jīng)視頻壓縮方法,在處理高保真內(nèi)容時難以兼顧低碼率與優(yōu)質(zhì)感知質(zhì)量。尤其是生成式視頻編解碼器(GVC)普遍采用的二維潛在表示,存在空間冗余高、長時語義建模能力不足等問題。


為此,研究員們提出了基于一維潛在表示的生成式視頻壓縮方法GVC1D。該方法利用視覺Transformer將視頻編碼為極緊湊的一維潛在標記,打破二維網(wǎng)格的剛性空間對應(yīng)關(guān)系,有效減少幀內(nèi)冗余并實現(xiàn) token 數(shù)量的自適應(yīng)縮減。同時,研究員們設(shè)計了一維記憶模塊,利用少量語義豐富的一維標記遞歸更新記憶狀態(tài),既能保持低計算成本,還可以提供連貫長時上下文,進一步降低幀間冗余。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

圖2:GVC1D框架概述。xt 首先被分割為圖像塊,然后輸入由局部和全局Transformer組成的編碼器,生成 yt。熵模型對 yt進行自回歸熵編碼。所有過程均由一個結(jié)合了長期一維記憶和短期上下文緩沖區(qū)的上下文模型進行引導(dǎo),以提供全面的時序上下文。


實驗表明,GVC1D 在多個基準上均取得優(yōu)異性能,顯著超越傳統(tǒng)編解碼器與最新神經(jīng)視頻壓縮方法。在 HEVC Class B 數(shù)據(jù)集上,相較此前最優(yōu)感知編解碼器,GVC1D在 LPIPS 指標上節(jié)省了 60.4% 比特率,在 DISTS 指標上節(jié)省了 68.8% 比特率。同時,GVC1D 在 PSNR、MS-SSIM 等客觀指標上表現(xiàn)突出,視覺質(zhì)量與時間一致性均優(yōu)于現(xiàn)有方案,充分驗證了一維潛在表示用于視頻壓縮的有效性與優(yōu)越性。


03
HiSpatial:增強視覺-語言大模型的層級3D空間認知能力

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:
https://arxiv.org/abs/2603.25411 

視覺語言模型(VLM)在二維視覺語言任務(wù)上已取得顯著進展,但從二維感知擴展到三維空間理解仍面臨重大挑戰(zhàn)。現(xiàn)有方法在三維空間理解任務(wù)上仍然缺乏系統(tǒng)性的分層任務(wù)設(shè)計,且領(lǐng)域內(nèi)缺少大規(guī)模、多樣化的三維標注數(shù)據(jù)集用于全面提升VLM的空間理解能力。


為此,研究員們提出了一種分層三維空間理解框架HiSpatial,將三維空間理解劃分為四個遞進層次,從底層的幾何感知到高層的抽象推理;并且根據(jù)這一分層構(gòu)建了自動化數(shù)據(jù)生成流程,利用約500萬張真實場景圖像和超過4500萬個關(guān)注物體,合成了涵蓋多樣場景與任務(wù)的海量三維空間視覺問答對,用于VLM的有監(jiān)督微調(diào)。在此基礎(chǔ)上,研究員們又設(shè)計了結(jié)合度量尺度三維點云圖輸入的HiSpatial VLM,來進一步增強模型的空間推理準確性。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向圖3:方法概述。左側(cè):數(shù)據(jù)構(gòu)建流程,該流程可從真實場景圖像或帶有3D標注的現(xiàn)有數(shù)據(jù)中生成空間理解相關(guān)的問答對。右側(cè):分層空間理解任務(wù)分類體系及代表性問答對。


實驗表明,HiSpatial-3B VLM在多個空間理解與推理基準上達到 SOTA 性能,超越已有的專用空間理解模型與 Gemini-2.5-pro、GPT-5 等閉源模型。研究同時揭示了空間理解層級任務(wù)間的明確依賴關(guān)系,驗證了引入低層級任務(wù)可持續(xù)提升高層推理能力,為未來高效構(gòu)建三維空間智能模型提供了新的策略。


04
面向3D生成的原生緊湊結(jié)構(gòu)化隱表示(Oral, Award Candidate)

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:

https://cvpr.thecvf.com/virtual/2026/poster/37074


3D生成建模在提升真實感方面進展顯著,但現(xiàn)有表征難以同時捕捉復(fù)雜拓撲與精細外觀,且缺乏高效的原生3D潛空間。為解決這一難題,微軟亞洲研究院的研究員們引入了名為O-Voxel的面向 3D 資產(chǎn)的原生稀疏體素表征,可穩(wěn)健建模任意拓撲結(jié)構(gòu)并編碼完整 PBR 材質(zhì)參數(shù)。


基于該表征,團隊設(shè)計了稀疏壓縮變分自編碼器(SC-VAE),通過殘差自編碼結(jié)構(gòu)實現(xiàn)了最高 16 倍空間壓縮,將高分辨率資產(chǎn)轉(zhuǎn)化為緊湊的結(jié)構(gòu)化潛變量。利用這些潛變量,研究員們訓(xùn)練了參數(shù)量約40 億的大規(guī)模流匹配模型,實現(xiàn)了原生 3D 資產(chǎn)生成。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

圖4:O-Voxel示意圖及其與3D資源之間的即時雙向轉(zhuǎn)換。


實驗結(jié)果表明,該方法在幾何與材質(zhì)質(zhì)量上遠超現(xiàn)有模型,推理效率極高,在單張H100 GPU 上僅需約3 秒即可生成分辨率 512 的 3D 資產(chǎn)。O-Voxel 與 SC-VAE 的組合突破了傳統(tǒng)方法在拓撲表達與計算效率上的瓶頸,為構(gòu)建高質(zhì)量、高效率的原生 3D 生成系統(tǒng)提供了通用解決方案。


05
面向擴散Transformer 模型的區(qū)域自適應(yīng)采樣

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:
https://arxiv.org/abs/2502.10389 


擴散模型雖已成為跨領(lǐng)域生成任務(wù)的主流方案,但依賴多次順序前向傳播的特性嚴重限制了實時性能。以往加速方法多聚焦減少采樣步數(shù)或重用中間結(jié)果,受限于卷積 U-Net 結(jié)構(gòu),未能利用圖像內(nèi)部空間區(qū)域的差異。


借助擴散變換器(DiTs)處理可變數(shù)量 token 的靈活性,研究員們提出無需訓(xùn)練的新型采樣策略 RAS(區(qū)域自適應(yīng)采樣),根據(jù) DiT 的關(guān)注區(qū)域動態(tài)為不同圖像區(qū)域分配不同采樣比例。其核心發(fā)現(xiàn)是,在每一步采樣中模型都會聚焦語義關(guān)鍵區(qū)域,且關(guān)注區(qū)域在連續(xù)步驟間具有強連續(xù)性?;诖?,RAS 僅更新當前關(guān)注區(qū)域,其余區(qū)域直接復(fù)用前一步緩存的噪聲,關(guān)注點由前一步輸出確定,充分利用時序一致性。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

圖5:與RAS中的其他區(qū)域相比,主體及細節(jié)更豐富的區(qū)域經(jīng)過了更多的處理步驟。每個方塊代表一個分塊化的潛在token。


在Stable Diffusion 3和Lumina-Next-T2I上評估RAS,分別實現(xiàn)了最高2.36倍和2.51倍的加速,且生成質(zhì)量下降極小。此外,用戶研究表明,在人類評估下,該方法在保持同樣質(zhì)量的同時實現(xiàn)了1.6倍加速。RAS通過動態(tài)調(diào)整不同區(qū)域的采樣比例,有效提高了計算資源的利用效率,大幅降低了計算開銷,為擴散變換器提供了更高效的解決方案,顯著增強了其在實時應(yīng)用中的落地潛力。


06
基于參考引導(dǎo)深度壓縮VAE的可流式傳輸實時說話人像視頻生成(Highlight)

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:

https://cvpr.thecvf.com/virtual/2026/poster/36995 


視頻擴散模型雖然顯著提升了肖像視頻生成的質(zhì)量,但高昂的計算成本嚴重限制其在實時交互場景中的落地應(yīng)用。為解決這一難題,研究員們提出了一種支持流式傳輸?shù)恼f話人肖像視頻生成框架,實現(xiàn)高保真、低延遲的音頻驅(qū)動視頻合成。


該框架核心包含兩部分:一是提出參考引導(dǎo)的因果視頻 VAE,融合單張或多張參考圖像特征,使網(wǎng)絡(luò)專注動態(tài)信息提取而非靜態(tài)外觀,將視頻壓縮率提升至768 倍;二是構(gòu)建基于Rectified Flow Transformer的自回歸潛在去噪模型,采用塊狀因果注意力與 KV 緩存技術(shù),支持視頻潛在表示的流式生成。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

圖6:框架概述。左側(cè):所提出的參考引導(dǎo)式因果視頻VAE。右側(cè):采用塊級因果注意機制的 Rectified Flow Transformer,用于建模緊湊視頻潛在向量的概率分布。


實驗結(jié)果顯示,該方法能夠在單張 H100 GPU 上以 42 FPS 的速度實時生成 512 分辨率視頻,較現(xiàn)有基線模型提升25倍以上,且在嘴型同步、語音與頭部姿態(tài)一致性等指標上達到當前領(lǐng)先水平,并在視頻真實感、生動度及整體生成質(zhì)量等方面表現(xiàn)優(yōu)異。


07
語義主導(dǎo):借助異步隱擴散融合語義與紋理建模

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

論文鏈接:

https://arxiv.org/abs/2512.04926 


潛在擴散模型(LDMs)遵循從粗到細的生成過程,高層語義結(jié)構(gòu)的生成略早于細粒度紋理,但現(xiàn)有方法仍同步去噪語義與VAE編碼的紋理,忽視了這種時序順序。


為解決這一挑戰(zhàn),研究員們引入了一種名為語義優(yōu)先擴散(SFD)的潛在擴散范式,顯式優(yōu)先構(gòu)建語義表征。該方法通過專用語義VAE從預(yù)訓(xùn)練視覺編碼器提取緊湊語義潛在變量,并將其與紋理潛在變量組合成復(fù)合潛在表示。其核心在于采用獨立的噪聲調(diào)度策略,異步對語義與紋理潛在變量進行去噪,使語義部分在時間上領(lǐng)先于紋理部分,為紋理精煉提供更清晰的高層指導(dǎo),實現(xiàn)自然的從粗到細生成。


SFD 分為三個階段:第一階段語義初始化,語義潛變量率先進行去噪;第二階段異步生成,語義和紋理共同進行去噪但不同步,語義領(lǐng)先于紋理;第三階段紋理完成,僅紋理繼續(xù)進行精煉。去噪完成后,生成的語義潛變量 s1 被丟棄,最終圖像僅從紋理潛變量 z1 解碼獲得。


CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向圖7:(a) 語義優(yōu)先擴散SFD概述。語義(虛線)和紋理(實線)遵循異步去噪軌跡。(b) 在無引導(dǎo)的 ImageNet 256×256 數(shù)據(jù)集上的訓(xùn)練收斂情況。SFD 的收斂速度顯著快于 DiT-XL/2 和 LightningDiT-XL/1,分別快約 100 倍和 33.3 倍。


在ImageNet 256×256有引導(dǎo)生成任務(wù)中,SFD實現(xiàn)了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL)的優(yōu)異性能,收斂速度比原始DiT最高提升100倍。此外,SFD還能改進ReDi、VA-VAE等現(xiàn)有方法,充分驗證了異步語義主導(dǎo)建模的有效性。

CVPR 2026 | 從生成式壓縮到3D空間智能,七項前沿突破洞悉計算機視覺未來方向

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
德江县| 德昌县| 汉源县| 渭源县| 新丰县| 治县。| 乌拉特后旗| 盐津县| 红原县| 长治市| 扬州市| 神农架林区| 古蔺县| 潍坊市| 溧水县| 上犹县| 象山县| 秦皇岛市| 襄城县| 霞浦县| 五台县| 宣武区| 交城县| 柯坪县| 垦利县| 河间市| 崇信县| 河北省| 赤城县| 六盘水市| 钟祥市| 鲁甸县| 敦化市| 革吉县| 格尔木市| 红安县| 沈丘县| 台安县| 墨江| 游戏| 如东县|