CVPR 2026 | 生成1024高清圖，只需要16個(gè)Token？基于代理去噪的擴(kuò)散模型加速框架

本文作者：陳淑瑜

2026-06-02 16:57

專(zhuān)題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：只讓少量“代理 token”真實(shí)去噪，再用它們的殘差變化帶動(dòng)其他token模擬去噪。

來(lái)源：公眾號(hào)“數(shù)字內(nèi)容合成與偽造檢測(cè)”

原文鏈接：https://mp.weixin.qq.com/s/bdgq0Hl1oHDYm82DicJBow

計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議 IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026（CVPR 2026）將于6月3日至7日在美國(guó)丹佛舉辦。本屆CVPR共收到16,092份有效論文投稿，最終主會(huì)錄用論文4,090篇（錄用率25.42%）。

本文將介紹一篇關(guān)于擴(kuò)散模型加速的CVPR 2026論文。

CVPR 2026 | 生成1024高清圖，只需要16個(gè)Token？基于代理去噪的擴(kuò)散模型加速框架

★
題目：ResCa: Residual Caching for Diffusion Transformers Acceleration
作者：Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang
論文鏈接：
https://openaccess.thecvf.com/content/CVPR2026/papers/Fang_ResCa_Residual_Caching_for_Diffusion_Transformers_Acceleration_CVPR_2026_paper.pdf
（點(diǎn)擊“閱讀原文”可直接跳轉(zhuǎn)）

Diffusion Transformer正在成為高質(zhì)量圖像與視頻生成的核心架構(gòu)。從FLUX到HunyuanVideo，生成效果越來(lái)越強(qiáng)，但推理成本也越來(lái)越高：每一步去噪都要需要大量token，每個(gè)token都經(jīng)過(guò)海量計(jì)算。如何在盡可能不損失生成質(zhì)量的前提下，讓DiT跑得更快？本文提出ResCa（Residual Caching），一個(gè)訓(xùn)練無(wú)關(guān)的擴(kuò)散 Transformer 加速框架。它的核心想法可以概括為：只讓少量“代理 token”真實(shí)去噪，再用它們的殘差變化帶動(dòng)其他token模擬去噪。

研究背景：已有Token裁剪方法都會(huì)偏離原始去噪軌跡

現(xiàn)有特征級(jí)加速方法通常從 token reduction 入手，減少每一步真正參與計(jì)算的 token 數(shù)量。典型路線主要有兩類(lèi)：

1. 緩存舊 token：如 ToCa、TokenCache 等，復(fù)用前一時(shí)間步的 token 特征，但由于未經(jīng)歷當(dāng)前時(shí)間步更新，形成 non-updated 的去噪方向。

2. 合并相似 token：如 ToMeSD、SDTM 等，把相似token合并后統(tǒng)一計(jì)算，但合并后的特征不再完全屬于原token自己，形成 non-self 的去噪方向。

圖1：去噪軌跡對(duì)比示意圖. (a)原始去噪軌跡 (b)緩存方法 (c) 合并方法 (d) ResCa

也就是說(shuō)，傳統(tǒng)方法雖然減少了計(jì)算，卻可能破壞擴(kuò)散模型原本的去噪軌跡。

關(guān)鍵洞察：與其緩存特征，不如緩存“變化”

ResCa的核心觀察是：沿著相似歷史軌跡運(yùn)動(dòng)的 token，它們的殘差變化也相似。這里的“殘差”指的是 token 特征在相鄰時(shí)間步之間的變化，而不是網(wǎng)絡(luò)里的 skip connection 。0階殘差對(duì)應(yīng)原始特征, n階殘差反映n-1階殘差的變化。

這一視角帶來(lái)了一個(gè)重要轉(zhuǎn)變：過(guò)去的方法更多在復(fù)用“特征狀態(tài)”，而 ResCa 選擇復(fù)用“去噪方向”。為了驗(yàn)證這一點(diǎn)，我們基于 FLUX.1 分析了兩個(gè)問(wèn)題：

在哪里找相似殘差？只看單步特征相似度并不可靠，基于歷史去噪軌跡進(jìn)行聚類(lèi)，能更準(zhǔn)確地找到殘差變化相似的 token 。
如何使用相似殘差？1-, 2- , 3- 階殘差比原始特征更可復(fù)用，同時(shí)歷史殘差關(guān)系能夠幫助估計(jì)未來(lái)殘差的可信度。

圖2：預(yù)實(shí)驗(yàn)分析：軌跡聚類(lèi)更容易找到相似殘差，1,2,3階殘差更適合復(fù)用

核心方法：ResCa 的代理去噪框架

本文提出ResCa（Residual Caching），一個(gè)免訓(xùn)練的DiT加速框架。ResCa 的整體流程非常直觀：在 dense timestep 中，全量計(jì)算并緩存 token ；在 sparse timestep 中，每個(gè)簇只選擇一個(gè) proxy token 真實(shí)去噪，其余 driven tokens 通過(guò) proxy 的殘差進(jìn)行模擬更新。

圖3：ResCa整體架構(gòu)

> 模塊一：時(shí)序增強(qiáng)軌跡聚類(lèi)（Temporal-Enhanced Trajectory Clustering）

TETC 的目標(biāo)是把“未來(lái)殘差可能相似”的 token 分到同一個(gè)簇中。

計(jì)算每個(gè)時(shí)間步的 token 相似度：對(duì)于歷史軌跡序列中的每個(gè)時(shí)間步，ResCa 計(jì)算 token 兩兩之間的余弦相似度，得到單步相似度矩陣。
累積時(shí)序增強(qiáng)相似度：越接近當(dāng)前的時(shí)間步，越能反映接下來(lái)的變化趨勢(shì)，因此采用帶平滑因子的時(shí)間移動(dòng)平均，賦予近期時(shí)間步更高權(quán)重。
基于軌跡相似度進(jìn)行聚類(lèi)：基于相似度矩陣后進(jìn)行 K-medoids 聚類(lèi)；每個(gè)簇中選擇一個(gè) token 作為 proxy token ，其余 token 則作為 driven tokens。

> 模塊二：代理驅(qū)動(dòng)去噪模擬（Proxy-Driven Denoising Simulation）

PDDS 是 ResCa 的核心。它回答的問(wèn)題是：當(dāng)只有 proxy token 被真實(shí)去噪后，如何更新同簇中那些沒(méi)有經(jīng)過(guò)完整網(wǎng)絡(luò)計(jì)算的 driven tokens？

真實(shí)去噪proxy token：對(duì) proxy token 執(zhí)行完整的 Transformer 計(jì)算，得到它在當(dāng)前時(shí)間步的真實(shí)去噪結(jié)果，并通過(guò)遞歸有限差分構(gòu)造多階殘差。
估計(jì)driven tokens的未來(lái)殘差：根據(jù) driven token 與 proxy token 的歷史殘差一致性，計(jì)算 order-specific confidence weight，以衡量 proxy 未來(lái)殘差的可信度，并在 driven token 自身殘差基礎(chǔ)上引入可信的方向校正。
通過(guò)隱式 ODE 更新 driven tokens：采用隱式 ODE (implicit Euler、implicit BDF2 和 implicit Taylor) 更新 driven tokens，平衡加速效率與生成質(zhì)量。

實(shí)驗(yàn)分析：高加速比下，質(zhì)量仍然穩(wěn)定

本文在 FLUX.1-dev、HunyuanVideo 和 DiT-XL/2 上進(jìn)行了系統(tǒng)驗(yàn)證，并對(duì)關(guān)鍵模塊開(kāi)展了消融實(shí)驗(yàn)。此外，本文還從理論和實(shí)驗(yàn)兩個(gè)角度分析了基于代理采樣方法的穩(wěn)定性。下面主要展示圖像生成與視頻生成任務(wù)上的核心結(jié)果，更多實(shí)驗(yàn)與分析請(qǐng)見(jiàn)論文原文。

> Text-to-Image FLUX

在 FLUX.1-dev 上，ResCa 在多個(gè)加速檔位下都保持了較高質(zhì)量。定性結(jié)果中，ResCa 在水壺反射、機(jī)器人肢體、人腦紋理等細(xì)節(jié)上保留得更好。

表1：基于FLUX的定量對(duì)比

圖4：基于FLUX的生成圖像對(duì)比

> Text-to-Video HunyuanVideo

在 HunyuanVideo 上，ResCa-IE 以 5.53× FLOPs 加速取得 79.98 的 VBench 得分，是同檔加速方法中的最佳結(jié)果。定性對(duì)比顯示，其他方法可能出現(xiàn)瓶蓋位置錯(cuò)誤、水花細(xì)節(jié)缺失、鼓槌物體缺失等問(wèn)題，而 ResCa 在語(yǔ)義對(duì)齊和細(xì)節(jié)完整性上更加穩(wěn)定。

表2：基于HunyuanVideo的定量對(duì)比

圖5：基于HunyuanVideo的生成視頻對(duì)比

更詳細(xì)的實(shí)驗(yàn)分析請(qǐng)見(jiàn)論文原文。

總結(jié)

ResCa 為擴(kuò)散 Transformer 加速提供了一個(gè)新的視角：不緩存舊狀態(tài)，而緩存殘差變化。通過(guò)“代理去噪”，ResCa 在保留 token 自身軌跡的同時(shí)，引入來(lái)自 proxy token 的未來(lái)殘差校正，從而同時(shí)保持 self 與 updated 的去噪方向。這一訓(xùn)練無(wú)關(guān)框架可以自然集成到 DiT、FLUX、HunyuanVideo 等模型中，并在圖像生成、視頻生成和不同加速檔位下展現(xiàn)出穩(wěn)定優(yōu)勢(shì)。

我們希望 ResCa 能為擴(kuò)散模型高效推理提供新的啟發(fā)，也推動(dòng) proxy denoising 范式在生成式視覺(jué)模型中的進(jìn)一步探索。

（Project Page: https://fanghaipeng.github.io/ResCa/）

0人收藏

專(zhuān)題

CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

本專(zhuān)題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

CVPR 2026 | 生成1024高清圖，只需要16個(gè)Token？基于代理去噪的擴(kuò)散模型加速框架

CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

CVPR 2026 | 生成1024高清圖，只需要16個(gè)Token？基于代理去噪的擴(kuò)散模型加速框架