97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

導(dǎo)語(yǔ):只讓少量“代理 token”真實(shí)去噪,再用它們的殘差變化帶動(dòng)其他token模擬去噪。

來(lái)源:公眾號(hào)“數(shù)字內(nèi)容合成與偽造檢測(cè)”

原文鏈接:https://mp.weixin.qq.com/s/bdgq0Hl1oHDYm82DicJBow

計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議 IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026(CVPR 2026)將于6月3日至7日在美國(guó)丹佛舉辦。本屆CVPR共收到16,092份有效論文投稿,最終主會(huì)錄用論文4,090篇(錄用率25.42%)。


本文將介紹一篇關(guān)于擴(kuò)散模型加速的CVPR 2026論文。


CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

題目:ResCa: Residual Caching for Diffusion Transformers Acceleration

作者:Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang

論文鏈接:
https://openaccess.thecvf.com/content/CVPR2026/papers/Fang_ResCa_Residual_Caching_for_Diffusion_Transformers_Acceleration_CVPR_2026_paper.pdf

(點(diǎn)擊“閱讀原文”可直接跳轉(zhuǎn)) 

Diffusion Transformer正在成為高質(zhì)量圖像與視頻生成的核心架構(gòu)。從FLUX到HunyuanVideo,生成效果越來(lái)越強(qiáng),但推理成本也越來(lái)越高:每一步去噪都要需要大量token,每個(gè)token都經(jīng)過(guò)海量計(jì)算。如何在盡可能不損失生成質(zhì)量的前提下,讓DiT跑得更快?本文提出ResCa(Residual Caching),一個(gè)訓(xùn)練無(wú)關(guān)的擴(kuò)散 Transformer 加速框架。它的核心想法可以概括為:只讓少量“代理 token”真實(shí)去噪,再用它們的殘差變化帶動(dòng)其他token模擬去噪。


研究背景:已有Token裁剪方法都會(huì)偏離原始去噪軌跡


現(xiàn)有特征級(jí)加速方法通常從 token reduction 入手,減少每一步真正參與計(jì)算的 token 數(shù)量。典型路線主要有兩類(lèi):

1. 緩存舊 token:如 ToCa、TokenCache 等,復(fù)用前一時(shí)間步的 token 特征,但由于未經(jīng)歷當(dāng)前時(shí)間步更新,形成 non-updated 的去噪方向。

2. 合并相似 token:如 ToMeSD、SDTM 等,把相似token合并后統(tǒng)一計(jì)算,但合并后的特征不再完全屬于原token自己,形成 non-self 的去噪方向。

CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

圖1:去噪軌跡對(duì)比示意圖. (a)原始去噪軌跡 (b)緩存方法 (c) 合并方法 (d) ResCa

也就是說(shuō),傳統(tǒng)方法雖然減少了計(jì)算,卻可能破壞擴(kuò)散模型原本的去噪軌跡。


關(guān)鍵洞察:與其緩存特征,不如緩存“變化”


ResCa的核心觀察是:沿著相似歷史軌跡運(yùn)動(dòng)的 token,它們的殘差變化也相似。這里的“殘差”指的是 token 特征在相鄰時(shí)間步之間的變化,而不是網(wǎng)絡(luò)里的 skip connection 。0階殘差對(duì)應(yīng)原始特征, n階殘差反映n-1階殘差的變化。


這一視角帶來(lái)了一個(gè)重要轉(zhuǎn)變:過(guò)去的方法更多在復(fù)用“特征狀態(tài)”,而 ResCa 選擇復(fù)用“去噪方向”。為了驗(yàn)證這一點(diǎn),我們基于 FLUX.1 分析了兩個(gè)問(wèn)題:

  • 在哪里找相似殘差?只看單步特征相似度并不可靠,基于歷史去噪軌跡進(jìn)行聚類(lèi),能更準(zhǔn)確地找到殘差變化相似的 token 。

  • 如何使用相似殘差?1-, 2- , 3- 階殘差比原始特征更可復(fù)用,同時(shí)歷史殘差關(guān)系能夠幫助估計(jì)未來(lái)殘差的可信度。

CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架



    圖2:預(yù)實(shí)驗(yàn)分析:軌跡聚類(lèi)更容易找到相似殘差,1,2,3階殘差更適合復(fù)用


    核心方法:ResCa 的代理去噪框架


    本文提出ResCaResidual Caching),一個(gè)免訓(xùn)練的DiT加速框架。ResCa 的整體流程非常直觀:在 dense timestep 中,全量計(jì)算并緩存 token ;在 sparse timestep 中,每個(gè)簇只選擇一個(gè) proxy token 真實(shí)去噪,其余 driven tokens 通過(guò) proxy 的殘差進(jìn)行模擬更新。

    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    圖3:ResCa整體架構(gòu)

    > 模塊一:時(shí)序增強(qiáng)軌跡聚類(lèi)(Temporal-Enhanced Trajectory Clustering)

    TETC 的目標(biāo)是把“未來(lái)殘差可能相似”的 token 分到同一個(gè)簇中。

    • 計(jì)算每個(gè)時(shí)間步的 token 相似度:對(duì)于歷史軌跡序列中的每個(gè)時(shí)間步,ResCa 計(jì)算 token 兩兩之間的余弦相似度,得到單步相似度矩陣。

    • 累積時(shí)序增強(qiáng)相似度越接近當(dāng)前的時(shí)間步,越能反映接下來(lái)的變化趨勢(shì),因此采用帶平滑因子的時(shí)間移動(dòng)平均,賦予近期時(shí)間步更高權(quán)重。

    • 基于軌跡相似度進(jìn)行聚類(lèi):基于相似度矩陣后進(jìn)行 K-medoids 聚類(lèi);每個(gè)簇中選擇一個(gè) token 作為 proxy token ,其余 token 則作為 driven tokens。

    > 模塊二:代理驅(qū)動(dòng)去噪模擬(Proxy-Driven Denoising Simulation)

    PDDS 是 ResCa 的核心。它回答的問(wèn)題是:當(dāng)只有 proxy token 被真實(shí)去噪后,如何更新同簇中那些沒(méi)有經(jīng)過(guò)完整網(wǎng)絡(luò)計(jì)算的 driven tokens?

    • 真實(shí)去噪proxy token對(duì) proxy token 執(zhí)行完整的 Transformer 計(jì)算,得到它在當(dāng)前時(shí)間步的真實(shí)去噪結(jié)果,并通過(guò)遞歸有限差分構(gòu)造多階殘差。

    • 估計(jì)driven tokens的未來(lái)殘差:根據(jù) driven token 與 proxy token 的歷史殘差一致性,計(jì)算 order-specific confidence weight,以衡量 proxy 未來(lái)殘差的可信度,并在 driven token 自身殘差基礎(chǔ)上引入可信的方向校正。

    • 通過(guò)隱式 ODE 更新 driven tokens:采用隱式 ODE (implicit Euler、implicit BDF2 和 implicit Taylor) 更新 driven tokens,平衡加速效率與生成質(zhì)量。


    實(shí)驗(yàn)分析:高加速比下,質(zhì)量仍然穩(wěn)定


    本文在 FLUX.1-dev、HunyuanVideo 和 DiT-XL/2 上進(jìn)行了系統(tǒng)驗(yàn)證,并對(duì)關(guān)鍵模塊開(kāi)展了消融實(shí)驗(yàn)。此外,本文還從理論和實(shí)驗(yàn)兩個(gè)角度分析了基于代理采樣方法的穩(wěn)定性。下面主要展示圖像生成與視頻生成任務(wù)上的核心結(jié)果,更多實(shí)驗(yàn)與分析請(qǐng)見(jiàn)論文原文。

    > Text-to-Image FLUX

    在 FLUX.1-dev 上,ResCa 在多個(gè)加速檔位下都保持了較高質(zhì)量。定性結(jié)果中,ResCa 在水壺反射、機(jī)器人肢體、人腦紋理等細(xì)節(jié)上保留得更好。

    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    表1:基于FLUX的定量對(duì)比

    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    圖4:基于FLUX的生成圖像對(duì)比

    > Text-to-Video HunyuanVideo

    在 HunyuanVideo 上,ResCa-IE 以 5.53× FLOPs 加速 取得 79.98 的 VBench 得分,是同檔加速方法中的最佳結(jié)果。定性對(duì)比顯示,其他方法可能出現(xiàn)瓶蓋位置錯(cuò)誤、水花細(xì)節(jié)缺失、鼓槌物體缺失等問(wèn)題,而 ResCa 在語(yǔ)義對(duì)齊和細(xì)節(jié)完整性上更加穩(wěn)定。

    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    表2:基于HunyuanVideo的定量對(duì)比

    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    圖5:基于HunyuanVideo的生成視頻對(duì)比

    更詳細(xì)的實(shí)驗(yàn)分析請(qǐng)見(jiàn)論文原文。


    總結(jié)


    ResCa 為擴(kuò)散 Transformer 加速提供了一個(gè)新的視角:不緩存舊狀態(tài),而緩存殘差變化。通過(guò)“代理去噪”,ResCa 在保留 token 自身軌跡的同時(shí),引入來(lái)自 proxy token 的未來(lái)殘差校正,從而同時(shí)保持 self 與 updated 的去噪方向。這一訓(xùn)練無(wú)關(guān)框架可以自然集成到 DiT、FLUX、HunyuanVideo 等模型中,并在圖像生成、視頻生成和不同加速檔位下展現(xiàn)出穩(wěn)定優(yōu)勢(shì)。

    我們希望 ResCa 能為擴(kuò)散模型高效推理提供新的啟發(fā),也推動(dòng) proxy denoising 范式在生成式視覺(jué)模型中的進(jìn)一步探索。

    (Project Page: https://fanghaipeng.github.io/ResCa/


    CVPR 2026 | 生成1024高清圖,只需要16個(gè)Token?基于代理去噪的擴(kuò)散模型加速框架

    分享:
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    开江县| 平江县| 田东县| 双江| 麟游县| 成都市| 绵阳市| 如皋市| 揭西县| 武义县| 康定县| 嵊州市| 龙泉市| 芜湖市| 西乌珠穆沁旗| 宁德市| 宣恩县| 永嘉县| 西贡区| 平罗县| 郁南县| 沭阳县| 西乡县| 兴化市| 林周县| 菏泽市| 志丹县| 安徽省| 竹北市| 丹阳市| 长顺县| 丰原市| 铁力市| 济南市| 临清市| 定陶县| 乾安县| 台北市| 汕尾市| 通州区| 镇巴县|