97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

導(dǎo)語: Vision Test-Time Training (ViT3)模型在各類視覺任務(wù)中表超越了現(xiàn)有線性復(fù)雜度模型,同時保持并行計算和高推理速度。

來源:公眾號“機(jī)器之心”

原文鏈接:https://mp.weixin.qq.com/s/yJDuMj9gY6JLQtjng2p_FQ?scene=1&click_id=35


本文第一作者為清華大學(xué)博士生韓東辰,主要研究方向包括基礎(chǔ)模型架構(gòu)、持續(xù)學(xué)習(xí)等。通訊作者為黃高副教授。該論文已入選 CVPR 2026 Best Paper Candidates。

序列建模是大語言模型、計算機(jī)視覺等領(lǐng)域的基礎(chǔ)共性問題。當(dāng)前通用的 Transformer 模型計算復(fù)雜度隨序列長度平方增長,在長序列任務(wù)中面臨顯著的計算挑戰(zhàn)。因此,研究者們一直在探索具有線性計算復(fù)雜度的高效序列建模方法。

測試時訓(xùn)練(Test-Time Training,TTT)模型是一種新興的序列建模范式,它將注意力操作重新定義為一個在線學(xué)習(xí)過程,在每次推理時用 Key-Value 對構(gòu)建一個輕量化的內(nèi)部模型。不同于一個確定性的模型設(shè)計,這一范式開啟了一個豐富的線性復(fù)雜度設(shè)計空間,有望實現(xiàn)高精度的高效序列建模。

然而,TTT 靈活的設(shè)計空間是一把雙刃劍:當(dāng)前測試時訓(xùn)練模型缺少系統(tǒng)性的理解和設(shè)計原則,如何從豐富的設(shè)計空間中構(gòu)建一個理想的視覺 TTT 模型、如何實現(xiàn)進(jìn)一步提升,都是目前極具挑戰(zhàn)的問題。

為此,本文在視覺領(lǐng)域系統(tǒng)性地研究了測試時訓(xùn)練模型的構(gòu)建和效果。通過一系列的實驗和分析,我們總結(jié)了高精度、高效視覺 TTT 模型的六條設(shè)計原則,并討論了一些未來改進(jìn)方向。

基于這些發(fā)現(xiàn),本文構(gòu)建了純 TTT 架構(gòu) Vision Test-Time Training (ViT3)模型,它在各類視覺任務(wù)中表超越了現(xiàn)有線性復(fù)雜度模型,同時保持并行計算和高推理速度,為未來視覺 TTT 的研究提供了一個有力的基線。

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸
  • 論文鏈接:https://arxiv.org/abs/2512.01643

  • 代碼鏈接:https://github.com/LeapLabTHU/ViTTT


序列建模的新視角

在傳統(tǒng)的理解視角下,我們通常將注意力計算理解為用注意力分?jǐn)?shù)對 value 進(jìn)行加權(quán)求和。實際上,我們可以從一個用 context 構(gòu)建模型的視角來理解注意力。

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 1:Softmax 注意力、線性注意力、TTT 模塊示意圖

如圖 1 所示,對于經(jīng)典的 Softmax 注意力,我們可以將其理解為用當(dāng)前 context 的 key 和 value 構(gòu)建了一個兩層 MLP 模型。其中,MLP 的第一個線性層的權(quán)重是 key 矩陣的轉(zhuǎn)置,激活函數(shù)是 Softmax,第二個線性層的權(quán)重是 value 矩陣。整個注意力計算的過程可以理解為用 query 輸入這樣一個由 key 和 value 構(gòu)造的兩層 MLP 模型。類似地,線性注意力可以理解為用 key 和 value 構(gòu)造了一個線性層權(quán)重 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸,進(jìn)而把 query 輸入這個線性模型,實現(xiàn)線性注意力計算。

因此,兩種經(jīng)典的注意力范式都可以理解為使用 key 和 value 構(gòu)造了一個小的模型,進(jìn)而將 query 輸入這個模型以實現(xiàn)建模。

在這種視角下,兩種注意力的本質(zhì)區(qū)別是是否進(jìn)行壓縮。Softmax 注意力用完整的 key 和 value 構(gòu)造兩層 MLP,不進(jìn)行壓縮,效果很好但是成本高昂。與此相反,線性注意力對 key 和 value 進(jìn)行了極大地壓縮,直接通過矩陣乘法 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸 將完整的 key 和 value 壓縮到 d×d 空間。因此,線性注意力的空間和計算復(fù)雜度都顯著低于不壓縮的 Softmax 注意力。然而,由于 d×d 的空間是完全線性的,并且壓縮方式過于粗糙,線性注意力會導(dǎo)致顯著的性能下降。

于是,一個核心問題是:我們能否在實現(xiàn)壓縮的同時保持模型的性能,同時實現(xiàn)高精度和高效性?

對于這個問題,研究者們回答是肯定的?;仡櫿麄€機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,最為成功的壓縮算法莫過于深度學(xué)習(xí)。深度學(xué)習(xí)通過梯度下降,把數(shù)據(jù)信息壓縮到更緊的模型權(quán)重空間中,通常能夠?qū)崿F(xiàn)十倍甚至百倍的壓縮率。因此,測試時訓(xùn)練模型正是嘗試在序列建模任務(wù)上再次套用深度學(xué)習(xí)的成功。

如圖 1(c)所示,測試時訓(xùn)練模型嘗試將 key 和 value 的信息壓縮到一個小的內(nèi)部模型中,這個內(nèi)部模型的結(jié)構(gòu)幾乎是任意的。為了實現(xiàn)這一點,TTT 將 key 和 value 視為一個小型的 “數(shù)據(jù)集”,要求模型在輸入 key 時重建對應(yīng)的 value,通過梯度下降對內(nèi)部模型權(quán)重進(jìn)行更新:

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸


其中,?是一個自監(jiān)督的重建損失函數(shù),比如 L2 損失。在幾次更新之后,我們認(rèn)為 key 和 value 的信息已經(jīng)較好地壓縮到了 TTT 內(nèi)部模型權(quán)重之中。這時,我們將更新后的內(nèi)部模型應(yīng)用于 query,通過一次簡單的前向傳播,讓 query 從內(nèi)部模型的權(quán)重中讀取 key 和 value 的信息。整個測試時訓(xùn)練計算過程的計算復(fù)雜度正比于內(nèi)部模型的計算復(fù)雜度。

因此,當(dāng)選取一個簡單的兩層 MLP 等線性復(fù)雜度模型作為內(nèi)部模型時,TTT 具有線性空間和計算復(fù)雜度;同時,基于學(xué)習(xí)的壓縮和非線性狀態(tài)空間使得 TTT 具有良好的表達(dá)能力。


視覺 TTT 如何設(shè)計

如前所述,測試時訓(xùn)練模型在每個 Block 內(nèi)部包含一次小的 “深度學(xué)習(xí)”,具有極高的設(shè)計自由度。當(dāng)前 TTT 缺乏充分的理解和設(shè)計原則,阻礙了其在視覺領(lǐng)域的發(fā)展。本文在視覺領(lǐng)域系統(tǒng)性地探索了 TTT 的設(shè)計空間,聚焦于兩個核心方面:(1)內(nèi)部訓(xùn)練設(shè)置,如損失函數(shù)、學(xué)習(xí)率、batch size、訓(xùn)練輪數(shù)等(2)內(nèi)部模型設(shè)計,如內(nèi)部模型架構(gòu)、寬度、深度等。本文基于 DeiT-S 進(jìn)行探索,將原始的 Softmax 注意力替換為 TTT 模塊,在 ImageNet-1K 上進(jìn)行實驗。

1. 內(nèi)部訓(xùn)練設(shè)置


觀察 1:二階混合偏導(dǎo)數(shù)CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸消失(近似為 0 或等于 0)的損失函數(shù) L 不適合 TTT。


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 2:TTT 內(nèi)部訓(xùn)練損失函數(shù)的選擇


TTT 模型的內(nèi)部訓(xùn)練所需要的 key、value 等,是在整個外部網(wǎng)絡(luò)的端到端訓(xùn)練過程中優(yōu)化。在進(jìn)行外部端到端訓(xùn)練時,我們將內(nèi)部梯度視為表達(dá)式,讓整個模型實現(xiàn)端到端的反向傳播。在這個過程中,我們需要對內(nèi)部訓(xùn)練梯度的表達(dá)式再次求導(dǎo),計算 “梯度的梯度”,這是元學(xué)習(xí)中的經(jīng)典操作。在端到端優(yōu)化過程中,value 的投影矩陣的外部梯度為:


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸


若混合導(dǎo)數(shù)CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸(近似)為 0,則 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸 的外部梯度消失,無法優(yōu)化 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸。圖 2 驗證了這一點:MAE(L1)損失的一階導(dǎo)數(shù)是符號函數(shù),混合二階導(dǎo)數(shù)幾乎處處為 0,效果最差。Smooth L1 的混合二階導(dǎo)數(shù)在特定區(qū)域為 0,同樣效果不佳。


觀察 2:單次全批量內(nèi)部訓(xùn)練(batch gradient)在視覺任務(wù)中效果較好。


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 3:TTT 內(nèi)部訓(xùn)練 batch size 和 epoch


如圖 3 所示,B=N 表示使用全部 N 個 key-value 對進(jìn)行全批量內(nèi)部梯度下降,而 B=N/2、B=N/3、B=N/4 則對應(yīng)小批次梯度下降,即把數(shù)據(jù)集劃分為 2、3、4 個連續(xù)的小批次,每個 epoch 的內(nèi)部訓(xùn)練執(zhí)行 2、3、4 次參數(shù)更新。

本文認(rèn)為,連續(xù)小批次梯度下降會引入顯式的因果關(guān)系:(1) 前序小批次的更新會改變內(nèi)模型權(quán)重,影響后續(xù)批次的梯度計算;(2) 后續(xù)批次的更新可能覆蓋前序批次產(chǎn)生的參數(shù)更新。這種因果關(guān)系非常適合自然語言這類因果數(shù)據(jù),但在視覺任務(wù)中通常是不必要的。

多個 epoch 的內(nèi)部訓(xùn)練能夠提升性能,但是會顯著降低模型推理速度。

觀察 3:相對較大的內(nèi)部學(xué)習(xí)率(如 1.0)更適合 TTT。


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 4:TTT 內(nèi)部訓(xùn)練學(xué)習(xí)率

在圖 4 中,我們驗證了不同內(nèi)部學(xué)習(xí)率的影響。過小的學(xué)習(xí)率不足以快速更新原始的內(nèi)部模型權(quán)重,過大的學(xué)習(xí)率會導(dǎo)致訓(xùn)練不穩(wěn)定。在本文驗證的視覺任務(wù)中,內(nèi)部學(xué)習(xí)率 1.0 較為合適。

值得注意的是,在一些特殊情況下,內(nèi)部學(xué)習(xí)率可以吸收為 key 和 value 的放縮。但是這并不內(nèi)說明內(nèi)部學(xué)習(xí)率的設(shè)置不重要。一個類似的例子是 Softmax 注意力中的 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸 放縮,它也能夠被 query 和 key 吸收,但是依然重要。


2. 內(nèi)部模型設(shè)計


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 5:TTT 內(nèi)部模型結(jié)構(gòu)。r 和 l 分別表示模型寬度比例和模型深度


觀察 4:擴(kuò)大內(nèi)部模型容量能夠持續(xù)提升 TTT 的序列建模能力。

如圖 5 第一部分所示,我們將 TTT 內(nèi)部模型實現(xiàn)為一個 SiLU 激活函數(shù)的兩層 MLP,并逐漸將寬度比例(隱藏維度 / 輸入維度)從 1.0 增加到 4.0。我們可以觀察到,模型的性能隨著 TTT 內(nèi)部模型的容量持續(xù)提升。這是測試時訓(xùn)練范式的一個重要優(yōu)勢,即在外部模型尺寸固定的條件下,我們可以通過簡單地擴(kuò)展內(nèi)部模型尺寸來實現(xiàn)更好的序列建模效果。

但是,值得指出的是,在推理時,一個內(nèi)部模型引入的計算量大于相同尺寸的外部模塊。在推理階段,一個外部模塊僅需要一次前向傳播;而一個內(nèi)部模型則至少需要進(jìn)行(1)key 前向傳播,1 倍前向傳播計算量(2)內(nèi)部損失反向傳播,約 2 倍前向傳播計算量(3)將更新后的內(nèi)部模型應(yīng)用于 query,1 倍前向傳播計算量。一個內(nèi)部模型的計算量是同尺寸外部模塊的近 4 倍。因此,盡管簡單擴(kuò)展內(nèi)部模型能顯著提升模型能力,本文認(rèn)為設(shè)計輕量的高效內(nèi)部模型仍然是一個重要的研究問題。


觀察 5:在當(dāng)前的 TTT 實現(xiàn)下,較深的內(nèi)部模型存在優(yōu)化困難。

在上一部分中,我們擴(kuò)展了內(nèi)部模型的寬度。另一個常見的方案是擴(kuò)展模型的深度。如圖 5 第二部分所示,我們分別將內(nèi)部模型實現(xiàn)為單層線性層、兩層 MLP、三層 MLP,以探索內(nèi)部模型深度對性能的影響。結(jié)果表明,擴(kuò)展內(nèi)部模型深度時,模型性能持續(xù)下降。在一定程度上,這是一個不符合預(yù)期的結(jié)果。因此理論上更深的內(nèi)部模型具有更大的容量,應(yīng)該能夠?qū)崿F(xiàn)更好的序列建模。


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 6:較深的 TTT 內(nèi)部模型的訓(xùn)練、測試 loss 均更高

本文認(rèn)為,優(yōu)化問題是導(dǎo)致較深內(nèi)部模型性能不佳的原因。為了驗證這一點,我們在圖 6 中展示了上述三個模型的訓(xùn)練和測試 loss??梢钥吹剑捎酶顑?nèi)部模型時,模型的訓(xùn)練 loss 更高,這說明性能衰退不是因為過擬合,而恰恰是欠擬合。更深的內(nèi)部模型具有更強(qiáng)的擬合能力,而在真實訓(xùn)練中相比于淺內(nèi)部模型欠擬合,說明深內(nèi)部模型存在優(yōu)化問題,遠(yuǎn)遠(yuǎn)沒有達(dá)到其理論表征能力。在圖 5 第二部分的結(jié)果進(jìn)一步驗證了這一觀點:將兩層 MLP、SwiGLU 的輸出層強(qiáng)行限制為 identity 能夠讓模型性能顯著提升,說明較深的內(nèi)部模型顯著欠優(yōu)化。

這種優(yōu)化困難與 TTT 的元學(xué)習(xí)屬性有關(guān)。一方面,內(nèi)部模型的初始權(quán)重是外部訓(xùn)練過程中的可學(xué)參數(shù),較深的內(nèi)部模型可能導(dǎo)致這個初始參數(shù)難以優(yōu)化。另一方面,即便有較好的初始參數(shù),深內(nèi)部模型也可能在內(nèi)部訓(xùn)練過程中遇到梯度消失和爆炸問題,影響效果。

解決較深內(nèi)部模型的優(yōu)化問題,是 TTT 的一個重要未來方向。理論工作表明,神經(jīng)網(wǎng)絡(luò)的擬合能力隨深度指數(shù)增長,這正是當(dāng)前神經(jīng)網(wǎng)絡(luò)成功的核心原因。因此,較深的內(nèi)部模型在實現(xiàn)高精度測試時訓(xùn)練序列建模中具有突出潛力。


觀察 6:在視覺任務(wù)中,內(nèi)部模型非常適合采用卷積架構(gòu)。

在 Transformer 出現(xiàn)之前,卷積操作一直是計算機(jī)視覺領(lǐng)域的基石。在 TTT 中,我們完全可以將內(nèi)部模型實現(xiàn)為一個小的卷積網(wǎng)絡(luò),而不需要將其限定為 MLP、SwiGLU 等單 token 組件。在圖 5 第三部分中,我們展示了兩種最簡單的實現(xiàn),將內(nèi)部模型實現(xiàn)為 3x3 卷積或 Depthwise 卷積??梢钥吹剑@兩種實現(xiàn)均取得了顯著的性能增益。

本文認(rèn)為,采用卷積網(wǎng)絡(luò)作為 TTT 內(nèi)部模型,能夠?qū)崿F(xiàn)局部信息和全局信息的完美融合。具體而言,在 TTT 的內(nèi)部訓(xùn)練過程中,key 和 value 的全局信息被壓縮到卷積核的權(quán)重中。在 query 通過內(nèi)部模型前向傳播時,它很自然地同時得到局部信息(卷積核感受野)和全局信息(包含全局信息的卷積核權(quán)重),因此完美契合視覺任務(wù)。


ViT3:視覺測試時訓(xùn)練模型

基于以上探索,本文提出純 TTT 架構(gòu) Vision Test-Time Training (ViT3)模型。具體而言,對于內(nèi)部訓(xùn)練,采用一次全批量梯度下降、學(xué)習(xí)率 1.0、點積損失函數(shù);對于內(nèi)部模型,采用簡化的 SwiGLU 和 Depthwise 卷積。作為 TTT 架構(gòu)的一個 baseline,ViT3 可以應(yīng)用于各類視覺 Transformer 框架,完成各類任務(wù)。

本文在分類、檢測、分割、生成等代表性視覺任務(wù)上驗證了 ViT3 的性能。實驗結(jié)果表明,ViT3 能夠超越各類先進(jìn)的線性復(fù)雜度設(shè)計,如線性注意力、視覺 Mamba 模型。這一結(jié)果驗證了 ViT3 設(shè)計的有效性,同時凸顯了測試時訓(xùn)練模型在高效、可擴(kuò)展的線性復(fù)雜度視覺序列建模領(lǐng)域的突出潛力。

以下是部分實驗結(jié)果,詳細(xì)結(jié)果請見論文原文:


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 7:ImagNet-1K 圖片分類實驗


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 8:高分辨率下游任務(wù) —— 物體檢測


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 9:圖片生成實驗


CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

圖 10:推理 Throughput 與顯存隨輸入分辨率變化


總結(jié)與展望

設(shè)計高效、高表達(dá)能力的序列建模范式一直是計算機(jī)視覺領(lǐng)域的核心課題。

本文在視覺領(lǐng)域系統(tǒng)性地探索了測試時訓(xùn)練(Test-Time Training,TTT)這一新興序列建模范式的設(shè)計空間。

通過大量實驗,本文將觀察與分析總結(jié)為六條設(shè)計見解,為構(gòu)建高效的視覺 TTT 模型明確了設(shè)計準(zhǔn)則,并討論了一些未來的研究方向。

基于上述研究,本文提出了視覺測試時訓(xùn)練模型(ViT3),一種面向視覺序列建模的純 TTT 架構(gòu)。ViT3 在多項視覺任務(wù)上取得了具有競爭力的結(jié)果,為線性復(fù)雜度模型提供一個有力的基線。

我們期望本文的研究結(jié)論與分析能夠幫助視覺 TTT 模型的后續(xù)研究工作。

投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3:解鎖「視覺TTT」新架構(gòu),突破Transformer復(fù)雜度瓶頸

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
霍山县| 寻乌县| 古田县| 峨边| 六安市| 潢川县| 荔浦县| 吉水县| 北海市| 永嘉县| 灵宝市| 曲松县| 洛川县| 宁阳县| 通化县| 互助| 文山县| 夏津县| 承德县| 长顺县| 哈尔滨市| 望都县| 宁远县| 白山市| 宣城市| 青铜峡市| 榕江县| 河北区| 建宁县| 东阳市| 海盐县| 绥芬河市| 隆回县| 安达市| 贡山| 高雄县| 桂林市| 广灵县| 宝清县| 博白县| 固原市|