CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸

本文作者：陳淑瑜

2026-06-02 17:58

導(dǎo)語： Vision Test-Time Training （ViT3）模型在各類視覺任務(wù)中表超越了現(xiàn)有線性復(fù)雜度模型，同時保持并行計算和高推理速度。

來源：公眾號“機(jī)器之心”

原文鏈接：https://mp.weixin.qq.com/s/yJDuMj9gY6JLQtjng2p_FQ?scene=1&click_id=35

本文第一作者為清華大學(xué)博士生韓東辰，主要研究方向包括基礎(chǔ)模型架構(gòu)、持續(xù)學(xué)習(xí)等。通訊作者為黃高副教授。該論文已入選 CVPR 2026 Best Paper Candidates。

序列建模是大語言模型、計算機(jī)視覺等領(lǐng)域的基礎(chǔ)共性問題。當(dāng)前通用的 Transformer 模型計算復(fù)雜度隨序列長度平方增長，在長序列任務(wù)中面臨顯著的計算挑戰(zhàn)。因此，研究者們一直在探索具有線性計算復(fù)雜度的高效序列建模方法。

測試時訓(xùn)練（Test-Time Training，TTT）模型是一種新興的序列建模范式，它將注意力操作重新定義為一個在線學(xué)習(xí)過程，在每次推理時用 Key-Value 對構(gòu)建一個輕量化的內(nèi)部模型。不同于一個確定性的模型設(shè)計，這一范式開啟了一個豐富的線性復(fù)雜度設(shè)計空間，有望實現(xiàn)高精度的高效序列建模。

然而，TTT 靈活的設(shè)計空間是一把雙刃劍：當(dāng)前測試時訓(xùn)練模型缺少系統(tǒng)性的理解和設(shè)計原則，如何從豐富的設(shè)計空間中構(gòu)建一個理想的視覺 TTT 模型、如何實現(xiàn)進(jìn)一步提升，都是目前極具挑戰(zhàn)的問題。

為此，本文在視覺領(lǐng)域系統(tǒng)性地研究了測試時訓(xùn)練模型的構(gòu)建和效果。通過一系列的實驗和分析，我們總結(jié)了高精度、高效視覺 TTT 模型的六條設(shè)計原則，并討論了一些未來改進(jìn)方向。

基于這些發(fā)現(xiàn)，本文構(gòu)建了純 TTT 架構(gòu) Vision Test-Time Training （ViT3）模型，它在各類視覺任務(wù)中表超越了現(xiàn)有線性復(fù)雜度模型，同時保持并行計算和高推理速度，為未來視覺 TTT 的研究提供了一個有力的基線。

CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸

論文鏈接：https://arxiv.org/abs/2512.01643
代碼鏈接：https://github.com/LeapLabTHU/ViTTT

序列建模的新視角

在傳統(tǒng)的理解視角下，我們通常將注意力計算理解為用注意力分?jǐn)?shù)對 value 進(jìn)行加權(quán)求和。實際上，我們可以從一個用 context 構(gòu)建模型的視角來理解注意力。

圖 1：Softmax 注意力、線性注意力、TTT 模塊示意圖

如圖 1 所示，對于經(jīng)典的 Softmax 注意力，我們可以將其理解為用當(dāng)前 context 的 key 和 value 構(gòu)建了一個兩層 MLP 模型。其中，MLP 的第一個線性層的權(quán)重是 key 矩陣的轉(zhuǎn)置，激活函數(shù)是 Softmax，第二個線性層的權(quán)重是 value 矩陣。整個注意力計算的過程可以理解為用 query 輸入這樣一個由 key 和 value 構(gòu)造的兩層 MLP 模型。類似地，線性注意力可以理解為用 key 和 value 構(gòu)造了一個線性層權(quán)重 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸，進(jìn)而把 query 輸入這個線性模型，實現(xiàn)線性注意力計算。

因此，兩種經(jīng)典的注意力范式都可以理解為使用 key 和 value 構(gòu)造了一個小的模型，進(jìn)而將 query 輸入這個模型以實現(xiàn)建模。

在這種視角下，兩種注意力的本質(zhì)區(qū)別是是否進(jìn)行壓縮。Softmax 注意力用完整的 key 和 value 構(gòu)造兩層 MLP，不進(jìn)行壓縮，效果很好但是成本高昂。與此相反，線性注意力對 key 和 value 進(jìn)行了極大地壓縮，直接通過矩陣乘法 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸將完整的 key 和 value 壓縮到 d×d 空間。因此，線性注意力的空間和計算復(fù)雜度都顯著低于不壓縮的 Softmax 注意力。然而，由于 d×d 的空間是完全線性的，并且壓縮方式過于粗糙，線性注意力會導(dǎo)致顯著的性能下降。

于是，一個核心問題是：我們能否在實現(xiàn)壓縮的同時保持模型的性能，同時實現(xiàn)高精度和高效性？

對于這個問題，研究者們回答是肯定的?；仡櫿麄€機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展，最為成功的壓縮算法莫過于深度學(xué)習(xí)。深度學(xué)習(xí)通過梯度下降，把數(shù)據(jù)信息壓縮到更緊的模型權(quán)重空間中，通常能夠?qū)崿F(xiàn)十倍甚至百倍的壓縮率。因此，測試時訓(xùn)練模型正是嘗試在序列建模任務(wù)上再次套用深度學(xué)習(xí)的成功。

如圖 1（c）所示，測試時訓(xùn)練模型嘗試將 key 和 value 的信息壓縮到一個小的內(nèi)部模型中，這個內(nèi)部模型的結(jié)構(gòu)幾乎是任意的。為了實現(xiàn)這一點，TTT 將 key 和 value 視為一個小型的 “數(shù)據(jù)集”，要求模型在輸入 key 時重建對應(yīng)的 value，通過梯度下降對內(nèi)部模型權(quán)重進(jìn)行更新：

其中，?是一個自監(jiān)督的重建損失函數(shù)，比如 L2 損失。在幾次更新之后，我們認(rèn)為 key 和 value 的信息已經(jīng)較好地壓縮到了 TTT 內(nèi)部模型權(quán)重之中。這時，我們將更新后的內(nèi)部模型應(yīng)用于 query，通過一次簡單的前向傳播，讓 query 從內(nèi)部模型的權(quán)重中讀取 key 和 value 的信息。整個測試時訓(xùn)練計算過程的計算復(fù)雜度正比于內(nèi)部模型的計算復(fù)雜度。

因此，當(dāng)選取一個簡單的兩層 MLP 等線性復(fù)雜度模型作為內(nèi)部模型時，TTT 具有線性空間和計算復(fù)雜度；同時，基于學(xué)習(xí)的壓縮和非線性狀態(tài)空間使得 TTT 具有良好的表達(dá)能力。

視覺 TTT 如何設(shè)計

如前所述，測試時訓(xùn)練模型在每個 Block 內(nèi)部包含一次小的 “深度學(xué)習(xí)”，具有極高的設(shè)計自由度。當(dāng)前 TTT 缺乏充分的理解和設(shè)計原則，阻礙了其在視覺領(lǐng)域的發(fā)展。本文在視覺領(lǐng)域系統(tǒng)性地探索了 TTT 的設(shè)計空間，聚焦于兩個核心方面：（1）內(nèi)部訓(xùn)練設(shè)置，如損失函數(shù)、學(xué)習(xí)率、batch size、訓(xùn)練輪數(shù)等（2）內(nèi)部模型設(shè)計，如內(nèi)部模型架構(gòu)、寬度、深度等。本文基于 DeiT-S 進(jìn)行探索，將原始的 Softmax 注意力替換為 TTT 模塊，在 ImageNet-1K 上進(jìn)行實驗。

1. 內(nèi)部訓(xùn)練設(shè)置

觀察 1：二階混合偏導(dǎo)數(shù) CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸消失（近似為 0 或等于 0）的損失函數(shù) L 不適合 TTT。

圖 2：TTT 內(nèi)部訓(xùn)練損失函數(shù)的選擇

TTT 模型的內(nèi)部訓(xùn)練所需要的 key、value 等，是在整個外部網(wǎng)絡(luò)的端到端訓(xùn)練過程中優(yōu)化。在進(jìn)行外部端到端訓(xùn)練時，我們將內(nèi)部梯度視為表達(dá)式，讓整個模型實現(xiàn)端到端的反向傳播。在這個過程中，我們需要對內(nèi)部訓(xùn)練梯度的表達(dá)式再次求導(dǎo)，計算 “梯度的梯度”，這是元學(xué)習(xí)中的經(jīng)典操作。在端到端優(yōu)化過程中，value 的投影矩陣的外部梯度為：

若混合導(dǎo)數(shù) CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸（近似）為 0，則的外部梯度消失，無法優(yōu)化。圖 2 驗證了這一點：MAE（L1）損失的一階導(dǎo)數(shù)是符號函數(shù)，混合二階導(dǎo)數(shù)幾乎處處為 0，效果最差。Smooth L1 的混合二階導(dǎo)數(shù)在特定區(qū)域為 0，同樣效果不佳。

觀察 2：單次全批量內(nèi)部訓(xùn)練（batch gradient）在視覺任務(wù)中效果較好。

圖 3：TTT 內(nèi)部訓(xùn)練 batch size 和 epoch

如圖 3 所示，B=N 表示使用全部 N 個 key-value 對進(jìn)行全批量內(nèi)部梯度下降，而 B=N/2、B=N/3、B=N/4 則對應(yīng)小批次梯度下降，即把數(shù)據(jù)集劃分為 2、3、4 個連續(xù)的小批次，每個 epoch 的內(nèi)部訓(xùn)練執(zhí)行 2、3、4 次參數(shù)更新。

本文認(rèn)為，連續(xù)小批次梯度下降會引入顯式的因果關(guān)系：(1) 前序小批次的更新會改變內(nèi)模型權(quán)重，影響后續(xù)批次的梯度計算；(2) 后續(xù)批次的更新可能覆蓋前序批次產(chǎn)生的參數(shù)更新。這種因果關(guān)系非常適合自然語言這類因果數(shù)據(jù)，但在視覺任務(wù)中通常是不必要的。

多個 epoch 的內(nèi)部訓(xùn)練能夠提升性能，但是會顯著降低模型推理速度。

觀察 3：相對較大的內(nèi)部學(xué)習(xí)率（如 1.0）更適合 TTT。

圖 4：TTT 內(nèi)部訓(xùn)練學(xué)習(xí)率

在圖 4 中，我們驗證了不同內(nèi)部學(xué)習(xí)率的影響。過小的學(xué)習(xí)率不足以快速更新原始的內(nèi)部模型權(quán)重，過大的學(xué)習(xí)率會導(dǎo)致訓(xùn)練不穩(wěn)定。在本文驗證的視覺任務(wù)中，內(nèi)部學(xué)習(xí)率 1.0 較為合適。

值得注意的是，在一些特殊情況下，內(nèi)部學(xué)習(xí)率可以吸收為 key 和 value 的放縮。但是這并不內(nèi)說明內(nèi)部學(xué)習(xí)率的設(shè)置不重要。一個類似的例子是 Softmax 注意力中的 CVPR 2026 Oral | 清華+阿里發(fā)布ViT3：解鎖「視覺TTT」新架構(gòu)，突破Transformer復(fù)雜度瓶頸放縮，它也能夠被 query 和 key 吸收，但是依然重要。

2. 內(nèi)部模型設(shè)計

圖 5：TTT 內(nèi)部模型結(jié)構(gòu)。r 和 l 分別表示模型寬度比例和模型深度

觀察 4：擴(kuò)大內(nèi)部模型容量能夠持續(xù)提升 TTT 的序列建模能力。

如圖 5 第一部分所示，我們將 TTT 內(nèi)部模型實現(xiàn)為一個 SiLU 激活函數(shù)的兩層 MLP，并逐漸將寬度比例（隱藏維度 / 輸入維度）從 1.0 增加到 4.0。我們可以觀察到，模型的性能隨著 TTT 內(nèi)部模型的容量持續(xù)提升。這是測試時訓(xùn)練范式的一個重要優(yōu)勢，即在外部模型尺寸固定的條件下，我們可以通過簡單地擴(kuò)展內(nèi)部模型尺寸來實現(xiàn)更好的序列建模效果。

但是，值得指出的是，在推理時，一個內(nèi)部模型引入的計算量大于相同尺寸的外部模塊。在推理階段，一個外部模塊僅需要一次前向傳播；而一個內(nèi)部模型則至少需要進(jìn)行（1）key 前向傳播，1 倍前向傳播計算量（2）內(nèi)部損失反向傳播，約 2 倍前向傳播計算量（3）將更新后的內(nèi)部模型應(yīng)用于 query，1 倍前向傳播計算量。一個內(nèi)部模型的計算量是同尺寸外部模塊的近 4 倍。因此，盡管簡單擴(kuò)展內(nèi)部模型能顯著提升模型能力，本文認(rèn)為設(shè)計輕量的高效內(nèi)部模型仍然是一個重要的研究問題。

觀察 5：在當(dāng)前的 TTT 實現(xiàn)下，較深的內(nèi)部模型存在優(yōu)化困難。

在上一部分中，我們擴(kuò)展了內(nèi)部模型的寬度。另一個常見的方案是擴(kuò)展模型的深度。如圖 5 第二部分所示，我們分別將內(nèi)部模型實現(xiàn)為單層線性層、兩層 MLP、三層 MLP，以探索內(nèi)部模型深度對性能的影響。結(jié)果表明，擴(kuò)展內(nèi)部模型深度時，模型性能持續(xù)下降。在一定程度上，這是一個不符合預(yù)期的結(jié)果。因此理論上更深的內(nèi)部模型具有更大的容量，應(yīng)該能夠?qū)崿F(xiàn)更好的序列建模。

圖 6：較深的 TTT 內(nèi)部模型的訓(xùn)練、測試 loss 均更高

本文認(rèn)為，優(yōu)化問題是導(dǎo)致較深內(nèi)部模型性能不佳的原因。為了驗證這一點，我們在圖 6 中展示了上述三個模型的訓(xùn)練和測試 loss?？梢钥吹剑捎酶顑?nèi)部模型時，模型的訓(xùn)練 loss 更高，這說明性能衰退不是因為過擬合，而恰恰是欠擬合。更深的內(nèi)部模型具有更強(qiáng)的擬合能力，而在真實訓(xùn)練中相比于淺內(nèi)部模型欠擬合，說明深內(nèi)部模型存在優(yōu)化問題，遠(yuǎn)遠(yuǎn)沒有達(dá)到其理論表征能力。在圖 5 第二部分的結(jié)果進(jìn)一步驗證了這一觀點：將兩層 MLP、SwiGLU 的輸出層強(qiáng)行限制為 identity 能夠讓模型性能顯著提升，說明較深的內(nèi)部模型顯著欠優(yōu)化。

這種優(yōu)化困難與 TTT 的元學(xué)習(xí)屬性有關(guān)。一方面，內(nèi)部模型的初始權(quán)重是外部訓(xùn)練過程中的可學(xué)參數(shù)，較深的內(nèi)部模型可能導(dǎo)致這個初始參數(shù)難以優(yōu)化。另一方面，即便有較好的初始參數(shù)，深內(nèi)部模型也可能在內(nèi)部訓(xùn)練過程中遇到梯度消失和爆炸問題，影響效果。

解決較深內(nèi)部模型的優(yōu)化問題，是 TTT 的一個重要未來方向。理論工作表明，神經(jīng)網(wǎng)絡(luò)的擬合能力隨深度指數(shù)增長，這正是當(dāng)前神經(jīng)網(wǎng)絡(luò)成功的核心原因。因此，較深的內(nèi)部模型在實現(xiàn)高精度測試時訓(xùn)練序列建模中具有突出潛力。

觀察 6：在視覺任務(wù)中，內(nèi)部模型非常適合采用卷積架構(gòu)。

在 Transformer 出現(xiàn)之前，卷積操作一直是計算機(jī)視覺領(lǐng)域的基石。在 TTT 中，我們完全可以將內(nèi)部模型實現(xiàn)為一個小的卷積網(wǎng)絡(luò)，而不需要將其限定為 MLP、SwiGLU 等單 token 組件。在圖 5 第三部分中，我們展示了兩種最簡單的實現(xiàn)，將內(nèi)部模型實現(xiàn)為 3x3 卷積或 Depthwise 卷積?？梢钥吹剑@兩種實現(xiàn)均取得了顯著的性能增益。

本文認(rèn)為，采用卷積網(wǎng)絡(luò)作為 TTT 內(nèi)部模型，能夠?qū)崿F(xiàn)局部信息和全局信息的完美融合。具體而言，在 TTT 的內(nèi)部訓(xùn)練過程中，key 和 value 的全局信息被壓縮到卷積核的權(quán)重中。在 query 通過內(nèi)部模型前向傳播時，它很自然地同時得到局部信息（卷積核感受野）和全局信息（包含全局信息的卷積核權(quán)重），因此完美契合視覺任務(wù)。

ViT3：視覺測試時訓(xùn)練模型

基于以上探索，本文提出純 TTT 架構(gòu) Vision Test-Time Training （ViT3）模型。具體而言，對于內(nèi)部訓(xùn)練，采用一次全批量梯度下降、學(xué)習(xí)率 1.0、點積損失函數(shù)；對于內(nèi)部模型，采用簡化的 SwiGLU 和 Depthwise 卷積。作為 TTT 架構(gòu)的一個 baseline，ViT3 可以應(yīng)用于各類視覺 Transformer 框架，完成各類任務(wù)。

本文在分類、檢測、分割、生成等代表性視覺任務(wù)上驗證了 ViT3 的性能。實驗結(jié)果表明，ViT3 能夠超越各類先進(jìn)的線性復(fù)雜度設(shè)計，如線性注意力、視覺 Mamba 模型。這一結(jié)果驗證了 ViT3 設(shè)計的有效性，同時凸顯了測試時訓(xùn)練模型在高效、可擴(kuò)展的線性復(fù)雜度視覺序列建模領(lǐng)域的突出潛力。

以下是部分實驗結(jié)果，詳細(xì)結(jié)果請見論文原文：