何愷明團隊論文全景掃描：一場關(guān)于「生成范式」的多角度突破 | CVPR 2026

本文作者：陳淑瑜

2026-05-12 14:26

導(dǎo)語：高度依賴擴散模型的圖像生成范式，正在被重新審視。

何愷明團隊論文全景掃描：一場關(guān)于「生成范式」的多角度突破 | CVPR 2026

2025 年到 2026 年，如果要問生成式 AI 領(lǐng)域最值得關(guān)注的研究方向，流匹配（Flow Matching）是一個無法繞開的答案。

從去年起，這個名字開始頻繁出現(xiàn)在頂會論文里、被工業(yè)界反復(fù)討論、被拿來和統(tǒng)治了圖像生成領(lǐng)域長達(dá)五年的擴散模型正面比較。

所謂流匹配，本質(zhì)上是用常微分方程路徑（ODE path）替代擴散模型的隨機微分方程路徑，讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代，從而在理論上實現(xiàn)更高效的生成。但從理論可行到工程落地，中間隔著無數(shù)技術(shù)細(xì)節(jié)——訓(xùn)練目標(biāo)怎么設(shè)計、架構(gòu)怎么選、速度和質(zhì)量如何兼顧，每一步都是坑。

何愷明團隊正是在這個節(jié)點上，密集地交出了一份多角度的答卷。

AI科技評論總結(jié)了何愷明團隊近期在CVPR大會上發(fā)表上的論文： 2025 年 5 月，他們提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模；同年年底，BiFlow 在歸一化流框架上實現(xiàn)了 700 倍加速，將 FID 推到 2.39；幾乎同一時間，Improved MeanFlow（iMF）則以三個系統(tǒng)性修復(fù)將單步 FID 降至 1.72，首次在無蒸餾條件下超越所有蒸餾方法。

生成模型之外，團隊在視覺推理（VARC，CVPR 2026）和自監(jiān)督學(xué)習(xí)（Pixo，CVPR 2026）上也同時出擊，共同勾勒出一個清晰的戰(zhàn)略意圖：擴散模型并不是圖像生成的終點，流匹配這條路，值得全力押注。

這五篇論文之間沒有直接的方法傳承，方向各有側(cè)重，但貫穿其中的核心問題始終如一：在每一個被默認(rèn)的技術(shù)選擇背后，到底藏著多少被低估的優(yōu)化空間？

讓"去噪"模型真正做一次去噪

理解 JiT 的工作，需要從擴散模型一個被忽視已久的痛點說起。

當(dāng)前的擴散模型在訓(xùn)練時，網(wǎng)絡(luò)學(xué)習(xí)預(yù)測的目標(biāo)是噪聲 ε 或速度 v，而非干凈圖像 x。

這個細(xì)節(jié)在大多數(shù)論文里被一筆帶過，但它有一個容易被忽視的含義：噪聲和速度并不在自然圖像的流形上。用大白話說，網(wǎng)絡(luò)在試圖預(yù)測一個"不屬于這個世界"的東西——它不在圖像分布內(nèi)，是離群的量。這種預(yù)測天然地不穩(wěn)定，網(wǎng)絡(luò)需要額外的表達(dá)能力來處理那些本不應(yīng)該出現(xiàn)在預(yù)測目標(biāo)里的高維噪聲。

也就是說，預(yù)測噪聲和預(yù)測干凈圖區(qū)別很大。

流形示意圖

JiT 的核心洞察正是從這里切入的。既然 x（干凈圖像）在圖像流形上，那就讓網(wǎng)絡(luò)直接預(yù)測 x。直覺上這是一個退步——流形外的東西更難預(yù)測，流形內(nèi)的東西反而應(yīng)該更容易。但團隊指出，這個邏輯在擴散模型里是反的：噪聲 ε 分布在高維空間，目標(biāo)分布極廣，網(wǎng)絡(luò)需要一個很強的先驗來"猜測"噪聲的真實值；而 x 就在流形上，是網(wǎng)絡(luò)見過的、理解的、可以自然逼近的東西。

為了讓這個樸素的想法在工程上成立，JiT 采用了標(biāo)準(zhǔn) Vision Transformer，但做了一個看似大膽的調(diào)整：patch 尺寸可以非常大——16×16、32×32 甚至 64×64，而不像標(biāo)準(zhǔn)擴散模型那樣在高分辨率下被迫使用極小的 patch。

原因在于：x 在流形上，網(wǎng)絡(luò)不需要處理流形外的高維噪聲干擾，因此 patch 大小的增加不會導(dǎo)致信息缺失，也沒有帶來災(zāi)難性的效果退化。

這是一種返璞歸真，直接預(yù)測目標(biāo)圖像，對傳統(tǒng)認(rèn)知發(fā)起了一次直接挑戰(zhàn).

JiT模型生成的圖像樣本

JiT 還完全去掉了 VAE Tokenizer，不需要預(yù)訓(xùn)練的潛空間，不需要 GAN 損失或感知損失，就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù)，從 256 到 1024 分辨率，計算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個原生模型可以在任意分辨率上生成，而不需要借助潛空間的壓縮-解壓機制。

最終結(jié)果在 ImageNet 512×512 上實現(xiàn)了 FID 1.78，且 JiT-G 版本在更高分辨率下依然保持了競爭力的 FID。更值得關(guān)注的是，這個性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓(xùn)練得到的。

JiT 證明了"讓擴散模型真正做去噪"這件事本身，就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧，只需要把預(yù)測目標(biāo)換回那個理所當(dāng)然卻被忽視了五年的選項。

論文鏈接：https://arxiv.org/abs/2511.13720

ARC：跳出語言模型的舒適圈

ARC是 AI 領(lǐng)域歷史最久的推理能力測試之一，包含數(shù)百個"視覺謎題"，要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對物理世界的抽象，本不應(yīng)該和語言有任何關(guān)系。

然而長期以來，整個社區(qū)把 ARC 當(dāng)成了一個語言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜，原因是 ARC 的任務(wù)描述可以自然地翻譯成文字，語言模型恰好擅長這類文字推理。這在工程上無可厚非，但它制造了一個隱性的假設(shè)：視覺抽象推理，必須借助語言才能完成。

VARC 要挑戰(zhàn)的正是這個假設(shè)。

它把 ARC 任務(wù)重新建模為圖像到圖像的翻譯問題，用一個只有 18M 參數(shù)的 ViT 從頭訓(xùn)練，不依賴任何語言能力，在 ARC-1 上達(dá)到了單模型 54.5%、集成 60.4% 的準(zhǔn)確率。60.4% 是什么水平？人類平均水平是 60.2%，頂級大語言模型也在這個區(qū)間。

這意味著，一個參數(shù)量只有頂級 LLM 幾千分之一的純視覺模型，在視覺推理任務(wù)上達(dá)到了與人類相當(dāng)?shù)乃健?/span>

VARC框架的實現(xiàn)路徑也非常直接，沒有把輸入網(wǎng)格直接 token 化，而是使用了“畫布”，將網(wǎng)格嵌入到一個足夠大的預(yù)定義畫布（32×32）上，背景用第 11 種顏色填充。然后像處理一張普通圖片一樣，被ViT模型進(jìn)行端到端的處理。

這帶來一個關(guān)鍵效果：token 數(shù)量從有限的網(wǎng)格大小擴展到了更大的空間，讓 ViT 的注意力機制有了充足的施展余地，能夠捕捉遠(yuǎn)程的視覺關(guān)系。

WARC的畫布

另外，測試時訓(xùn)練（TTT）在推理階段利用測試任務(wù)的少量示例做快速微調(diào)，是性能逼近人類水平的關(guān)鍵——模型不是"記住"了 ARC 的規(guī)則，而是在看到新任務(wù)時快速學(xué)習(xí)規(guī)則本身。

VARC 的出現(xiàn)給整個 ARC 社區(qū)潑了一盆冷水：大家花了大量工程資源在語言模型上刷榜，卻忽視了純視覺方法在這個任務(wù)上的潛力。

這個潛力的釋放需要兩個條件：一個足夠大的視覺畫布，以及一個讓模型在推理時繼續(xù)學(xué)習(xí)的機制。一旦這兩個條件被滿足，視覺推理不需要語言模型這件事，變得異常清晰。

論文鏈接： https://arxiv.org/abs/2511.14761

突破歸一化流限制，圖像單步生成加速

歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢是可以用精確的數(shù)學(xué)形式同時完成生成和似然估計，訓(xùn)練過程透明、可解釋，不像擴散模型那樣依賴多次采樣來近似對數(shù)似然。但長期以來，它在性能上被擴散模型壓得喘不過氣來。

原因出在兩個結(jié)構(gòu)性約束上。

第一，傳統(tǒng)歸一化流為了保證前向變換的精確可逆性，必須采用受限的網(wǎng)絡(luò)架構(gòu)，無法使用 Transformer 等更強大的序列模型。

第二，逆向過程依賴自回歸因果解碼，每一步必須順序計算，無法并行，生成一張圖的時間成本極高。這兩個約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競爭力。

BiFlow 的解題思路初看有些反直覺：逆向過程不需要是前向過程的精確逆。

前向過程保持可逆，這是數(shù)學(xué)上的保證，確保分布映射的準(zhǔn)確性不受損害；但逆向過程單獨訓(xùn)練一個獨立的模型來近似逆映射，不要求它在數(shù)學(xué)上等于前向的解析逆。這個"放棄精確逆"帶來了一個巨大的解放：逆向過程可以使用完全并行的 Transformer 架構(gòu)，實現(xiàn)真正的單步生成，不再受自回歸解碼的順序瓶頸約束。

但這還不夠。逆向模型單獨訓(xùn)練，意味著它學(xué)到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。

BiFlow 引入了隱藏層對齊機制，利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型，確保兩者在表示空間中對齊，防止逆向模型"跑偏"。對齊之后，逆向模型既能受益于 Transformer 的強大表達(dá)能力，又能保持前向過程的分布結(jié)構(gòu)完整。

標(biāo)準(zhǔn)化流與BiFlow的概念對比

最終結(jié)果在 ImageNet 256×256 上實現(xiàn)了 FID 2.39，這是歸一化流方法的歷史新紀(jì)錄。但更有沖擊力的是速度數(shù)據(jù)：單張圖像生成時間從 TARFlow 的 0.7 秒縮短到 0.001 秒，加速約 700 倍。

BiFlow與SOTA流模型的效率對比

這不再是理論推演，而是一個可以直接在工程中落地的效率躍遷。歸一化流長期被視為"理論上優(yōu)美、工程上雞肋"的框架，BiFlow 至少把后半句的錯誤認(rèn)知打破了。

論文地址：https://arxiv.org/abs/2512.10953

快進(jìn)生成，無需蒸餾

如果說 BiFlow 是把歸一化流從困境中拉了出來，那么 iMF（Improved Mean Flows）的目標(biāo)更徹底：把"快進(jìn)生成"這條路的瓶頸徹底打通。

"快進(jìn)生成"的核心目標(biāo)是讓擴散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個大而慢的擴散模型作為"教師"，訓(xùn)練一個小的"學(xué)生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯，但代價也明顯：訓(xùn)練流程極其復(fù)雜，學(xué)生的性能上限被教師鎖死，一旦教師本身有缺陷，學(xué)生無論如何都超不過去。

何愷明團隊在 2025 年 5 月提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模，目標(biāo)是實現(xiàn)真正的單步高質(zhì)量生成。方向正確，但初代 MF 有三個系統(tǒng)性的訓(xùn)練缺陷，導(dǎo)致最終性能距離當(dāng)時的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43，而最好的擴散模型已經(jīng)在 1.x 徘徊了。

第一個缺陷是訓(xùn)練目標(biāo)的"自依賴"。MF 的訓(xùn)練目標(biāo)是"平均速度損失"（u-loss），目標(biāo)函數(shù)里包含了一個由網(wǎng)絡(luò)自身輸出推導(dǎo)出的項——這就好比讓一個人預(yù)測"自己說的話會造成什么后果"，優(yōu)化器在閉環(huán)里反復(fù)震蕩，訓(xùn)練方差極大，收斂不徹底。

第二個缺陷是引導(dǎo)機制的"死板"。無分類器引導(dǎo)（CFG）是提升生成質(zhì)量的關(guān)鍵技術(shù)，但 MF 訓(xùn)練時把 CFG 強度固定了，推理時用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個調(diào)參手段。

第三個缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機制在處理多條件（時間步 t、類別標(biāo)簽 c、CFG 強度 ω）時把所有條件向量簡單求和，條件多了之后互相干擾，參數(shù)利用率極低。

iMF 成功解決了這三個缺陷目標(biāo)，通過將訓(xùn)練目標(biāo)重新表述為更穩(wěn)定的瞬時速度損失，同時引入靈活的無分類器指導(dǎo)（CFG）和高效的上下文內(nèi)條件作用，大幅提升了模型性能。

論文鏈接： https://arxiv.org/abs/2512.02012

針對訓(xùn)練目標(biāo)，iMF 利用 MeanFlow 的數(shù)學(xué)恒等式，將平均速度損失（u-loss）等價轉(zhuǎn)換為瞬時速度損失（v-loss）。瞬時速度 v 等于網(wǎng)絡(luò)在 t 時刻的瞬時導(dǎo)數(shù)，它的特點是：目標(biāo) v 與網(wǎng)絡(luò)自身的輸出完全無關(guān)，是一個純粹的標(biāo)準(zhǔn)回歸問題。這個看似簡單的數(shù)學(xué)變換，把 MF 訓(xùn)練不穩(wěn)定的根因直接消除了。

針對 CFG 靈活性，iMF 把 CFG 強度 ω、引導(dǎo)區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡(luò)。訓(xùn)練時從冪分布中隨機采樣不同引導(dǎo)強度，讓網(wǎng)絡(luò)學(xué)習(xí)不同 CFG 強度下的速度場分布；推理時，用戶可以自由調(diào)節(jié) CFG 強度，就像使用普通擴散模型一樣自然。這個設(shè)計讓 iMF 支持了 CFG 區(qū)間控制——只有當(dāng) t 落在某個區(qū)間內(nèi)時才啟用引導(dǎo)，超出區(qū)間自動關(guān)閉，給了研究者更多調(diào)控手段。

針對架構(gòu)效率，iMF 摒棄了把條件向量求和的粗暴做法，轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個可學(xué)習(xí)的 token，類別 8 個、時間步 4 個、CFG 強度 4 個、引導(dǎo)區(qū)間 4 個，與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M，減少了三分之一，同時 FID 反而改善。

iMF 和MF對比圖

三條改進(jìn)的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻(xiàn)：原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進(jìn) 3.39 → 640 epoch 長訓(xùn)練 1.72。每一步都有據(jù)可查，每一步的改善都可以歸因到具體的修改點。

最終 iMF-XL/2 實現(xiàn)了 1-NFE FID 1.72，且這是從零訓(xùn)練、不依賴任何蒸餾取得的成績。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法，包括 FACM-XL/2（蒸餾，F(xiàn)ID 1.76）和 DMF-XL/2+（蒸餾，F(xiàn)ID 2.16）。擴散模型領(lǐng)域的一個默認(rèn)假設(shè)被打破了：高質(zhì)量單步生成，不需要蒸餾。

更值得關(guān)注的是 2-NFE 時 iMF 的 FID 降至 1.54，已經(jīng)非常接近主流多步擴散的水平（SiT-XL/2+REPA 為 1.42 @ 數(shù)百步）。單步模型與多步模型的性能差距，第一次縮小到了這個量級。

像素監(jiān)督：從邊緣到正面競爭

自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域近年來有一個明顯的主流敘事：像素空間已經(jīng)過時，潛空間才是未來。

DINOv3 是這個方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間，再進(jìn)行對比學(xué)習(xí)，在多項視覺任務(wù)上達(dá)到了 SOTA，逐漸被視為"正確答案"。

這個敘事的隱含前提是：在大規(guī)模訓(xùn)練場景下，像素級自監(jiān)督天然不如潛空間方法，因為像素空間的高維、冗余、多噪聲特性讓學(xué)習(xí)效率更低。

Pixo（pixel supervision）要檢驗的正是這個前提。

MAE 已經(jīng)證明，像素空間的掩碼自編碼器在大規(guī)模訓(xùn)練下是一個簡單而高效的選擇。Pixo 則把這個思路推向極致：在 20 億張網(wǎng)絡(luò)爬取圖像上，系統(tǒng)性地探索像素監(jiān)督的上限，并在預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和訓(xùn)練策略三個層面對 MAE 做了全面增強。預(yù)訓(xùn)練任務(wù)設(shè)計得更具挑戰(zhàn)性，架構(gòu)針對大規(guī)模高效訓(xùn)練做了優(yōu)化，訓(xùn)練策略引入了自篩選機制自動過濾低質(zhì)量數(shù)據(jù)，最小化人工干預(yù)。

Pixio 對 MAE 進(jìn)行的關(guān)鍵更新

結(jié)果沒有出現(xiàn)預(yù)期的"像素完敗"局面。在深度估計、前饋 3D 重建、語義分割、機器人操控等多個下游任務(wù)上，Pixo 與 DINOv3 正面競爭，各有勝負(fù)。

這意味著像素監(jiān)督在大規(guī)模場景下并非不如潛空間方法，只是需要更強的任務(wù)設(shè)計、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細(xì)的訓(xùn)練策略。

兩種范式各有其適合的場景：像素監(jiān)督在需要保留完整視覺細(xì)節(jié)的任務(wù)上可能更有優(yōu)勢，而潛空間方法在語義理解類任務(wù)上更占優(yōu)。

兩種范式的競爭才剛剛開始，Pixo 的價值在于證明了像素監(jiān)督的邊界還遠(yuǎn)未到達(dá)——在 20 億規(guī)模的數(shù)據(jù)上，它依然是一個有力的競爭者，而非被淘汰的遺產(chǎn)。

論文鏈接： https://arxiv.org/abs/2512.15715

結(jié)語

盤點完何愷明近期的五篇論文，一個值得深思的問題浮現(xiàn)出來：擴散模型統(tǒng)治圖像生成五年，這個"統(tǒng)治"到底有多扎實？

歸一化流在效率上的結(jié)構(gòu)性缺陷，是可以通過放棄"精確逆"來修復(fù)的；

擴散模型的訓(xùn)練目標(biāo)不穩(wěn)定，是可以通過換掉噪聲預(yù)測目標(biāo)來改善的；

單步生成必須依賴蒸餾的假設(shè)，是被 iMF 用從零訓(xùn)練的 FID 1.72 直接打破的。

甚至在視覺推理和自監(jiān)督學(xué)習(xí)領(lǐng)域，何愷明團隊也在用最小化的視覺架構(gòu)挑戰(zhàn)語言模型的傳統(tǒng)領(lǐng)地，而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標(biāo)，而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡"的風(fēng)格提出新的思路，這些思路對于傳統(tǒng)方案來說，是顛覆性的改變。

同時，這五篇論文也反映了他們一個連貫的戰(zhàn)略判斷。擴散模型不是終點，而是某個更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案，iMF 和 BiFlow 是這個答案最有力的支撐。他們從底層基礎(chǔ)（歸一化、去噪目標(biāo)函數(shù)、流模型設(shè)計）出發(fā)，重構(gòu)視覺生成與理解的理論框架。

接下來的問題是，這個判斷會不會在 2026 年成為整個生成式 AI 領(lǐng)域的共識——而這一次，何愷明的團隊已經(jīng)把路標(biāo)立好了。

雷峰網(wǎng)(公眾號：雷峰網(wǎng)) 何愷明團隊論文全景掃描：一場關(guān)于「生成范式」的多角度突破 | CVPR 2026

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。