0
| 本文作者: 陳淑瑜 | 2026-05-12 14:26 | 專題:CVPR 計算機視覺與模式識別會議 |

2025 年到 2026 年,如果要問生成式 AI 領(lǐng)域最值得關(guān)注的研究方向,流匹配(Flow Matching) 是一個無法繞開的答案。
從去年起,這個名字開始頻繁出現(xiàn)在頂會論文里、被工業(yè)界反復(fù)討論、被拿來和統(tǒng)治了圖像生成領(lǐng)域長達(dá)五年的擴散模型正面比較。
所謂流匹配,本質(zhì)上是用常微分方程路徑(ODE path)替代擴散模型的隨機微分方程路徑,讓數(shù)據(jù)從噪聲到圖像的轉(zhuǎn)變不再依賴數(shù)百步迭代,從而在理論上實現(xiàn)更高效的生成。但從理論可行到工程落地,中間隔著無數(shù)技術(shù)細(xì)節(jié)——訓(xùn)練目標(biāo)怎么設(shè)計、架構(gòu)怎么選、速度和質(zhì)量如何兼顧,每一步都是坑。
何愷明團隊正是在這個節(jié)點上,密集地交出了一份多角度的答卷。
AI科技評論總結(jié)了何愷明團隊近期在CVPR大會上發(fā)表上的論文: 2025 年 5 月,他們提出了均值流(MeanFlow),首次將"均值速度場"引入生成建模;同年年底,BiFlow 在歸一化流框架上實現(xiàn)了 700 倍加速,將 FID 推到 2.39;幾乎同一時間,Improved MeanFlow(iMF)則以三個系統(tǒng)性修復(fù)將單步 FID 降至 1.72,首次在無蒸餾條件下超越所有蒸餾方法。
生成模型之外,團隊在視覺推理(VARC,CVPR 2026)和自監(jiān)督學(xué)習(xí)(Pixo,CVPR 2026)上也同時出擊,共同勾勒出一個清晰的戰(zhàn)略意圖:擴散模型并不是圖像生成的終點,流匹配這條路,值得全力押注。
這五篇論文之間沒有直接的方法傳承,方向各有側(cè)重,但貫穿其中的核心問題始終如一:在每一個被默認(rèn)的技術(shù)選擇背后,到底藏著多少被低估的優(yōu)化空間?
理解 JiT 的工作,需要從擴散模型一個被忽視已久的痛點說起。
當(dāng)前的擴散模型在訓(xùn)練時,網(wǎng)絡(luò)學(xué)習(xí)預(yù)測的目標(biāo)是噪聲 ε 或速度 v,而非干凈圖像 x。
這個細(xì)節(jié)在大多數(shù)論文里被一筆帶過,但它有一個容易被忽視的含義:噪聲和速度并不在自然圖像的流形上。用大白話說,網(wǎng)絡(luò)在試圖預(yù)測一個"不屬于這個世界"的東西——它不在圖像分布內(nèi),是離群的量。這種預(yù)測天然地不穩(wěn)定,網(wǎng)絡(luò)需要額外的表達(dá)能力來處理那些本不應(yīng)該出現(xiàn)在預(yù)測目標(biāo)里的高維噪聲。
也就是說,預(yù)測噪聲和預(yù)測干凈圖區(qū)別很大。

流形示意圖
JiT 的核心洞察正是從這里切入的。既然 x(干凈圖像)在圖像流形上,那就讓網(wǎng)絡(luò)直接預(yù)測 x。直覺上這是一個退步——流形外的東西更難預(yù)測,流形內(nèi)的東西反而應(yīng)該更容易。但團隊指出,這個邏輯在擴散模型里是反的:噪聲 ε 分布在高維空間,目標(biāo)分布極廣,網(wǎng)絡(luò)需要一個很強的先驗來"猜測"噪聲的真實值;而 x 就在流形上,是網(wǎng)絡(luò)見過的、理解的、可以自然逼近的東西。
為了讓這個樸素的想法在工程上成立,JiT 采用了標(biāo)準(zhǔn) Vision Transformer,但做了一個看似大膽的調(diào)整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像標(biāo)準(zhǔn)擴散模型那樣在高分辨率下被迫使用極小的 patch。
原因在于:x 在流形上,網(wǎng)絡(luò)不需要處理流形外的高維噪聲干擾,因此 patch 大小的增加不會導(dǎo)致信息缺失,也沒有帶來災(zāi)難性的效果退化。
這是一種返璞歸真,直接預(yù)測目標(biāo)圖像,對傳統(tǒng)認(rèn)知發(fā)起了一次直接挑戰(zhàn).

JiT模型生成的圖像樣本
JiT 還完全去掉了 VAE Tokenizer,不需要預(yù)訓(xùn)練的潛空間,不需要 GAN 損失或感知損失,就是最樸素的 Transformer 在像素上做去噪。模型規(guī)模 86M 參數(shù),從 256 到 1024 分辨率,計算量幾乎不變——只需要調(diào)整 patch 大小。這意味著一個原生模型可以在任意分辨率上生成,而不需要借助潛空間的壓縮-解壓機制。
最終結(jié)果在 ImageNet 512×512 上實現(xiàn)了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了競爭力的 FID。更值得關(guān)注的是,這個性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓(xùn)練得到的。
JiT 證明了"讓擴散模型真正做去噪"這件事本身,就足以帶來顯著的質(zhì)量提升——不需要更多的工程技巧,只需要把預(yù)測目標(biāo)換回那個理所當(dāng)然卻被忽視了五年的選項。

論文鏈接:https://arxiv.org/abs/2511.13720
ARC是 AI 領(lǐng)域歷史最久的推理能力測試之一,包含數(shù)百個"視覺謎題",要求模型從少數(shù)示例中推斷規(guī)則并泛化到新樣本。物體對稱、重力方向、顏色連續(xù)性、反射變換——這些概念本質(zhì)上是對物理世界的抽象,本不應(yīng)該和語言有任何關(guān)系。
然而長期以來,整個社區(qū)把 ARC 當(dāng)成了一個語言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜,原因是 ARC 的任務(wù)描述可以自然地翻譯成文字,語言模型恰好擅長這類文字推理。這在工程上無可厚非,但它制造了一個隱性的假設(shè):視覺抽象推理,必須借助語言才能完成。
VARC 要挑戰(zhàn)的正是這個假設(shè)。
它把 ARC 任務(wù)重新建模為圖像到圖像的翻譯問題,用一個只有 18M 參數(shù)的 ViT 從頭訓(xùn)練,不依賴任何語言能力,在 ARC-1 上達(dá)到了單模型 54.5%、集成 60.4% 的準(zhǔn)確率。60.4% 是什么水平?人類平均水平是 60.2%,頂級大語言模型也在這個區(qū)間。
這意味著,一個參數(shù)量只有頂級 LLM 幾千分之一的純視覺模型,在視覺推理任務(wù)上達(dá)到了與人類相當(dāng)?shù)乃健?/span>
VARC框架的實現(xiàn)路徑也非常直接,沒有把輸入網(wǎng)格直接 token 化,而是使用了“畫布”,將網(wǎng)格嵌入到一個足夠大的預(yù)定義畫布(32×32)上,背景用第 11 種顏色填充。然后像處理一張普通圖片一樣,被ViT模型進(jìn)行端到端的處理。
這帶來一個關(guān)鍵效果:token 數(shù)量從有限的網(wǎng)格大小擴展到了更大的空間,讓 ViT 的注意力機制有了充足的施展余地,能夠捕捉遠(yuǎn)程的視覺關(guān)系。

WARC的畫布
另外,測試時訓(xùn)練(TTT)在推理階段利用測試任務(wù)的少量示例做快速微調(diào),是性能逼近人類水平的關(guān)鍵——模型不是"記住"了 ARC 的規(guī)則,而是在看到新任務(wù)時快速學(xué)習(xí)規(guī)則本身。
VARC 的出現(xiàn)給整個 ARC 社區(qū)潑了一盆冷水:大家花了大量工程資源在語言模型上刷榜,卻忽視了純視覺方法在這個任務(wù)上的潛力。
這個潛力的釋放需要兩個條件:一個足夠大的視覺畫布,以及一個讓模型在推理時繼續(xù)學(xué)習(xí)的機制。一旦這兩個條件被滿足,視覺推理不需要語言模型這件事,變得異常清晰。

論文鏈接: https://arxiv.org/abs/2511.14761
歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優(yōu)勢是可以用精確的數(shù)學(xué)形式同時完成生成和似然估計,訓(xùn)練過程透明、可解釋,不像擴散模型那樣依賴多次采樣來近似對數(shù)似然。但長期以來,它在性能上被擴散模型壓得喘不過氣來。
原因出在兩個結(jié)構(gòu)性約束上。
第一,傳統(tǒng)歸一化流為了保證前向變換的精確可逆性,必須采用受限的網(wǎng)絡(luò)架構(gòu),無法使用 Transformer 等更強大的序列模型。
第二,逆向過程依賴自回歸因果解碼,每一步必須順序計算,無法并行,生成一張圖的時間成本極高。這兩個約束幾乎從根子上限制了歸一化流在大規(guī)模圖像生成上的競爭力。
BiFlow 的解題思路初看有些反直覺:逆向過程不需要是前向過程的精確逆。
前向過程保持可逆,這是數(shù)學(xué)上的保證,確保分布映射的準(zhǔn)確性不受損害;但逆向過程單獨訓(xùn)練一個獨立的模型來近似逆映射,不要求它在數(shù)學(xué)上等于前向的解析逆。這個"放棄精確逆"帶來了一個巨大的解放:逆向過程可以使用完全并行的 Transformer 架構(gòu),實現(xiàn)真正的單步生成,不再受自回歸解碼的順序瓶頸約束。
但這還不夠。逆向模型單獨訓(xùn)練,意味著它學(xué)到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。
BiFlow 引入了隱藏層對齊機制,利用前向過程的中間狀態(tài)軌跡監(jiān)督逆向模型,確保兩者在表示空間中對齊,防止逆向模型"跑偏"。對齊之后,逆向模型既能受益于 Transformer 的強大表達(dá)能力,又能保持前向過程的分布結(jié)構(gòu)完整。

標(biāo)準(zhǔn)化流與BiFlow的概念對比
最終結(jié)果在 ImageNet 256×256 上實現(xiàn)了 FID 2.39,這是歸一化流方法的歷史新紀(jì)錄。但更有沖擊力的是速度數(shù)據(jù):單張圖像生成時間從 TARFlow 的 0.7 秒縮短到 0.001 秒,加速約 700 倍。

BiFlow與SOTA流模型的效率對比
這不再是理論推演,而是一個可以直接在工程中落地的效率躍遷。歸一化流長期被視為"理論上優(yōu)美、工程上雞肋"的框架,BiFlow 至少把后半句的錯誤認(rèn)知打破了。

論文地址:https://arxiv.org/abs/2512.10953
如果說 BiFlow 是把歸一化流從困境中拉了出來,那么 iMF(Improved Mean Flows)的目標(biāo)更徹底:把"快進(jìn)生成"這條路的瓶頸徹底打通。
"快進(jìn)生成"的核心目標(biāo)是讓擴散模型用 1 步而不是 250 步完成圖像生成。此前的工業(yè)界解法幾乎都依賴蒸餾——用一個大而慢的擴散模型作為"教師",訓(xùn)練一個小的"學(xué)生"在 1-2 步內(nèi)近似教師的輸出。蒸餾效果不錯,但代價也明顯:訓(xùn)練流程極其復(fù)雜,學(xué)生的性能上限被教師鎖死,一旦教師本身有缺陷,學(xué)生無論如何都超不過去。
何愷明團隊在 2025 年 5 月提出了均值流(MeanFlow),首次將"均值速度場"引入生成建模,目標(biāo)是實現(xiàn)真正的單步高質(zhì)量生成。方向正確,但初代 MF 有三個系統(tǒng)性的訓(xùn)練缺陷,導(dǎo)致最終性能距離當(dāng)時的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的擴散模型已經(jīng)在 1.x 徘徊了。
第一個缺陷是訓(xùn)練目標(biāo)的"自依賴"。MF 的訓(xùn)練目標(biāo)是"平均速度損失"(u-loss),目標(biāo)函數(shù)里包含了一個由網(wǎng)絡(luò)自身輸出推導(dǎo)出的項——這就好比讓一個人預(yù)測"自己說的話會造成什么后果",優(yōu)化器在閉環(huán)里反復(fù)震蕩,訓(xùn)練方差極大,收斂不徹底。
第二個缺陷是引導(dǎo)機制的"死板"。無分類器引導(dǎo)(CFG)是提升生成質(zhì)量的關(guān)鍵技術(shù),但 MF 訓(xùn)練時把 CFG 強度固定了,推理時用戶無法調(diào)節(jié)質(zhì)量-多樣性的權(quán)衡——這等于剝奪了生成器最重要的一個調(diào)參手段。
第三個缺陷是架構(gòu)效率的"肥胖"。MF 依賴的 adaLN-zero 機制在處理多條件(時間步 t、類別標(biāo)簽 c、CFG 強度 ω)時把所有條件向量簡單求和,條件多了之后互相干擾,參數(shù)利用率極低。
iMF 成功解決了這三個缺陷目標(biāo),通過將訓(xùn)練目標(biāo)重新表述為更穩(wěn)定的瞬時速度損失,同時引入靈活的無分類器指導(dǎo)(CFG)和高效的上下文內(nèi)條件作用,大幅提升了模型性能。

論文鏈接: https://arxiv.org/abs/2512.02012
針對訓(xùn)練目標(biāo),iMF 利用 MeanFlow 的數(shù)學(xué)恒等式,將平均速度損失(u-loss)等價轉(zhuǎn)換為瞬時速度損失(v-loss)。瞬時速度 v 等于網(wǎng)絡(luò)在 t 時刻的瞬時導(dǎo)數(shù),它的特點是:目標(biāo) v 與網(wǎng)絡(luò)自身的輸出完全無關(guān),是一個純粹的標(biāo)準(zhǔn)回歸問題。這個看似簡單的數(shù)學(xué)變換,把 MF 訓(xùn)練不穩(wěn)定的根因直接消除了。
針對 CFG 靈活性,iMF 把 CFG 強度 ω、引導(dǎo)區(qū)間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網(wǎng)絡(luò)。訓(xùn)練時從冪分布中隨機采樣不同引導(dǎo)強度,讓網(wǎng)絡(luò)學(xué)習(xí)不同 CFG 強度下的速度場分布;推理時,用戶可以自由調(diào)節(jié) CFG 強度,就像使用普通擴散模型一樣自然。這個設(shè)計讓 iMF 支持了 CFG 區(qū)間控制——只有當(dāng) t 落在某個區(qū)間內(nèi)時才啟用引導(dǎo),超出區(qū)間自動關(guān)閉,給了研究者更多調(diào)控手段。
針對架構(gòu)效率,iMF 摒棄了把條件向量求和的粗暴做法,轉(zhuǎn)而將每類條件轉(zhuǎn)化為多個可學(xué)習(xí)的 token,類別 8 個、時間步 4 個、CFG 強度 4 個、引導(dǎo)區(qū)間 4 個,與圖像 latent token 沿序列維度拼接后聯(lián)合處理。Base 模型參數(shù)從 133M 降至 89M,減少了三分之一,同時 FID 反而改善。

iMF 和MF對比圖
三條改進(jìn)的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻(xiàn):原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構(gòu)改進(jìn) 3.39 → 640 epoch 長訓(xùn)練 1.72。每一步都有據(jù)可查,每一步的改善都可以歸因到具體的修改點。
最終 iMF-XL/2 實現(xiàn)了 1-NFE FID 1.72,且這是從零訓(xùn)練、不依賴任何蒸餾取得的成績。iMF 的 FID 優(yōu)于所有依賴蒸餾的單步生成方法,包括 FACM-XL/2(蒸餾,F(xiàn)ID 1.76)和 DMF-XL/2+(蒸餾,F(xiàn)ID 2.16)。擴散模型領(lǐng)域的一個默認(rèn)假設(shè)被打破了:高質(zhì)量單步生成,不需要蒸餾。
更值得關(guān)注的是 2-NFE 時 iMF 的 FID 降至 1.54,已經(jīng)非常接近主流多步擴散的水平(SiT-XL/2+REPA 為 1.42 @ 數(shù)百步)。單步模型與多步模型的性能差距,第一次縮小到了這個量級。
自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域近年來有一個明顯的主流敘事:像素空間已經(jīng)過時,潛空間才是未來。
DINOv3 是這個方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間,再進(jìn)行對比學(xué)習(xí),在多項視覺任務(wù)上達(dá)到了 SOTA,逐漸被視為"正確答案"。
這個敘事的隱含前提是:在大規(guī)模訓(xùn)練場景下,像素級自監(jiān)督天然不如潛空間方法,因為像素空間的高維、冗余、多噪聲特性讓學(xué)習(xí)效率更低。
Pixo(pixel supervision) 要檢驗的正是這個前提。
MAE 已經(jīng)證明,像素空間的掩碼自編碼器在大規(guī)模訓(xùn)練下是一個簡單而高效的選擇。Pixo 則把這個思路推向極致:在 20 億張網(wǎng)絡(luò)爬取圖像上,系統(tǒng)性地探索像素監(jiān)督的上限,并在預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和訓(xùn)練策略三個層面對 MAE 做了全面增強。預(yù)訓(xùn)練任務(wù)設(shè)計得更具挑戰(zhàn)性,架構(gòu)針對大規(guī)模高效訓(xùn)練做了優(yōu)化,訓(xùn)練策略引入了自篩選機制自動過濾低質(zhì)量數(shù)據(jù),最小化人工干預(yù)。

Pixio 對 MAE 進(jìn)行的關(guān)鍵更新
結(jié)果沒有出現(xiàn)預(yù)期的"像素完敗"局面。在深度估計、前饋 3D 重建、語義分割、機器人操控等多個下游任務(wù)上,Pixo 與 DINOv3 正面競爭,各有勝負(fù)。
這意味著像素監(jiān)督在大規(guī)模場景下并非不如潛空間方法,只是需要更強的任務(wù)設(shè)計、更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)和更精細(xì)的訓(xùn)練策略。
兩種范式各有其適合的場景:像素監(jiān)督在需要保留完整視覺細(xì)節(jié)的任務(wù)上可能更有優(yōu)勢,而潛空間方法在語義理解類任務(wù)上更占優(yōu)。
兩種范式的競爭才剛剛開始,Pixo 的價值在于證明了像素監(jiān)督的邊界還遠(yuǎn)未到達(dá)——在 20 億規(guī)模的數(shù)據(jù)上,它依然是一個有力的競爭者,而非被淘汰的遺產(chǎn)。

論文鏈接: https://arxiv.org/abs/2512.15715
盤點完何愷明近期的五篇論文,一個值得深思的問題浮現(xiàn)出來:擴散模型統(tǒng)治圖像生成五年,這個"統(tǒng)治"到底有多扎實?
歸一化流在效率上的結(jié)構(gòu)性缺陷,是可以通過放棄"精確逆"來修復(fù)的;
擴散模型的訓(xùn)練目標(biāo)不穩(wěn)定,是可以通過換掉噪聲預(yù)測目標(biāo)來改善的;
單步生成必須依賴蒸餾的假設(shè),是被 iMF 用從零訓(xùn)練的 FID 1.72 直接打破的。
甚至在視覺推理和自監(jiān)督學(xué)習(xí)領(lǐng)域,何愷明團隊也在用最小化的視覺架構(gòu)挑戰(zhàn)語言模型的傳統(tǒng)領(lǐng)地,而且贏了。他們不是在已有的游戲規(guī)則里優(yōu)化指標(biāo),而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡"的風(fēng)格提出新的思路,這些思路對于傳統(tǒng)方案來說,是顛覆性的改變。
同時,這五篇論文也反映了他們一個連貫的戰(zhàn)略判斷。擴散模型不是終點,而是某個更高效范式出現(xiàn)之前的過渡階段。流匹配是他們的答案,iMF 和 BiFlow 是這個答案最有力的支撐。他們從底層基礎(chǔ)(歸一化、去噪目標(biāo)函數(shù)、流模型設(shè)計)出發(fā),重構(gòu)視覺生成與理解的理論框架。
接下來的問題是,這個判斷會不會在 2026 年成為整個生成式 AI 領(lǐng)域的共識——而這一次,何愷明的團隊已經(jīng)把路標(biāo)立好了。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章