CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

本文作者：陳淑瑜

2026-05-27 18:22

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動(dòng)態(tài)先驗(yàn)，在一個(gè)創(chuàng)新的「聯(lián)合專家」模塊中，同步完成未來(lái)視覺(jué)運(yùn)動(dòng)的預(yù)測(cè)與高精度動(dòng)作序列的生成。

來(lái)源：機(jī)器之心

原文鏈接：https://mp.weixin.qq.com/s/sBfUF2R5Ii-wEWNFTrc2ig

本文第一作者為西湖大學(xué)科研助理藺明慧，通訊作者為阿里巴巴達(dá)摩院算法專家黃思騰和西湖大學(xué)人工智能系副主任王東林。所有作者均來(lái)自西湖大學(xué)機(jī)器智能實(shí)驗(yàn)室（MiLAB）和西湖機(jī)器人科技有限公司，團(tuán)隊(duì)工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎(jiǎng)。

具身智能要想真正在復(fù)雜場(chǎng)景中落地，離不開對(duì)長(zhǎng)程任務(wù)（Long-horizon tasks）的穩(wěn)定執(zhí)行。然而，現(xiàn)有的 VLA（視覺(jué)-語(yǔ)言-動(dòng)作）模型大多停留在「動(dòng)作模仿」階段，缺乏對(duì)物理世界動(dòng)態(tài)變換的深刻理解，在長(zhǎng)線操作中極易陷入因果混淆；同時(shí)，傳統(tǒng)通過(guò)直接堆疊多幀圖像來(lái)引入時(shí)間維度的方法，不僅容易引入大量靜態(tài)背景冗余，更會(huì)帶來(lái)災(zāi)難性的推理延遲與顯存溢出。

CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

為解決上述挑戰(zhàn)，來(lái)自西湖大學(xué)、浙江大學(xué)、西湖機(jī)器人等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種以運(yùn)動(dòng)（Motion）為中心的全新雙向時(shí)空推理框架 HiF-VLA。拋棄冗余的像素級(jí)輸入，HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動(dòng)態(tài)先驗(yàn)，在一個(gè)創(chuàng)新的「聯(lián)合專家」模塊中，同步完成未來(lái)視覺(jué)運(yùn)動(dòng)的預(yù)測(cè)與高精度動(dòng)作序列的生成。

相比傳統(tǒng)的時(shí)空建模范式，HiF-VLA 徹底摒棄了無(wú)用的視覺(jué)背景干擾，不僅在極長(zhǎng)的歷史觀測(cè)窗口下依然保持了恒定、極低的推理延遲，更賦予了機(jī)器人真正「邊想邊做」的物理直覺(jué)。在 CALVIN 與 LIBERO-LONG 等長(zhǎng)程任務(wù)評(píng)測(cè)中，其成功率顯著超越現(xiàn)有 SOTA 方法，為構(gòu)建真正理解世界運(yùn)行規(guī)律的 WAM（世界動(dòng)作模型）開辟了全新路徑。

目前，該工作已被 CVPR 2026 接收，代碼已開源。

論文地址：HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
論文鏈接：https://arxiv.org/abs/2512.09928
項(xiàng)目主頁(yè)：https://hifvla.github.io/
代碼：https://github.com/OpenHelix-Team/HiF-VLA

01 研究動(dòng)機(jī)：

從「動(dòng)作模仿」到「理解物理世界」

當(dāng)前主流的 VLA（視覺(jué)-語(yǔ)言-動(dòng)作）模型，本質(zhì)上大多是高級(jí)的「動(dòng)作模仿」。它們接收當(dāng)前的圖像觀測(cè)，直接映射出對(duì)應(yīng)的動(dòng)作。

這種范式在短視距任務(wù)中尚可應(yīng)付，但在執(zhí)行長(zhǎng)程任務(wù)時(shí)卻屢屢翻車。為什么？因?yàn)槟Ｐ腿狈?duì)物理世界「動(dòng)態(tài)變化」的理解。它們不知道自己剛才做了什么，也無(wú)法預(yù)判當(dāng)前動(dòng)作會(huì)對(duì)環(huán)境產(chǎn)生怎樣的影響，從而極易陷入因果混淆。

要打破這種「短視」魔咒，模型必須從單純的「動(dòng)作模仿」走向「物理理解」。這就要求我們引入 World Action Model (WAM) 的概念——智能體不僅要會(huì)「做」，還要能在腦海中「想」（推演環(huán)境的變化）。

如何賦予機(jī)器人「邊想邊做」的時(shí)空推理能力？最直觀的想法是把過(guò)去幀和未來(lái)幀的圖像全部塞進(jìn)大模型里。但現(xiàn)實(shí)是骨感的：圖像級(jí)別的時(shí)空建模不僅會(huì)導(dǎo)致算力爆炸，還會(huì)引入大量的靜態(tài)背景冗余，使得關(guān)鍵的物理變化被淹沒(méi)。HiF-VLA 團(tuán)隊(duì)找到了一個(gè)高效的切入點(diǎn)：運(yùn)動(dòng)（Motion）。

02 核心方案：

HiF-VLA 的「三位一體」時(shí)空推理

相比于冗余的像素，Motion 是捕捉物理世界動(dòng)態(tài)演變最純粹、最高效、最本質(zhì)的表征。以 Motion 為中心，HiF-VLA 構(gòu)建了一個(gè)名為 Hindsight-Insight-Foresight (HiF) 的雙向時(shí)空推理框架。

1. Hindsight（后見之明）：打破馬爾可夫假設(shè)的「記憶錨點(diǎn)」

智能體必須擁有連貫的自我意識(shí)。HiF-VLA 將機(jī)器人過(guò)去的歷史幀通過(guò)視頻編解碼器（H.264、MPEG-4 等）提取為低維且緊湊的 Motion 動(dòng)態(tài)先驗(yàn)。這就像給機(jī)器人植入了一個(gè)記憶中樞，它不需要回看過(guò)去的錄像，就能精確感知到「環(huán)境剛剛經(jīng)歷了怎樣的運(yùn)動(dòng)變化」。這個(gè)歷史上下文，是后續(xù)一切推理的基石。

2. Insight（洞察現(xiàn)在）和 Foresight（先見之明）：走向 WAM 的「全知視角」

真正的智能，既需要扎根當(dāng)下，更需要預(yù)判未來(lái)。在 HiF-VLA 框架中，這兩個(gè)能力被完美解耦又緊密交織，共同構(gòu)成了邁向 WAM（世界動(dòng)作模型）的核心：

Insight（洞察現(xiàn)在）：負(fù)責(zé)深度解析當(dāng)前的語(yǔ)言指令和實(shí)時(shí)視覺(jué)觀測(cè)，讓機(jī)器人感知「我此時(shí)此刻面臨的是什么環(huán)境，需要完成什么具體目標(biāo)」。
Foresight（預(yù)見未來(lái)）：基于當(dāng)下的 Insight，HiF-VLA 在輸出動(dòng)作的同時(shí)，會(huì)初步地預(yù)測(cè)未來(lái)的運(yùn)動(dòng)趨勢(shì)。這相當(dāng)于在模型內(nèi)部嵌入了一個(gè)虛擬物理模擬器，讓機(jī)器人能夠提前推演自身的行為后果。

3. 深度對(duì)齊：視覺(jué)與動(dòng)作的協(xié)同預(yù)測(cè)

這是 HiF-VLA 最為核心、也最出彩的創(chuàng)新——歷史調(diào)制的聯(lián)合專家（Hindsight-modulated joint expert）。如果說(shuō) Hindsight 和 Foresight 拉長(zhǎng)了時(shí)間軸，那么聯(lián)合專家模塊則改變了模型的生成目標(biāo)。HiF-VLA 認(rèn)為，視覺(jué)與動(dòng)作的割裂是阻礙模型理解物理規(guī)律的絆腳石，因此設(shè)計(jì)的聯(lián)合專家模塊絕不是簡(jiǎn)單地將視覺(jué)特征和語(yǔ)言指令拼接，而是執(zhí)行了一個(gè)雙目標(biāo)協(xié)同的策略：

視覺(jué) Motion 預(yù)測(cè) + 動(dòng)作序列生成：聯(lián)合專家在歷史信息（Hindsight）的動(dòng)態(tài)調(diào)制下，被強(qiáng)制要求同時(shí)輸出對(duì)未來(lái)視覺(jué) Motion 的預(yù)測(cè)以及高精度的執(zhí)行動(dòng)作序列。
為什么這很重要？這種雙目標(biāo)的聯(lián)合對(duì)齊，逼迫模型不能只死記硬背動(dòng)作，而是必須去理解「我輸出這個(gè)動(dòng)作后，物理世界的視覺(jué)表征會(huì)發(fā)生怎樣的動(dòng)態(tài)變換」。

通過(guò)將「預(yù)測(cè)未來(lái)視覺(jué)變化（想）」與「規(guī)劃動(dòng)作序列（做）」深度綁定，HiF-VLA 實(shí)現(xiàn)了真正的 Think-while-acting（邊想邊做）。它不再是盲目地模仿專家軌跡，而是產(chǎn)生了真實(shí)的「物理直覺(jué)」。

03 實(shí)驗(yàn)結(jié)果

? Q1：HiF-VLA 與 SOTA 的 VLA 模型相比較如何？

? HiF-VLA 在多樣化的短程和長(zhǎng)程任務(wù)中展現(xiàn)出了強(qiáng)大的能力。

CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

團(tuán)隊(duì)尤其關(guān)注 HiF-VLA 在長(zhǎng)程任務(wù)上的表現(xiàn)。在 LIBERO-LONG 任務(wù)套件以及 CALVIN ABC-D 長(zhǎng)程任務(wù)評(píng)測(cè)中，HiF-VLA 的表現(xiàn)顯著優(yōu)于諸多 SOTA 方法。同時(shí)，在真實(shí)世界的長(zhǎng)程任務(wù)測(cè)試中，HiF-VLA 也展現(xiàn)出更加穩(wěn)定且優(yōu)越的任務(wù)完成性能（更多詳細(xì)指標(biāo)請(qǐng)參閱原論文）。

? Q2：HiF-VLA 是否有效地緩解了傳統(tǒng)方法中的視覺(jué)冗余和低效問(wèn)題？

CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

? 傳統(tǒng)做法的困境：當(dāng)簡(jiǎn)單粗暴地將歷史多幀圖像塞給模型時(shí)，顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB（漲幅 2.06 倍），推理延遲更是暴增到 229.5 ms（高達(dá) 3.15 倍）。更令人窒息的是，由于引入了海量冗余的靜態(tài)背景噪聲，模型反而被干擾了視線，平均成功率（Avg. SR）不升反降。

? HiF-VLA 的解決方案：HiF-VLA 巧妙地將歷史幀編碼為低維、結(jié)構(gòu)化的運(yùn)動(dòng)向量。引入 Hindsight 模塊后，模型面對(duì)同樣長(zhǎng)度的歷史窗口，峰值顯存僅僅維持在 31.4 GB，相較于 Baseline 幾乎做到了「零負(fù)擔(dān)」（僅增加極微小的 1.02 倍開銷）。同時(shí)，推理延遲（117.7 ms）也遠(yuǎn)低于傳統(tǒng)堆疊方法。最重要的是，在剔除了視覺(jué)冗余后，它讓模型能專注理解物理運(yùn)動(dòng)，成功將平均成功率大幅提升。

? Q3：隨著時(shí)間跨度的增加，HiF-VLA 在推理時(shí)的可擴(kuò)展性如何？

CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

? 拒絕指數(shù)級(jí)成本增長(zhǎng)，打破長(zhǎng)序列計(jì)算瓶頸。

從推理效率對(duì)比圖可以直觀看出，隨著歷史時(shí)間跨度的增加，傳統(tǒng)堆疊圖像幀的方法會(huì)遭遇指數(shù)級(jí)的計(jì)算延遲暴漲甚至顯存溢出（OOM）。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征，徹底打破了長(zhǎng)序列推理的計(jì)算瓶頸，隨著歷史觀測(cè)窗口變長(zhǎng)，都始終保持穩(wěn)定且極低的推理延遲，展現(xiàn)出了在處理長(zhǎng)程動(dòng)態(tài)變換時(shí)強(qiáng)大的時(shí)間可擴(kuò)展性。

? Q4：HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過(guò)程？

CVPR 2026 | 突破短視，理解變化！HiF-VLA：以motion為中心打造「邊想邊做」的世界動(dòng)作模型

? 眼見為實(shí)：motion 預(yù)測(cè)與 action 執(zhí)行的時(shí)空高度吻合。

從可視化結(jié)果中可以看到，HiF-VLA 在執(zhí)行動(dòng)作的同一時(shí)刻，其內(nèi)部聯(lián)合專家模塊已經(jīng)精準(zhǔn)預(yù)測(cè)出了由紅色箭頭標(biāo)識(shí)的未來(lái)視覺(jué)運(yùn)動(dòng)場(chǎng)。這有力地證明了模型并非在盲目背誦指令，而是真正實(shí)現(xiàn)了「邊想邊做」。它能清晰地預(yù)判自身動(dòng)作將引發(fā)環(huán)境中怎樣的物理動(dòng)態(tài)變換，從而在復(fù)雜任務(wù)中展現(xiàn)出精準(zhǔn)的「物理直覺(jué)」。

04 總結(jié)

從機(jī)械的「動(dòng)作模仿」進(jìn)化為理解物理規(guī)律的「世界動(dòng)作模型（WAM）」，HiF-VLA 邁出了至關(guān)重要的一步。它證明了機(jī)器人的動(dòng)作不應(yīng)只是對(duì)指令的盲目響應(yīng)，而應(yīng)當(dāng)是在對(duì)過(guò)去的洞察與對(duì)未來(lái)的預(yù)判交織下，自然而然的物理反饋。對(duì)于具身智能走向更復(fù)雜、更真實(shí)的物理世界，HiF-VLA 無(wú)疑提供了一個(gè)極具潛力和啟發(fā)性的全新范式。