97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型

導(dǎo)語(yǔ):HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動(dòng)態(tài)先驗(yàn),在一個(gè)創(chuàng)新的「聯(lián)合專家」模塊中,同步完成未來(lái)視覺(jué)運(yùn)動(dòng)的預(yù)測(cè)與高精度動(dòng)作序列的生成。

來(lái)源:機(jī)器之心

原文鏈接:https://mp.weixin.qq.com/s/sBfUF2R5Ii-wEWNFTrc2ig


本文第一作者為西湖大學(xué)科研助理藺明慧,通訊作者為阿里巴巴達(dá)摩院算法專家黃思騰和西湖大學(xué)人工智能系副主任王東林。所有作者均來(lái)自西湖大學(xué)機(jī)器智能實(shí)驗(yàn)室(MiLAB)和西湖機(jī)器人科技有限公司,團(tuán)隊(duì)工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎(jiǎng)。

具身智能要想真正在復(fù)雜場(chǎng)景中落地,離不開對(duì)長(zhǎng)程任務(wù)(Long-horizon tasks)的穩(wěn)定執(zhí)行。然而,現(xiàn)有的 VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型大多停留在「動(dòng)作模仿」階段,缺乏對(duì)物理世界動(dòng)態(tài)變換的深刻理解,在長(zhǎng)線操作中極易陷入因果混淆;同時(shí),傳統(tǒng)通過(guò)直接堆疊多幀圖像來(lái)引入時(shí)間維度的方法,不僅容易引入大量靜態(tài)背景冗余,更會(huì)帶來(lái)災(zāi)難性的推理延遲與顯存溢出。

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型

為解決上述挑戰(zhàn),來(lái)自西湖大學(xué)、浙江大學(xué)、西湖機(jī)器人等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種以運(yùn)動(dòng)(Motion)為中心的全新雙向時(shí)空推理框架 HiF-VLA。拋棄冗余的像素級(jí)輸入,HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動(dòng)態(tài)先驗(yàn),在一個(gè)創(chuàng)新的「聯(lián)合專家」模塊中,同步完成未來(lái)視覺(jué)運(yùn)動(dòng)的預(yù)測(cè)與高精度動(dòng)作序列的生成。

相比傳統(tǒng)的時(shí)空建模范式,HiF-VLA 徹底摒棄了無(wú)用的視覺(jué)背景干擾,不僅在極長(zhǎng)的歷史觀測(cè)窗口下依然保持了恒定、極低的推理延遲,更賦予了機(jī)器人真正「邊想邊做」的物理直覺(jué)。在 CALVIN 與 LIBERO-LONG 等長(zhǎng)程任務(wù)評(píng)測(cè)中,其成功率顯著超越現(xiàn)有 SOTA 方法,為構(gòu)建真正理解世界運(yùn)行規(guī)律的 WAM(世界動(dòng)作模型)開辟了全新路徑。

目前,該工作已被 CVPR 2026 接收,代碼已開源。 

  • 論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

  • 論文鏈接:https://arxiv.org/abs/2512.09928

  • 項(xiàng)目主頁(yè):https://hifvla.github.io/

  • 代碼:https://github.com/OpenHelix-Team/HiF-VLA


01 研究動(dòng)機(jī):

從「動(dòng)作模仿」到「理解物理世界」


CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型


當(dāng)前主流的 VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型,本質(zhì)上大多是高級(jí)的「動(dòng)作模仿」。它們接收當(dāng)前的圖像觀測(cè),直接映射出對(duì)應(yīng)的動(dòng)作。

這種范式在短視距任務(wù)中尚可應(yīng)付,但在執(zhí)行長(zhǎng)程任務(wù)時(shí)卻屢屢翻車。為什么?因?yàn)槟P腿狈?duì)物理世界「動(dòng)態(tài)變化」的理解。它們不知道自己剛才做了什么,也無(wú)法預(yù)判當(dāng)前動(dòng)作會(huì)對(duì)環(huán)境產(chǎn)生怎樣的影響,從而極易陷入因果混淆。

要打破這種「短視」魔咒,模型必須從單純的「動(dòng)作模仿」走向「物理理解」。這就要求我們引入 World Action Model (WAM) 的概念——智能體不僅要會(huì)「做」,還要能在腦海中「想」(推演環(huán)境的變化)。

如何賦予機(jī)器人「邊想邊做」的時(shí)空推理能力?最直觀的想法是把過(guò)去幀和未來(lái)幀的圖像全部塞進(jìn)大模型里。但現(xiàn)實(shí)是骨感的:圖像級(jí)別的時(shí)空建模不僅會(huì)導(dǎo)致算力爆炸,還會(huì)引入大量的靜態(tài)背景冗余,使得關(guān)鍵的物理變化被淹沒(méi)。HiF-VLA 團(tuán)隊(duì)找到了一個(gè)高效的切入點(diǎn):運(yùn)動(dòng)(Motion)。


02 核心方案:

HiF-VLA 的「三位一體」時(shí)空推理

相比于冗余的像素,Motion 是捕捉物理世界動(dòng)態(tài)演變最純粹、最高效、最本質(zhì)的表征。以 Motion 為中心,HiF-VLA 構(gòu)建了一個(gè)名為 Hindsight-Insight-Foresight (HiF) 的雙向時(shí)空推理框架。

1. Hindsight(后見之明):打破馬爾可夫假設(shè)的「記憶錨點(diǎn)」

智能體必須擁有連貫的自我意識(shí)。HiF-VLA 將機(jī)器人過(guò)去的歷史幀通過(guò)視頻編解碼器(H.264、MPEG-4 等)提取為低維且緊湊的 Motion 動(dòng)態(tài)先驗(yàn)。這就像給機(jī)器人植入了一個(gè)記憶中樞,它不需要回看過(guò)去的錄像,就能精確感知到「環(huán)境剛剛經(jīng)歷了怎樣的運(yùn)動(dòng)變化」。這個(gè)歷史上下文,是后續(xù)一切推理的基石。

2. Insight(洞察現(xiàn)在)和 Foresight(先見之明):走向 WAM 的「全知視角」

真正的智能,既需要扎根當(dāng)下,更需要預(yù)判未來(lái)。在 HiF-VLA 框架中,這兩個(gè)能力被完美解耦又緊密交織,共同構(gòu)成了邁向 WAM(世界動(dòng)作模型)的核心:

  • Insight(洞察現(xiàn)在):負(fù)責(zé)深度解析當(dāng)前的語(yǔ)言指令和實(shí)時(shí)視覺(jué)觀測(cè),讓機(jī)器人感知「我此時(shí)此刻面臨的是什么環(huán)境,需要完成什么具體目標(biāo)」。

  • Foresight(預(yù)見未來(lái)):基于當(dāng)下的 Insight,HiF-VLA 在輸出動(dòng)作的同時(shí),會(huì)初步地預(yù)測(cè)未來(lái)的運(yùn)動(dòng)趨勢(shì)。這相當(dāng)于在模型內(nèi)部嵌入了一個(gè)虛擬物理模擬器,讓機(jī)器人能夠提前推演自身的行為后果。

3. 深度對(duì)齊:視覺(jué)與動(dòng)作的協(xié)同預(yù)測(cè)

這是 HiF-VLA 最為核心、也最出彩的創(chuàng)新——歷史調(diào)制的聯(lián)合專家(Hindsight-modulated joint expert)。如果說(shuō) Hindsight 和 Foresight 拉長(zhǎng)了時(shí)間軸,那么聯(lián)合專家模塊則改變了模型的生成目標(biāo)。HiF-VLA 認(rèn)為,視覺(jué)與動(dòng)作的割裂是阻礙模型理解物理規(guī)律的絆腳石,因此設(shè)計(jì)的聯(lián)合專家模塊絕不是簡(jiǎn)單地將視覺(jué)特征和語(yǔ)言指令拼接,而是執(zhí)行了一個(gè)雙目標(biāo)協(xié)同的策略:

  • 視覺(jué) Motion 預(yù)測(cè) + 動(dòng)作序列生成:聯(lián)合專家在歷史信息(Hindsight)的動(dòng)態(tài)調(diào)制下,被強(qiáng)制要求同時(shí)輸出對(duì)未來(lái)視覺(jué) Motion 的預(yù)測(cè)以及高精度的執(zhí)行動(dòng)作序列。

  • 為什么這很重要?這種雙目標(biāo)的聯(lián)合對(duì)齊,逼迫模型不能只死記硬背動(dòng)作,而是必須去理解「我輸出這個(gè)動(dòng)作后,物理世界的視覺(jué)表征會(huì)發(fā)生怎樣的動(dòng)態(tài)變換」。

通過(guò)將「預(yù)測(cè)未來(lái)視覺(jué)變化(想)」與「規(guī)劃動(dòng)作序列(做)」深度綁定,HiF-VLA 實(shí)現(xiàn)了真正的 Think-while-acting(邊想邊做)。它不再是盲目地模仿專家軌跡,而是產(chǎn)生了真實(shí)的「物理直覺(jué)」。


03 實(shí)驗(yàn)結(jié)果

Q1:HiF-VLA 與 SOTA 的 VLA 模型相比較如何?

? HiF-VLA 在多樣化的短程和長(zhǎng)程任務(wù)中展現(xiàn)出了強(qiáng)大的能力。 

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型

團(tuán)隊(duì)尤其關(guān)注 HiF-VLA 在長(zhǎng)程任務(wù)上表現(xiàn)。在 LIBERO-LONG 任務(wù)套件以及 CALVIN ABC-D 長(zhǎng)程任務(wù)評(píng)測(cè)中,HiF-VLA 的表現(xiàn)顯著優(yōu)于諸多 SOTA 方法。同時(shí),在真實(shí)世界的長(zhǎng)程任務(wù)測(cè)試中,HiF-VLA 也展現(xiàn)出更加穩(wěn)定且優(yōu)越的任務(wù)完成性能(更多詳細(xì)指標(biāo)請(qǐng)參閱原論文)。


Q2:HiF-VLA 是否有效地緩解了傳統(tǒng)方法中的視覺(jué)冗余和低效問(wèn)題?

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型


? 傳統(tǒng)做法的困境:當(dāng)簡(jiǎn)單粗暴地將歷史多幀圖像塞給模型時(shí),顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延遲更是暴增到 229.5 ms(高達(dá) 3.15 倍)。更令人窒息的是,由于引入了海量冗余的靜態(tài)背景噪聲,模型反而被干擾了視線,平均成功率(Avg. SR)不升反降。 

? HiF-VLA 的解決方案:HiF-VLA 巧妙地將歷史幀編碼為低維、結(jié)構(gòu)化的運(yùn)動(dòng)向量。引入 Hindsight 模塊后,模型面對(duì)同樣長(zhǎng)度的歷史窗口,峰值顯存僅僅維持在 31.4 GB,相較于 Baseline 幾乎做到了「零負(fù)擔(dān)」(僅增加極微小的 1.02 倍開銷)。同時(shí),推理延遲(117.7 ms)也遠(yuǎn)低于傳統(tǒng)堆疊方法。最重要的是,在剔除了視覺(jué)冗余后,它讓模型能專注理解物理運(yùn)動(dòng),成功將平均成功率大幅提升。


Q3:隨著時(shí)間跨度的增加,HiF-VLA 在推理時(shí)的可擴(kuò)展性如何?

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型


拒絕指數(shù)級(jí)成本增長(zhǎng),打破長(zhǎng)序列計(jì)算瓶頸。

從推理效率對(duì)比圖可以直觀看出,隨著歷史時(shí)間跨度的增加,傳統(tǒng)堆疊圖像幀的方法會(huì)遭遇指數(shù)級(jí)的計(jì)算延遲暴漲甚至顯存溢出(OOM)。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征,徹底打破了長(zhǎng)序列推理的計(jì)算瓶頸,隨著歷史觀測(cè)窗口變長(zhǎng),都始終保持穩(wěn)定且極低的推理延遲,展現(xiàn)出了在處理長(zhǎng)程動(dòng)態(tài)變換時(shí)強(qiáng)大的時(shí)間可擴(kuò)展性。


Q4:HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過(guò)程?

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型


眼見為實(shí):motion 預(yù)測(cè)與 action 執(zhí)行的時(shí)空高度吻合。

從可視化結(jié)果中可以看到,HiF-VLA 在執(zhí)行動(dòng)作的同一時(shí)刻,其內(nèi)部聯(lián)合專家模塊已經(jīng)精準(zhǔn)預(yù)測(cè)出了由紅色箭頭標(biāo)識(shí)的未來(lái)視覺(jué)運(yùn)動(dòng)場(chǎng)。這有力地證明了模型并非在盲目背誦指令,而是真正實(shí)現(xiàn)了「邊想邊做」。它能清晰地預(yù)判自身動(dòng)作將引發(fā)環(huán)境中怎樣的物理動(dòng)態(tài)變換,從而在復(fù)雜任務(wù)中展現(xiàn)出精準(zhǔn)的「物理直覺(jué)」。


04 總結(jié)

從機(jī)械的「動(dòng)作模仿」進(jìn)化為理解物理規(guī)律的「世界動(dòng)作模型(WAM)」,HiF-VLA 邁出了至關(guān)重要的一步。它證明了機(jī)器人的動(dòng)作不應(yīng)只是對(duì)指令的盲目響應(yīng),而應(yīng)當(dāng)是在對(duì)過(guò)去的洞察與對(duì)未來(lái)的預(yù)判交織下,自然而然的物理反饋。對(duì)于具身智能走向更復(fù)雜、更真實(shí)的物理世界,HiF-VLA 無(wú)疑提供了一個(gè)極具潛力和啟發(fā)性的全新范式。

CVPR 2026 | 突破短視,理解變化!HiF-VLA:以motion為中心打造「邊想邊做」的世界動(dòng)作模型

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
辽源市| 垦利县| 华亭县| 德惠市| 兴城市| 鄂伦春自治旗| 盱眙县| 荣昌县| 札达县| 托克逊县| 临高县| 吴川市| 乌什县| 陆丰市| 黄冈市| 兰州市| 尉氏县| 手游| 乐山市| 洱源县| 武义县| 定西市| 星子县| 四会市| 黄平县| 类乌齐县| 波密县| 石河子市| 融水| 高雄市| 同德县| 屏南县| 通河县| 昌图县| 望江县| 肃南| 淅川县| 陵川县| 成都市| 新宾| 淮南市|