97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給雷鋒專欄
發(fā)送

0

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會"預(yù)演未來"

本文作者: 雷鋒專欄   編輯:張賢 2026-02-10 19:22
導(dǎo)語:BridgeV2W,讓機(jī)器人借助視頻生成模型“預(yù)演”自身行動的后果——這條路,不僅走得通,而且可以走得很遠(yuǎn)。

機(jī)器人如何"腦補(bǔ)"未來?

想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經(jīng)在"腦補(bǔ)"了整個過程:手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子……這種對未來場景的想象和預(yù)測能力,正是人類操控世界的核心認(rèn)知基石。

那么,能否賦予機(jī)器人同樣的“預(yù)演能力”,先在“腦?!敝心M動作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機(jī)器人在行動前,就能“看見”未來。近年來,借助大規(guī)模視頻生成模型(如Sora、Wan等)強(qiáng)大的視覺先驗(yàn),這一方向取得了令人矚目的進(jìn)展。

然而,一個尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機(jī)器人的語言卻是關(guān)節(jié)角度與位姿坐標(biāo),它們使用完全不同的“表征語言”描述同一個物理世界。

為了解決上述問題,具身智能公司中科第五紀(jì)聯(lián)合中科院自動化所團(tuán)隊(duì)推出 BridgeV2W,它通過一個極為優(yōu)雅的設(shè)計(jì),具身掩碼(Embodiment Mask),一種由機(jī)器人動作渲染出的“動作剪影”,將坐標(biāo)空間的動作無縫映射到像素空間,從而真正打通預(yù)訓(xùn)練視頻生成模型與世界模型之間的橋梁,讓機(jī)器人學(xué)會可靠地“預(yù)演未來”。

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會

困境:三座大山擋住了機(jī)器人的"預(yù)演能力"

盡管前景廣闊,當(dāng)前的具身世界模型仍面臨三大核心挑戰(zhàn):

1. 動作與畫面“語言不通”。 機(jī)器人動作是關(guān)節(jié)角、末端位姿等坐標(biāo)數(shù)值,而視頻生成模型只“看”像素。直接拼接動作向量效果有限,往往缺乏空間對齊的“硬連接”,模型難以理解。

2. 視角一變,世界就“崩”。同一動作在不同視角下外觀迥異?,F(xiàn)有方法在訓(xùn)練視角上尚可,一旦換視角,預(yù)測質(zhì)量驟降,而真實(shí)場景中,相機(jī)位置幾乎不可能復(fù)現(xiàn)訓(xùn)練設(shè)置。

3. 換一個機(jī)器人就得“從零開始”。 單臂、雙臂、移動底盤……結(jié)構(gòu)千差萬別?,F(xiàn)有方法往往需為每種機(jī)器人定制架構(gòu),難以構(gòu)建統(tǒng)一的世界模型。

核心創(chuàng)新:僅憑"動作剪影",一舉破解三大難題

BridgeV2W 的核心洞察極其直覺:既然鴻溝源于“坐標(biāo) vs 像素”,那就把動作直接“畫”進(jìn)畫面里!

它提出具身掩碼:利用機(jī)器人的 URDF 模型和相機(jī)參數(shù),將動作序列實(shí)時渲染為每幀圖像上的二值“動作剪影”,精準(zhǔn)標(biāo)出機(jī)器人在畫面中的位置與姿態(tài)。

這一設(shè)計(jì),一舉破解前述三大難題:

  • 動作-像素對齊: 掩碼是天然的像素級信號,與視頻模型輸入空間完全匹配,無需模型“猜”坐標(biāo)的含義。

  • 視角自適應(yīng): 掩碼隨當(dāng)前相機(jī)視角動態(tài)生成,動作與畫面始終對齊,模型因此天然泛化到任意新視角。

  • 跨具身通用: 只要提供 URDF,單臂、雙臂機(jī)器人都能用同一套框架生成對應(yīng)掩碼,無需修改模型結(jié)構(gòu)。

技術(shù)上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號融入預(yù)訓(xùn)練視頻生成模型,在保留其強(qiáng)大視覺先驗(yàn)的同時,賦予其理解機(jī)器人動作的能力。此外,為防止模型“偷懶”(只復(fù)現(xiàn)靜態(tài)背景),還引入光流驅(qū)動的運(yùn)動損失,引導(dǎo)其聚焦于任務(wù)相關(guān)的動態(tài)區(qū)域。

實(shí)驗(yàn)結(jié)果:多場景、多機(jī)器人、多視角的全面驗(yàn)證

研究團(tuán)隊(duì)在多個設(shè)置下系統(tǒng)驗(yàn)證了BridgeV2W的能力,涵蓋不同機(jī)器人平臺、不同操作場景、未見視角和下游任務(wù)應(yīng)用。

DROID數(shù)據(jù)集:大規(guī)模單臂操作

DROID是目前最大規(guī)模的真實(shí)世界機(jī)器人操作數(shù)據(jù)集之一,數(shù)據(jù)采集跨越多個實(shí)驗(yàn)室和環(huán)境。BridgeV2W在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標(biāo)上超越 SOTA 方法。

尤其在“未見視角”測試中,對比方法常出現(xiàn)畫面崩塌、肢體錯位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗(yàn)證了其視角魯棒性。在“未見場景”(全新桌面布局、背景)下,泛化能力同樣出色。

 打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會 

AgiBot-G1數(shù)據(jù)集:雙臂人形機(jī)器人

AgiBot-G1 是一個完全不同的雙臂平臺,自由度與運(yùn)動模式與 DROID 截然不同。

關(guān)鍵結(jié)果:無需修改模型架構(gòu),僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無縫適配,并取得媲美單臂的預(yù)測質(zhì)量,這是邁向通用具身世界模型的重要一步。

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會

下游任務(wù)應(yīng)用:從"想象"到"行動"

BridgeV2W不僅僅是一個"能生成好看視頻"的模型,研究團(tuán)隊(duì)進(jìn)一步在真實(shí)世界的下游任務(wù)中驗(yàn)證了其實(shí)用價(jià)值:

策略評估: 在世界模型中“試跑”不同策略,無需真實(shí)機(jī)器人反復(fù)試錯。實(shí)驗(yàn)顯示,BridgeV2W 的評估結(jié)果與真實(shí)成功率高度相關(guān),大幅降低策略迭代成本。

目標(biāo)圖像操作規(guī)劃: 給定一張目標(biāo)圖像(如“把杯子放到盤子上”),BridgeV2W 能在“想象空間”中搜索出可行動作序列,實(shí)現(xiàn)從視覺目標(biāo)到物理動作的閉環(huán)規(guī)劃。

關(guān)鍵亮點(diǎn):海量無標(biāo)注人類視頻,全都能用!

你可能會問:具身掩碼不是需要 URDF 和相機(jī)參數(shù)嗎?沒有這些幾何信息的數(shù)據(jù)怎么辦?

BridgeV2W 的巧妙之處在于:

? 推理時需輕量幾何信息(URDF + 相機(jī)參數(shù))渲染“計(jì)算掩碼”,用于精準(zhǔn)控制;

? 訓(xùn)練時卻無需任何標(biāo)定:只需分割模型(如 SAM)提取的“分割掩碼”,即可提供有效監(jiān)督。

團(tuán)隊(duì)將 AgiBot-G1 機(jī)器人數(shù)據(jù)與無標(biāo)定的 Ego4D FHO(第一人稱手部操作視頻)混合訓(xùn)練,僅用 SAM 提取的手部掩碼,就實(shí)現(xiàn)了驚人效果:

? 僅用分割掩碼訓(xùn)練,模型仍能學(xué)到合理的運(yùn)動規(guī)律;

? 加入大量 Ego4D 視頻 + 少量機(jī)器人標(biāo)定數(shù)據(jù),性能幾乎媲美全量標(biāo)定訓(xùn)練。

打通視頻生成與機(jī)器人世界模型,BridgeV2W 讓機(jī)器人學(xué)會這說明:人類視頻蘊(yùn)含豐富的動作先驗(yàn),只需少量機(jī)器人數(shù)據(jù),就能完成“具身對齊”。

一句話總結(jié):訓(xùn)練靠“野生”視頻擴(kuò)規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴(kuò)展性與準(zhǔn)確性。

BridgeV2W揭示了一條極具前景的技術(shù)路線:

視頻生成模型 + 具身掩碼 = 可擴(kuò)展的機(jī)器人世界模型

這條路線有三個關(guān)鍵優(yōu)勢值得深思:

  • 1、數(shù)據(jù)飛輪真正啟動:互聯(lián)網(wǎng)視頻規(guī)模遠(yuǎn)超機(jī)器人數(shù)據(jù)數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗(yàn)即可利用人類視頻,為構(gòu)建“機(jī)器人數(shù)據(jù)飛輪”邁出關(guān)鍵一步。

  • 2、技術(shù)紅利自動繼承:視頻生成領(lǐng)域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構(gòu)使其能自然受益于底座模型升級,底座越強(qiáng),“預(yù)演”越真。

  • 3、通用智能的堅(jiān)實(shí)基石:從單臂到雙臂,從已知場景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

總結(jié)與展望

BridgeV2W 通過“具身掩碼”這一簡潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實(shí)用具身世界模型的橋梁。它不僅解決了動作-像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關(guān)鍵的是:訓(xùn)練無需 URDF 或相機(jī)標(biāo)定,可直接利用海量無標(biāo)注人類視頻,為世界模型的規(guī)模化訓(xùn)練開辟了全新路徑。

目前展現(xiàn)的能力,或許只是冰山一角。

試想未來:當(dāng)視頻生成底座從十億參數(shù)邁向千億,當(dāng)訓(xùn)練數(shù)據(jù)從數(shù)千小時機(jī)器人視頻擴(kuò)展到百萬小時人類操作視頻,當(dāng)具身掩碼從機(jī)械臂延伸至全身人形、乃至多機(jī)協(xié)作,機(jī)器人的“預(yù)演能力”將迎來怎樣的飛躍?

正如 DreamZero 等工作預(yù)示的“機(jī)器人 GPT 時刻”,BridgeV2W 從另一個維度證明:

讓機(jī)器人借助視頻生成模型“預(yù)演”自身行動的后果——這條路,不僅走得通,而且可以走得很遠(yuǎn)。

論文標(biāo)題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

論文鏈接:https://arxiv.org/pdf/2602.03793

項(xiàng)目鏈接:https://bridgev2w.github.io/

分享:

編輯

雷鋒專欄賬號,關(guān)注技術(shù)科普&行業(yè)深度分析!
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
革吉县| 靖安县| 中卫市| 武山县| 加查县| 龙门县| 乐安县| 江孜县| 涿州市| 新和县| 河源市| 荆门市| 武义县| 中江县| 塔城市| 桂阳县| 汉川市| 大余县| 洪雅县| 白河县| 青阳县| 大关县| 博湖县| 周至县| 疏附县| 商水县| 格尔木市| 安乡县| 五河县| 龙泉市| 化德县| 泸州市| 永寿县| 旌德县| 稷山县| 开化县| 乐陵市| 关岭| 神农架林区| 新营市| 屏边|