BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

本文作者：鄭佳美

2025-11-27 10:54

導(dǎo)語(yǔ)：CMU×Meta 聯(lián)手，姚班李憶唐最新論文成果。

讓人形機(jī)器人真正走出實(shí)驗(yàn)室，一直是這個(gè)領(lǐng)域最難的挑戰(zhàn)。

仿真里的機(jī)器人往往動(dòng)作流暢、執(zhí)行準(zhǔn)確，但一旦來(lái)到現(xiàn)實(shí)世界，很多看似強(qiáng)大的方法都會(huì)因?yàn)榄h(huán)境差異而迅速失效。地面摩擦稍微變一下、身體負(fù)載多一點(diǎn)、傳感器噪聲大一些，甚至只是被人輕輕推一把，機(jī)器人就可能動(dòng)作僵硬、站不穩(wěn)甚至直接倒下。能不能讓機(jī)器人做到不依賴精細(xì)規(guī)則、不依賴昂貴數(shù)據(jù)，也能在真實(shí)場(chǎng)景中保持穩(wěn)定、自然和可靠，這是近年來(lái)研究者們?cè)絹?lái)越關(guān)注的問(wèn)題。

而最近 CMU 和 Meta 研究團(tuán)隊(duì)共同提出，清華姚班李憶唐為第一作者一篇論文引起了廣泛關(guān)注。這個(gè)研究項(xiàng)目嘗試用一種更統(tǒng)一更樸素的方式來(lái)訓(xùn)練機(jī)器人，讓模型在大規(guī)模仿真中通過(guò)無(wú)監(jiān)督交互自己積累經(jīng)驗(yàn)，再把獎(jiǎng)勵(lì)、姿態(tài)、動(dòng)作序列等不同形式的任務(wù)提示一并壓縮到同一個(gè)潛在空間中。

通過(guò)這種設(shè)計(jì)，機(jī)器人不需要針對(duì)每個(gè)任務(wù)反復(fù)訓(xùn)練，只要生成合適的潛在向量，就能在現(xiàn)實(shí)環(huán)境中零樣本執(zhí)行動(dòng)作，并能在面對(duì)擾動(dòng)或條件變化時(shí)迅速恢復(fù)穩(wěn)定表現(xiàn)。

這項(xiàng)工作的亮點(diǎn)不在于某一個(gè)技巧，而在于它讓機(jī)器人在真實(shí)世界中的表現(xiàn)第一次呈現(xiàn)出一種自然的連貫性。例如它能像人一樣應(yīng)對(duì)推搡，能從摔倒中順勢(shì)滾動(dòng)再站起來(lái)，能在噪聲很大的動(dòng)作序列下依然跟隨指令，還能在負(fù)載或摩擦突然變化時(shí)，僅通過(guò)潛在空間搜索就重新找回穩(wěn)定動(dòng)作。相比傳統(tǒng)需要大量規(guī)則、腳本和專門訓(xùn)練任務(wù)的做法，這種方式顯得更直接也更通用。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

論文地址：https://arxiv.org/pdf/2511.04131

從仿真到現(xiàn)實(shí)的跨域能力

論文的實(shí)驗(yàn)結(jié)果可以分成三大部分：在仿真環(huán)境里的零樣本測(cè)試、在真實(shí)機(jī)器人上的零樣本部署，以及在特殊情況下利用很少的數(shù)據(jù)進(jìn)行快速適應(yīng)。整體來(lái)看，這些實(shí)驗(yàn)共同展示了 BFM Zero 的泛化能力、魯棒性和可擴(kuò)展性。

在仿真階段，研究者主要使用 Isaac 和 Mujoco 兩種物理模擬環(huán)境對(duì)模型進(jìn)行全面測(cè)試。這兩個(gè)環(huán)境的物理特性差異較大，因此能很好地檢驗(yàn)策略是否依賴某一種特定物理設(shè)定。

實(shí)驗(yàn)任務(wù)包括三類：動(dòng)作跟蹤、目標(biāo)姿態(tài)到達(dá)以及獎(jiǎng)勵(lì)驅(qū)動(dòng)的行為生成。在動(dòng)作跟蹤方面，模型在 Isaac 環(huán)境中加入大量物理隨機(jī)化后，雖然不如理想情況下那樣精準(zhǔn)，但誤差只略有上升，屬于能接受的小幅變化。

而當(dāng)把模型直接放進(jìn)物理規(guī)律明顯不同的 Mujoco 中時(shí)，它的表現(xiàn)依然保持在一個(gè)穩(wěn)定水平，性能下降控制在百分之七以內(nèi)，這說(shuō)明模型學(xué)到的不是某個(gè)環(huán)境的“技巧”，而是一種具有普適性的運(yùn)動(dòng)規(guī)律。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

在獎(jiǎng)勵(lì)優(yōu)化任務(wù)中，研究者讓模型根據(jù)不同獎(jiǎng)勵(lì)定義，在沒(méi)有特定訓(xùn)練的情況下自動(dòng)推斷應(yīng)該執(zhí)行的行為。這類任務(wù)的難點(diǎn)在于獎(jiǎng)勵(lì)往往很稀疏，且目標(biāo)多樣。

例如某些獎(jiǎng)勵(lì)要求機(jī)器人以指定速度朝某方向移動(dòng)，但由于物理隨機(jī)化導(dǎo)致狀態(tài)分布變得復(fù)雜，有些任務(wù)會(huì)出現(xiàn)明顯波動(dòng)，甚至個(gè)別情況表現(xiàn)很差。

這并不是模型本身退化，而是推斷獎(jiǎng)勵(lì)時(shí)依賴 replay buffer 的隨機(jī)采樣，加上物理擾動(dòng)讓數(shù)據(jù)更加分散。這種現(xiàn)象恰恰證明模型確實(shí)在面對(duì)復(fù)雜多變的條件，而不是在一個(gè)“干凈環(huán)境”里取巧。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

對(duì)于目標(biāo)姿態(tài)到達(dá)任務(wù)，模型表現(xiàn)得更為穩(wěn)健。無(wú)論目標(biāo)姿態(tài)是否在訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò)，它都能平穩(wěn)地向目標(biāo)靠攏，不會(huì)出現(xiàn)劇烈抖動(dòng)或亂蹦亂跳的異常行為。更關(guān)鍵的是，即便從 AMASS 這類完全不同的動(dòng)作庫(kù)中取姿態(tài)，模型也能成功完成，這說(shuō)明其潛在空間不僅能覆蓋訓(xùn)練數(shù)據(jù)，還能擴(kuò)展到數(shù)據(jù)之外。

研究者甚至直接取 AMASS 中的動(dòng)作片段讓模型跟隨，這些動(dòng)作的風(fēng)格可能與訓(xùn)練用的 LAFAN1 數(shù)據(jù)差得很遠(yuǎn)，但模型照樣能執(zhí)行，說(shuō)明潛在空間已經(jīng)把這些動(dòng)作映射到同一個(gè)“可控行為區(qū)域”中，風(fēng)格差異已經(jīng)不是障礙。

當(dāng)模型被部署到真實(shí)的 Unitree G1 humanoid 上時(shí)，它的零樣本能力表現(xiàn)得更為直觀和令人印象深刻。在動(dòng)作跟蹤任務(wù)中，機(jī)器人不僅能走路、轉(zhuǎn)身，還能做較復(fù)雜的舞蹈動(dòng)作、運(yùn)動(dòng)動(dòng)作甚至格斗姿態(tài)。

更重要的是當(dāng)它失穩(wěn)時(shí)，不會(huì)像傳統(tǒng)機(jī)器人那樣僵硬或者直接倒下，而是像人一樣進(jìn)行自然的調(diào)整，例如重心偏移、撐地、滾動(dòng)緩沖等，然后重新站起來(lái)繼續(xù)任務(wù)。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

這種自然的恢復(fù)動(dòng)作完全來(lái)自策略本身的結(jié)構(gòu)化潛在空間與風(fēng)格約束，并不是單獨(dú)訓(xùn)練“摔倒恢復(fù)”之類的技能。甚至在給它用于跟蹤的動(dòng)作是從單目視頻估計(jì)出來(lái)的、質(zhì)量很差的動(dòng)作序列時(shí)，它依然能平穩(wěn)跟隨，說(shuō)明模型對(duì)輸入質(zhì)量有很強(qiáng)的容錯(cuò)能力。

在目標(biāo)姿態(tài)到達(dá)任務(wù)中，研究者隨機(jī)采樣了大量目標(biāo)姿態(tài)，要求機(jī)器人按照順序逐一到達(dá)。機(jī)器人在姿態(tài)之間切換時(shí)動(dòng)作十分平滑，不需要人為添加插值或過(guò)渡動(dòng)作，這說(shuō)明其內(nèi)部潛在空間具有天然的連續(xù)性。如果有些姿態(tài)本身不可能在現(xiàn)實(shí)中精確實(shí)現(xiàn)（例如關(guān)節(jié)角度超出極限），機(jī)器人會(huì)自動(dòng)找到一個(gè)最接近同時(shí)又自然、安全的姿態(tài)，而不是硬要模仿導(dǎo)致摔倒或抽搐。

在獎(jiǎng)勵(lì)優(yōu)化任務(wù)中，研究者通過(guò)各種獎(jiǎng)勵(lì)信號(hào)，讓機(jī)器人自動(dòng)生成對(duì)應(yīng)行為。例如讓它降低骨盆高度，它就會(huì)坐下或蹲起；獎(jiǎng)勵(lì)手部高度，它就會(huì)舉手；獎(jiǎng)勵(lì)速度，它就會(huì)移動(dòng)或轉(zhuǎn)向。這些不同獎(jiǎng)勵(lì)還能組合，例如讓它一邊倒退一邊抬手。

這種可組合性意味著未來(lái)可以通過(guò)語(yǔ)言描述需求，再把語(yǔ)言解析成獎(jiǎng)勵(lì)，就能讓機(jī)器人自動(dòng)“理解”要做什么。更有趣的是，在相同獎(jiǎng)勵(lì)下，通過(guò)不同 replay buffer 子樣本生成的潛在表達(dá)會(huì)略有不同，從而得到不同風(fēng)格的動(dòng)作。這說(shuō)明策略空間本身是多模態(tài)的，存在多個(gè)可行解，而不是一個(gè)死板的最優(yōu)動(dòng)作。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

在真實(shí)環(huán)境中面對(duì)巨大外力干擾時(shí)，機(jī)器人表現(xiàn)出極高的柔順性和穩(wěn)定性。當(dāng)被推搡、踢擊、拉倒時(shí)，它不會(huì)簡(jiǎn)單僵硬反抗，而會(huì)以柔和方式吸收沖擊，例如后退幾步緩沖重心、調(diào)整手臂姿勢(shì)保持平衡等。

即便被完全摔倒在地，它也能通過(guò)自然流暢的動(dòng)作爬起，然后回到原本任務(wù)，比如繼續(xù)恢復(fù)站姿或目標(biāo)姿態(tài)。這些恢復(fù)動(dòng)作不是硬性編寫的，而是策略在潛在空間中自然表達(dá)出來(lái)的，這讓機(jī)器人顯得更“像人”。

最后，研究者展示了模型的快速適應(yīng)能力。在適應(yīng)過(guò)程中并不需要調(diào)整網(wǎng)絡(luò)權(quán)重，只需要針對(duì)新情況對(duì)潛在向量進(jìn)行優(yōu)化就行。第一個(gè)適應(yīng)案例是在機(jī)器人 torso 上增加四公斤負(fù)載。原本零樣本 latent 并不足以支撐單腿站立，但通過(guò)二十次交叉熵優(yōu)化迭代后即可找到一個(gè)新的潛在向量，使機(jī)器人能在帶載情況下穩(wěn)定站立十五秒以上，而且優(yōu)化結(jié)果直接遷移到真實(shí)機(jī)器人上也能成功。

第二個(gè)案例是摩擦變化導(dǎo)致跳躍軌跡不穩(wěn)定。研究者通過(guò)雙重退火和采樣方法優(yōu)化潛在向量序列，最終使軌跡誤差降低了近三成，整體動(dòng)作更穩(wěn)定。這個(gè)過(guò)程不依賴重新訓(xùn)練模型，而完全依賴潛在空間的靈活性。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

通往通用行為模型的三步框架

總的來(lái)說(shuō)這項(xiàng)研究的實(shí)驗(yàn)流程可以分成三個(gè)階段，分別是無(wú)監(jiān)督預(yù)訓(xùn)練、零樣本推理以及少量樣本適應(yīng)。

研究者希望讓機(jī)器人在面對(duì)不同類型的任務(wù)時(shí)，不必依賴多套不同的訓(xùn)練方式，而是通過(guò)同一個(gè)潛在空間表達(dá)就能理解任務(wù)、生成動(dòng)作，并且在條件變化時(shí)仍能保持穩(wěn)定表現(xiàn)。這樣的設(shè)計(jì)不僅讓機(jī)器人在訓(xùn)練階段更加統(tǒng)一，也使后續(xù)的實(shí)際部署更加靈活。

在無(wú)監(jiān)督預(yù)訓(xùn)練階段，模型需要在沒(méi)有明確任務(wù)獎(jiǎng)勵(lì)的情況下，通過(guò)與大量仿真環(huán)境的互動(dòng)積累經(jīng)驗(yàn)。為了讓機(jī)器人能夠應(yīng)對(duì)多種類型的任務(wù)，研究者構(gòu)建了一個(gè)統(tǒng)一的潛在空間，把獎(jiǎng)勵(lì)、目標(biāo)姿態(tài)和動(dòng)作序列等信息全部映射到同一種潛在表示中。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

這個(gè)潛在空間的構(gòu)建依賴 forward-backward 方法，它能讓機(jī)器人通過(guò)觀察自身軌跡或任務(wù)提示，推斷出對(duì)應(yīng)的潛在向量。為了讓模型擁有足夠廣的經(jīng)驗(yàn)基礎(chǔ)，訓(xùn)練過(guò)程中使用了 1024 個(gè)并行的 Isaac 物理模擬環(huán)境。這些環(huán)境以高頻率運(yùn)行，模擬了全身關(guān)節(jié)的動(dòng)力學(xué)、地面接觸的摩擦特性以及重力的變化規(guī)律。整個(gè)訓(xùn)練過(guò)程中，模型累計(jì)獲得超過(guò)五百萬(wàn)條交互樣本，使其形成較為全面的行為經(jīng)驗(yàn)庫(kù)。

除了大量的環(huán)境經(jīng)驗(yàn)，訓(xùn)練過(guò)程還引入了豐富的物理隨機(jī)化。研究者會(huì)在仿真過(guò)程中隨機(jī)改變機(jī)器人各個(gè)部位的質(zhì)量分布、調(diào)整地面的摩擦系數(shù)、施加隨機(jī)外力、改變身體姿態(tài)初始狀態(tài)，并加入傳感器噪聲。

這些隨機(jī)化設(shè)置逼近真實(shí)世界的不確定性，使得訓(xùn)練出的策略在現(xiàn)實(shí)部署時(shí)不會(huì)因?yàn)榄h(huán)境與仿真略有差異就崩潰。同時(shí)，為了讓機(jī)器人動(dòng)作更符合人體特征，研究者還引入了動(dòng)作數(shù)據(jù)集作為風(fēng)格參考，通過(guò)風(fēng)格判別器讓策略在生成動(dòng)作時(shí)保留自然動(dòng)作的結(jié)構(gòu)。例如手臂的擺動(dòng)、身體的重心變化都會(huì)因?yàn)轱L(fēng)格約束顯得更貼近人類動(dòng)作。

為了避免策略學(xué)到潛在危險(xiǎn)動(dòng)作，訓(xùn)練中還加入硬件相關(guān)的安全約束。例如限制關(guān)節(jié)角度范圍、防止與地面發(fā)生奇怪的碰撞、限制身體偏移過(guò)大等。這些輔助獎(jiǎng)勵(lì)確保模型在龐大的訓(xùn)練空間中不會(huì)偏向那些雖然有效但不安全的動(dòng)作模式，也保證它在未來(lái)的真實(shí)實(shí)驗(yàn)中不會(huì)損傷機(jī)器人硬件。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

在零樣本推理階段，模型已經(jīng)具備解釋不同任務(wù)提示的能力，因此不再需要繼續(xù)訓(xùn)練其網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)它接收到新的任務(wù)時(shí)，只需要根據(jù)任務(wù)類型生成對(duì)應(yīng)的潛在向量 z。這種向量能夠明確表達(dá)任務(wù)需求，策略網(wǎng)絡(luò)根據(jù)它就能生成相應(yīng)動(dòng)作。

如果任務(wù)是基于獎(jiǎng)勵(lì)，那么潛在向量會(huì)從 replay buffer 的經(jīng)驗(yàn)中，通過(guò)獎(jiǎng)勵(lì)信號(hào)與 backward embedding 的關(guān)系推斷出來(lái)。如果任務(wù)是姿態(tài)到達(dá)，那么研究者直接將目標(biāo)狀態(tài)輸入 backward embedding 生成潛在向量。而在動(dòng)作跟蹤任務(wù)中，模型會(huì)把未來(lái)幾個(gè)時(shí)間步的目標(biāo)動(dòng)作都嵌入潛在空間，生成一段連續(xù)的潛在向量序列，再逐步執(zhí)行。

從效果上看，這意味著機(jī)器人不需要針對(duì)每個(gè)任務(wù)重新訓(xùn)練，只要能生成合適的潛在向量，它就能直接執(zhí)行動(dòng)作、移動(dòng)到目標(biāo)位置或根據(jù)獎(jiǎng)勵(lì)調(diào)整行為。

在少量樣本適應(yīng)階段，模型面對(duì)的是訓(xùn)練中沒(méi)有遇到的新條件，例如突然增加的負(fù)載、變化的地面摩擦系數(shù)預(yù)測(cè)不到的動(dòng)力學(xué)變化等。為了讓機(jī)器人在現(xiàn)實(shí)中快速恢復(fù)性能，研究者不修改網(wǎng)絡(luò)本身，而是在潛在空間中搜索更適合新條件的向量。

由于潛在空間的表達(dá)能力足夠強(qiáng)，只要找到合適的向量，機(jī)器人就能重新恢復(fù)穩(wěn)定表現(xiàn)。在單一姿態(tài)任務(wù)中，研究者采用交叉熵優(yōu)化方法，通過(guò)不斷嘗試不同潛在向量并評(píng)估其表現(xiàn)，逐步找到最優(yōu)解。

在動(dòng)態(tài)軌跡任務(wù)中，則使用采樣式的雙重退火策略，通過(guò)不斷擾動(dòng)與收斂搜索潛在向量序列，使機(jī)器人的運(yùn)動(dòng)軌跡重新穩(wěn)定下來(lái)。因?yàn)檫@種適應(yīng)過(guò)程不需要大量數(shù)據(jù)，成本低，收斂快，非常適合現(xiàn)實(shí)場(chǎng)景中的快速調(diào)整需求。

整體來(lái)看，這三個(gè)階段共同構(gòu)成了模型訓(xùn)練與部署的完整路徑：從在多樣化環(huán)境中學(xué)習(xí)通用動(dòng)作結(jié)構(gòu)，到在實(shí)際任務(wù)中無(wú)需訓(xùn)練直接執(zhí)行，再到遇到特殊情況時(shí)利用少量數(shù)據(jù)進(jìn)行微調(diào)，使機(jī)器人在復(fù)雜環(huán)境下表現(xiàn)出良好的泛化能力和適應(yīng)能力。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)

通用化的關(guān)鍵一步

這項(xiàng)研究的意義體現(xiàn)在多個(gè)方面，對(duì)未來(lái)的人形機(jī)器人發(fā)展具有重要推動(dòng)作用。

首先，它展示了無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)也可以在真實(shí)的人形機(jī)器人上取得效果。過(guò)去成功讓人形機(jī)器人完成復(fù)雜動(dòng)作的做法，大多依賴大量模仿數(shù)據(jù)或精心設(shè)計(jì)的任務(wù)獎(jiǎng)勵(lì)，而這項(xiàng)工作證明，即使沒(méi)有明確獎(jiǎng)勵(lì)，也沒(méi)有精細(xì)標(biāo)注的動(dòng)作軌跡，機(jī)器人仍然能在大規(guī)模仿真中通過(guò)探索和風(fēng)格學(xué)習(xí)形成可泛化的行為能力。這讓人們看到，人形機(jī)器人不一定需要昂貴的數(shù)據(jù)成本，也能學(xué)會(huì)穩(wěn)定而豐富的運(yùn)動(dòng)技能。雷峰網(wǎng)

其次，該方法生成的動(dòng)作在自然性和柔順性上有明顯提升。傳統(tǒng)的人形機(jī)器人在面對(duì)外力時(shí)往往表現(xiàn)得非常僵硬，只能做出硬性的支撐動(dòng)作，一旦外力方向稍有變化就可能失穩(wěn)。而本方法訓(xùn)練出的策略在遇到擾動(dòng)時(shí)會(huì)呈現(xiàn)更連貫、更平滑的反應(yīng)，例如輕微調(diào)整重心、改變步伐節(jié)奏、自然地把身體穩(wěn)定下來(lái)。

即使受到較大推搡，機(jī)器人也能以柔和而不突兀的方式處理，這種表現(xiàn)更接近人類的動(dòng)作穩(wěn)定機(jī)制。這說(shuō)明模型在潛在空間中學(xué)到的運(yùn)動(dòng)規(guī)律具有內(nèi)在的協(xié)調(diào)性，而不是簡(jiǎn)單的機(jī)械式糾正。

再者，這一方法為未來(lái)構(gòu)建能被提示控制、能理解泛化任務(wù)意圖的人形機(jī)器人打下基礎(chǔ)。由于所有行為都被統(tǒng)一映射到潛在空間，機(jī)器人可以依靠潛在向量組合和調(diào)整行為。

未來(lái)只需要給出高層的任務(wù)描述，例如目標(biāo)姿態(tài)、整體意圖或者獎(jiǎng)勵(lì)偏好，機(jī)器人就能自動(dòng)組織出相應(yīng)的動(dòng)作，而不需要為每個(gè)任務(wù)重新訓(xùn)練專用策略。這種設(shè)計(jì)向“行為級(jí)基礎(chǔ)模型”邁出了一步，讓機(jī)器人變得更容易擴(kuò)展、更容易控制，也更加貼近通用智能的目標(biāo)。

同時(shí)，該方法具備強(qiáng)大的現(xiàn)實(shí)適應(yīng)能力。在訓(xùn)練中加入大量隨機(jī)化，使策略在面對(duì)不同動(dòng)力學(xué)條件時(shí)也能保持穩(wěn)定。在真實(shí)環(huán)境里，當(dāng)負(fù)載改變、地面摩擦不同、動(dòng)作需求突然變化時(shí)，機(jī)器人不需要重新訓(xùn)練，只需要在潛在空間里稍作調(diào)整，就能迅速恢復(fù)到可靠的表現(xiàn)。這使得模型在現(xiàn)實(shí)環(huán)境中的可用性明顯提升，能夠更好地應(yīng)對(duì)復(fù)雜多變的物理?xiàng)l件。

最后，這項(xiàng)研究擺脫了對(duì)高質(zhì)量動(dòng)作捕捉數(shù)據(jù)的依賴。過(guò)去想讓機(jī)器人動(dòng)作看起來(lái)自然，需要使用專業(yè)設(shè)備收集大量高精度人體動(dòng)作數(shù)據(jù)，成本極高。而這里使用的無(wú)標(biāo)注動(dòng)作序列就足以讓模型學(xué)到人體動(dòng)作的整體風(fēng)格，既減少數(shù)據(jù)采集難度，也讓訓(xùn)練更加靈活。

綜合來(lái)看，這項(xiàng)工作不僅提供了一套在仿真與現(xiàn)實(shí)之間高度一致的訓(xùn)練方法，還構(gòu)建了一個(gè)具備泛化、自然性、穩(wěn)定性與適應(yīng)性的潛在行為空間，為未來(lái)更智能、更通用的人形機(jī)器人奠定了基礎(chǔ)。

GAIR 2025，讓技術(shù)「走出」論文

2025年12月12-13日，第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)，將在深圳南山·博林天瑞喜來(lái)登酒店舉辦。

世界模型是具身智能理解與改造世界的“認(rèn)知核心”，在 GAIR 大會(huì)世界模型分論壇中，我們已經(jīng)邀請(qǐng)到了國(guó)內(nèi)外頂級(jí)高校與研究機(jī)構(gòu)的多位知名學(xué)者，就世界模型與空間智能在具身機(jī)器人領(lǐng)域的探索突破，發(fā)布多篇主題報(bào)告，共同探討這一真實(shí)應(yīng)用中的最新進(jìn)展。

在論壇的圓桌對(duì)話環(huán)節(jié)，學(xué)者們將圍繞“世界模型如何跨越仿真到現(xiàn)實(shí)的鴻溝”等關(guān)鍵議題展開深度研討。屆時(shí)，來(lái)自產(chǎn)業(yè)界的頂尖研發(fā)團(tuán)隊(duì)也將分享其將世界模型前沿理論落地于機(jī)器人實(shí)體，解決復(fù)雜場(chǎng)景任務(wù)的成功實(shí)踐。

我們期待與您共同見證，世界模型如何為具身智能注入真正的“靈魂”，開啟機(jī)器人自主決策與行動(dòng)的新篇章。

BFM-Zero，讓人形機(jī)器人不再依賴高質(zhì)量動(dòng)捕數(shù)據(jù)