RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

本文作者：劉欣

2026-02-09 10:19

導(dǎo)語(yǔ)：具身模型在榜單里卷起來了。

當(dāng)下的具身智能行業(yè)可謂陷入了“Demo”的怪圈，大家驚呼于視頻內(nèi)機(jī)器人的流暢操作，但視頻中的機(jī)器人卻又在現(xiàn)實(shí)世界中頻繁失誤。

這種虛假繁榮的背后，其實(shí)是行業(yè)長(zhǎng)期缺乏真實(shí)場(chǎng)景驗(yàn)證、評(píng)測(cè)標(biāo)準(zhǔn)模糊等問題。機(jī)器人從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界，始終被仿真到現(xiàn)實(shí)世界等難題所制約。

模擬器的評(píng)估無法完美復(fù)現(xiàn)真實(shí)世界中的物理擾動(dòng)、環(huán)境變異等關(guān)鍵因素，在此背景下，2025年10月原力靈機(jī)Dexmal與Hugging Face聯(lián)合推出了全球首個(gè)具身智能大規(guī)模評(píng)測(cè)平臺(tái)——RoboChallenge。

緊隨其后，原力靈機(jī)又與Hugging Face聯(lián)合智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及GOSIM等機(jī)構(gòu)，于2025年11月20日正式成立RoboChallenge組委會(huì)。

2026年1月11日，RoboChallenge榜單更新，前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中，Spirit v1.5是出自中國(guó)千尋智能自研的模型，而WALL-OSS則是自變量機(jī)器人的全自研開源操作大模型。

這個(gè)榜單釋放出了一個(gè)重磅信號(hào)：中國(guó)自主研發(fā)的具身智能模型，已具備與國(guó)外頂級(jí)模型同臺(tái)對(duì)打的實(shí)力，甚至還打贏了。

不過，作為推出還沒多久的新興評(píng)測(cè)平臺(tái)，尚處發(fā)展完善階段，網(wǎng)絡(luò)上的態(tài)度也充滿爭(zhēng)議，所以AI科技評(píng)論打算從技術(shù)和核心設(shè)計(jì)的角度，對(duì)RoboChallenge進(jìn)行深度拆解與解讀。

01 RoboChallenge系統(tǒng)核心設(shè)計(jì)

在具身智能領(lǐng)域，真機(jī)評(píng)測(cè)的標(biāo)準(zhǔn)化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評(píng)測(cè)標(biāo)尺，更讓不同團(tuán)隊(duì)的技術(shù)成果難以形成有效對(duì)比，嚴(yán)重影響了行業(yè)迭代效率。

但提供機(jī)器人在線服務(wù)并非表面看上去那么簡(jiǎn)單，首要問題是如何向提交算法的用戶開放機(jī)器人訪問權(quán)限。

RoboChallenge最開始考慮了三種主要的模式，分別是模型級(jí)提交、系統(tǒng)級(jí)提交、模型API調(diào)用，但這三種模式最后都沒有采用，原因在于：

? 計(jì)算兼容性：提交模型并使其在其他環(huán)境中正確運(yùn)行極為復(fù)雜。軟件棧和硬件配置難以匹配，除非提供完全訪問權(quán)限，否則幾乎無法調(diào)試。

? 靈活性：RoboChallenge不希望將用戶限制在以往系統(tǒng)中默認(rèn)的 “觀測(cè) - 動(dòng)作” 映射所隱含的 “暫停 - 推理” 控制模式中。

? 可訪問性：并非所有人都擁有公網(wǎng)IP，尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換（NAT）主導(dǎo)的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是，RoboChallenge采用 “遠(yuǎn)程機(jī)器人” 交互范式，摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案，讓用戶無需上傳模型文件或推理代碼，通過標(biāo)準(zhǔn)化低層級(jí)API即可實(shí)現(xiàn)全異步交互。

不同于仿真測(cè)試，RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機(jī)型在內(nèi)的20臺(tái)真機(jī)測(cè)試集群，對(duì)這些機(jī)器人的選擇上，還有幾條準(zhǔn)則：耐用性、普及性、安全性以及性能良好。

所有機(jī)器人均搭載Intel RealSense深度相機(jī)，包含俯視工作區(qū)域的主相機(jī)、機(jī)械臂末端的腕部相機(jī)及單臂設(shè)備專用的側(cè)面相機(jī)，為VLA模型提供多視角觀測(cè)數(shù)據(jù)。

前期的準(zhǔn)備完善后，RoboChallenge又發(fā)現(xiàn)測(cè)試中的各種因素會(huì)導(dǎo)致最后的結(jié)果巨大，難以成為客觀、公正的測(cè)評(píng)體系。因此，需要一套規(guī)范的方法來控制測(cè)試中的各種因素。

首先，對(duì)于測(cè)試人員導(dǎo)致的差異，RoboChallenge對(duì)有經(jīng)驗(yàn)、無經(jīng)驗(yàn)、適應(yīng)性的測(cè)試人員進(jìn)行了測(cè)試，發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”（Sweet-spot Effect），如下圖所示，存在特定的物體位置組合，在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗(yàn)，RoboChallenge設(shè)計(jì)出了更完善的評(píng)估協(xié)議，特別是更穩(wěn)定的物體重置方法。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

RoboChallenge還對(duì)環(huán)境中的各種因素進(jìn)行了研究，比如光照條件，但進(jìn)行的概念驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn)，背景或環(huán)境的變化不會(huì)對(duì)測(cè)試結(jié)果產(chǎn)生太大影響。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

02 Table30基準(zhǔn)測(cè)試集

Table30基準(zhǔn)測(cè)試集包含30項(xiàng)圍繞固定工作臺(tái)執(zhí)行的任務(wù)，涵蓋家庭、廚房、辦公、校園等多元場(chǎng)景，任務(wù)類型包括物體整理、機(jī)械操作、分類分揀、軟體處理等，全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務(wù)衡量了通用機(jī)器人控制算法應(yīng)具備的多種能力，乍看下來很簡(jiǎn)單，但即使是最先進(jìn)的基礎(chǔ)模型也無法達(dá)到較高的總體成功率。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

任務(wù)的選擇也不是毫無根據(jù)的，主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實(shí)生活以及簡(jiǎn)潔性這四個(gè)原則。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

RoboChallenge認(rèn)為，基準(zhǔn)測(cè)試集是衡量通用機(jī)器人技術(shù)方法的必要測(cè)試。并且，隨著評(píng)估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢(shì)：

首先是，模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

RoboChallenge的評(píng)測(cè)區(qū)分了單任務(wù)模型和多任務(wù)模型，單任務(wù)模型是對(duì)特定任務(wù)進(jìn)行優(yōu)化，多任務(wù)模型能夠使適配不同類型的任務(wù)，泛化能力較好。

對(duì)比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn)，pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

至于如何平衡“單項(xiàng)精準(zhǔn)度”與“多任務(wù)適配性”，這或許將會(huì)成為通往通用具身智能的關(guān)鍵課題。

其次，任務(wù)難度梯隊(duì)清晰，部分任務(wù)成行業(yè)共性難題。

Table30的每一個(gè)任務(wù)都是賦予了機(jī)型、構(gòu)型、能力類型這三個(gè)維度，共15個(gè)標(biāo)簽。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

通過對(duì)頭部模型成功率的分布，可以將30個(gè)標(biāo)準(zhǔn)化任務(wù)分為三個(gè)不同能力梯隊(duì)。

第一梯隊(duì)是hello world級(jí)任務(wù)，這類人任務(wù)對(duì)于頭部模型而言沒有任何難度。第二梯隊(duì)是簡(jiǎn)單的任務(wù)，對(duì)于頭部模型比較友好，難度較低。而第三梯隊(duì)則是特定模型的特長(zhǎng)，此類任務(wù)呈現(xiàn)極端的兩級(jí)分化。

更值得關(guān)注的是，有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測(cè)模型成功率均為0%，典型案例包括“做素三明治”“給盆栽澆水”等任務(wù)：

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

復(fù)盤任務(wù)后發(fā)現(xiàn)，“做素三明治”任務(wù)的核心難點(diǎn)在于時(shí)序性，做三明治需要按照嚴(yán)格的順序來做，模型往往在第一步就容易出現(xiàn)數(shù)量錯(cuò)誤和失敗，所以容錯(cuò)率極低，一步錯(cuò)步步錯(cuò)。

“給盆栽澆水”任務(wù)則暴露了模型的時(shí)序依賴缺失問題，長(zhǎng)程任務(wù)要求模型維持對(duì)歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失，模型就會(huì)陷入邏輯混亂，產(chǎn)生類似“幻覺”的隨機(jī)動(dòng)作。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

此外，整理書籍、疊抹布、排列紙杯等任務(wù)，也成為參測(cè)模型的高頻失敗場(chǎng)景。

除了Table30測(cè)試集中的30項(xiàng)任務(wù)，RoboChallenge指出，當(dāng)前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個(gè)維度梳理。靈巧性是指輸出不同的動(dòng)作、駕馭不同的身體；泛化性是指即使測(cè)評(píng)對(duì)象不同也能成功；智能是面對(duì)沒做過的任務(wù)也能嘗試做成功；性能是指機(jī)器人的效率。

總的來說，這些失敗案例共同指向一個(gè)核心結(jié)論：當(dāng)前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題，距離真實(shí)場(chǎng)景的規(guī)?；瘧?yīng)用仍有較大差距。

可見，當(dāng)下的VLA參測(cè)模型仍然存在一些本質(zhì)上難以解決的因素，現(xiàn)有模型還有巨大的提升空間。

03 落地效果良好

RoboChallenge的報(bào)告中指出，平臺(tái)用戶注冊(cè)數(shù)與評(píng)測(cè)提交量在過去三個(gè)月呈指數(shù)級(jí)增長(zhǎng)。并且活躍用戶區(qū)域也不僅限于中國(guó)開發(fā)者，美國(guó)、新加坡等地的開發(fā)者正在逐漸涌入。

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？

平臺(tái)累計(jì)執(zhí)行的真機(jī)測(cè)試總數(shù)甚至超過了4萬(wàn)次，單日真機(jī)測(cè)試峰值達(dá)到834次，Table30測(cè)試集在Hugging Face平臺(tái)上的累計(jì)下載量已達(dá)17k次。

從上述前期的準(zhǔn)備和后期的效果上來看，RoboChallenge的確精準(zhǔn)衡量了VLA模型在真實(shí)場(chǎng)景中的綜合能力，為市場(chǎng)提供了一個(gè)較為客觀的評(píng)測(cè)標(biāo)尺。

同時(shí)，也讓業(yè)內(nèi)人士發(fā)現(xiàn)，VLA模型仍在攻克人類的本能級(jí)操作，參測(cè)模型雖具備較強(qiáng)的指令語(yǔ)義理解能力，但在精細(xì)操作任務(wù)中成功率不高。

而這些尚未解決的技術(shù)難題，也正是模型未來的核心發(fā)展方向。而當(dāng)當(dāng)前的技術(shù)難題被模型完美解決后，平臺(tái)未來將設(shè)計(jì)出更有區(qū)分度的Benchmark，持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ)，RoboChallenge進(jìn)一步釋放開放協(xié)作的信號(hào)，明確表示希望能吸引更多研究機(jī)構(gòu)、科技企業(yè)、初創(chuàng)團(tuán)隊(duì)及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強(qiáng)在回憶建立RoboChallenge的心路歷程時(shí)，也迫切地表示想弄出下一個(gè)Benchmark，涵蓋更多更難的任務(wù)，更長(zhǎng)程的、更廣泛的任務(wù)，而打造有價(jià)值的真實(shí)任務(wù)、向真實(shí)場(chǎng)景靠攏，也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠(chéng)地向全社會(huì)喊話，希望大家加入他們的社區(qū)一起討論、一起分享。

未來，隨著更多新鮮任務(wù)場(chǎng)景的注入、創(chuàng)新評(píng)估方法的融合及基準(zhǔn)測(cè)試集的持續(xù)迭代，或許能揭示具身智能模型更多的特性和不足，推動(dòng)具身智能模型向更通用、更實(shí)用的方向穩(wěn)步發(fā)展。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

劉欣

編輯

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

RoboChallenge發(fā)布年度報(bào)告：評(píng)測(cè)標(biāo)尺夠權(quán)威嗎？