97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AIoT 正文
發(fā)私信給劉欣
發(fā)送

0

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

本文作者: 劉欣   2026-02-09 10:19
導(dǎo)語(yǔ):具身模型在榜單里卷起來了。

當(dāng)下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機(jī)器人的流暢操作,但視頻中的機(jī)器人卻又在現(xiàn)實(shí)世界中頻繁失誤。

這種虛假繁榮的背后,其實(shí)是行業(yè)長(zhǎng)期缺乏真實(shí)場(chǎng)景驗(yàn)證、評(píng)測(cè)標(biāo)準(zhǔn)模糊等問題。機(jī)器人從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界,始終被仿真到現(xiàn)實(shí)世界等難題所制約。

模擬器的評(píng)估無法完美復(fù)現(xiàn)真實(shí)世界中的物理擾動(dòng)、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機(jī)Dexmal與Hugging Face聯(lián)合推出了全球首個(gè)具身智能大規(guī)模評(píng)測(cè)平臺(tái)——RoboChallenge。

緊隨其后,原力靈機(jī)又與Hugging Face聯(lián)合智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及GOSIM等機(jī)構(gòu),于2025年11月20日正式成立RoboChallenge組委會(huì)。

2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國(guó)千尋智能自研的模型,而WALL-OSS則是自變量機(jī)器人的全自研開源操作大模型。

這個(gè)榜單釋放出了一個(gè)重磅信號(hào):中國(guó)自主研發(fā)的具身智能模型,已具備與國(guó)外頂級(jí)模型同臺(tái)對(duì)打的實(shí)力,甚至還打贏了。

不過,作為推出還沒多久的新興評(píng)測(cè)平臺(tái),尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭(zhēng)議,所以AI科技評(píng)論打算從技術(shù)和核心設(shè)計(jì)的角度,對(duì)RoboChallenge進(jìn)行深度拆解與解讀。


01 RoboChallenge系統(tǒng)核心設(shè)計(jì)

在具身智能領(lǐng)域,真機(jī)評(píng)測(cè)的標(biāo)準(zhǔn)化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評(píng)測(cè)標(biāo)尺,更讓不同團(tuán)隊(duì)的技術(shù)成果難以形成有效對(duì)比,嚴(yán)重影響了行業(yè)迭代效率。

但提供機(jī)器人在線服務(wù)并非表面看上去那么簡(jiǎn)單,首要問題是如何向提交算法的用戶開放機(jī)器人訪問權(quán)限。

RoboChallenge最開始考慮了三種主要的模式,分別是模型級(jí)提交、系統(tǒng)級(jí)提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

? 計(jì)算兼容性:提交模型并使其在其他環(huán)境中正確運(yùn)行極為復(fù)雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

? 靈活性:RoboChallenge不希望將用戶限制在以往系統(tǒng)中默認(rèn)的 “觀測(cè) - 動(dòng)作” 映射所隱含的 “暫停 - 推理” 控制模式中。

? 可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導(dǎo)的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是,RoboChallenge采用 “遠(yuǎn)程機(jī)器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標(biāo)準(zhǔn)化低層級(jí)API即可實(shí)現(xiàn)全異步交互。

不同于仿真測(cè)試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機(jī)型在內(nèi)的20臺(tái)真機(jī)測(cè)試集群,對(duì)這些機(jī)器人的選擇上,還有幾條準(zhǔn)則:耐用性、普及性、安全性以及性能良好。

所有機(jī)器人均搭載Intel RealSense深度相機(jī),包含俯視工作區(qū)域的主相機(jī)、機(jī)械臂末端的腕部相機(jī)及單臂設(shè)備專用的側(cè)面相機(jī),為VLA模型提供多視角觀測(cè)數(shù)據(jù)。

前期的準(zhǔn)備完善后,RoboChallenge又發(fā)現(xiàn)測(cè)試中的各種因素會(huì)導(dǎo)致最后的結(jié)果巨大,難以成為客觀、公正的測(cè)評(píng)體系。因此,需要一套規(guī)范的方法來控制測(cè)試中的各種因素。

首先,對(duì)于測(cè)試人員導(dǎo)致的差異,RoboChallenge對(duì)有經(jīng)驗(yàn)、無經(jīng)驗(yàn)、適應(yīng)性的測(cè)試人員進(jìn)行了測(cè)試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗(yàn),RoboChallenge設(shè)計(jì)出了更完善的評(píng)估協(xié)議,特別是更穩(wěn)定的物體重置方法。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

RoboChallenge還對(duì)環(huán)境中的各種因素進(jìn)行了研究,比如光照條件,但進(jìn)行的概念驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn),背景或環(huán)境的變化不會(huì)對(duì)測(cè)試結(jié)果產(chǎn)生太大影響。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

02 Table30基準(zhǔn)測(cè)試集

Table30基準(zhǔn)測(cè)試集包含30項(xiàng)圍繞固定工作臺(tái)執(zhí)行的任務(wù),涵蓋家庭、廚房、辦公、校園等多元場(chǎng)景,任務(wù)類型包括物體整理、機(jī)械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務(wù)衡量了通用機(jī)器人控制算法應(yīng)具備的多種能力,乍看下來很簡(jiǎn)單,但即使是最先進(jìn)的基礎(chǔ)模型也無法達(dá)到較高的總體成功率。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

任務(wù)的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實(shí)生活以及簡(jiǎn)潔性這四個(gè)原則。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

RoboChallenge認(rèn)為,基準(zhǔn)測(cè)試集是衡量通用機(jī)器人技術(shù)方法的必要測(cè)試。并且,隨著評(píng)估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢(shì):

首先是,模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

RoboChallenge的評(píng)測(cè)區(qū)分了單任務(wù)模型和多任務(wù)模型,單任務(wù)模型是對(duì)特定任務(wù)進(jìn)行優(yōu)化,多任務(wù)模型能夠使適配不同類型的任務(wù),泛化能力較好。

對(duì)比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn),pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

至于如何平衡“單項(xiàng)精準(zhǔn)度”與“多任務(wù)適配性”,這或許將會(huì)成為通往通用具身智能的關(guān)鍵課題。

其次,任務(wù)難度梯隊(duì)清晰,部分任務(wù)成行業(yè)共性難題。

Table30的每一個(gè)任務(wù)都是賦予了機(jī)型、構(gòu)型、能力類型這三個(gè)維度,共15個(gè)標(biāo)簽。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

通過對(duì)頭部模型成功率的分布,可以將30個(gè)標(biāo)準(zhǔn)化任務(wù)分為三個(gè)不同能力梯隊(duì)。

第一梯隊(duì)是hello world級(jí)任務(wù),這類人任務(wù)對(duì)于頭部模型而言沒有任何難度。第二梯隊(duì)是簡(jiǎn)單的任務(wù),對(duì)于頭部模型比較友好,難度較低。而第三梯隊(duì)則是特定模型的特長(zhǎng),此類任務(wù)呈現(xiàn)極端的兩級(jí)分化。

更值得關(guān)注的是,有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測(cè)模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務(wù):

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

復(fù)盤任務(wù)后發(fā)現(xiàn),“做素三明治”任務(wù)的核心難點(diǎn)在于時(shí)序性,做三明治需要按照嚴(yán)格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯(cuò)誤和失敗,所以容錯(cuò)率極低,一步錯(cuò)步步錯(cuò)。

“給盆栽澆水”任務(wù)則暴露了模型的時(shí)序依賴缺失問題,長(zhǎng)程任務(wù)要求模型維持對(duì)歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會(huì)陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機(jī)動(dòng)作。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

此外,整理書籍、疊抹布、排列紙杯等任務(wù),也成為參測(cè)模型的高頻失敗場(chǎng)景。

除了Table30測(cè)試集中的30項(xiàng)任務(wù),RoboChallenge指出,當(dāng)前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個(gè)維度梳理。靈巧性是指輸出不同的動(dòng)作、駕馭不同的身體;泛化性是指即使測(cè)評(píng)對(duì)象不同也能成功;智能是面對(duì)沒做過的任務(wù)也能嘗試做成功;性能是指機(jī)器人的效率。

總的來說,這些失敗案例共同指向一個(gè)核心結(jié)論:當(dāng)前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實(shí)場(chǎng)景的規(guī)?;瘧?yīng)用仍有較大差距。

可見,當(dāng)下的VLA參測(cè)模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。


03 落地效果良好

RoboChallenge的報(bào)告中指出,平臺(tái)用戶注冊(cè)數(shù)與評(píng)測(cè)提交量在過去三個(gè)月呈指數(shù)級(jí)增長(zhǎng)。并且活躍用戶區(qū)域也不僅限于中國(guó)開發(fā)者,美國(guó)、新加坡等地的開發(fā)者正在逐漸涌入。

RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

平臺(tái)累計(jì)執(zhí)行的真機(jī)測(cè)試總數(shù)甚至超過了4萬(wàn)次,單日真機(jī)測(cè)試峰值達(dá)到834次,Table30測(cè)試集在Hugging Face平臺(tái)上的累計(jì)下載量已達(dá)17k次。

從上述前期的準(zhǔn)備和后期的效果上來看,RoboChallenge的確精準(zhǔn)衡量了VLA模型在真實(shí)場(chǎng)景中的綜合能力,為市場(chǎng)提供了一個(gè)較為客觀的評(píng)測(cè)標(biāo)尺。

同時(shí),也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級(jí)操作,參測(cè)模型雖具備較強(qiáng)的指令語(yǔ)義理解能力,但在精細(xì)操作任務(wù)中成功率不高。

而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當(dāng)當(dāng)前的技術(shù)難題被模型完美解決后,平臺(tái)未來將設(shè)計(jì)出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ),RoboChallenge進(jìn)一步釋放開放協(xié)作的信號(hào),明確表示希望能吸引更多研究機(jī)構(gòu)、科技企業(yè)、初創(chuàng)團(tuán)隊(duì)及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強(qiáng)在回憶建立RoboChallenge的心路歷程時(shí),也迫切地表示想弄出下一個(gè)Benchmark,涵蓋更多更難的任務(wù),更長(zhǎng)程的、更廣泛的任務(wù),而打造有價(jià)值的真實(shí)任務(wù)、向真實(shí)場(chǎng)景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠(chéng)地向全社會(huì)喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

未來,隨著更多新鮮任務(wù)場(chǎng)景的注入、創(chuàng)新評(píng)估方法的融合及基準(zhǔn)測(cè)試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動(dòng)具身智能模型向更通用、更實(shí)用的方向穩(wěn)步發(fā)展。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
郴州市| 乐清市| 贺州市| 东乡族自治县| 鹤岗市| 林周县| 清镇市| 白沙| 新平| 舞钢市| 东丽区| 贞丰县| 双鸭山市| 霍山县| 胶州市| 墨竹工卡县| 周至县| 东阳市| 饶河县| 香河县| 明水县| 河西区| 且末县| 获嘉县| 临西县| 平舆县| 阳原县| 青海省| 万安县| 昂仁县| 光泽县| 武威市| 潮安县| 皮山县| 乌海市| 瑞丽市| 威海市| 瑞金市| 保德县| 嘉黎县| 南平市|