97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

本文作者: 陳淑瑜   2026-05-29 17:35 專題:CVPR 計算機視覺與模式識別會議
導語:南洋理工大學MARS Lab與NPL Lab聯(lián)合打造首個具身問答棄權(quán)基準AbstainEQA,實測發(fā)現(xiàn)頂尖模型棄權(quán)能力僅達人類47%,為安全人機交互劃定全新標準

來源:公眾號“視覺語言導航”

原文鏈接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58


  • 作者:Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
  • 單位:1南洋理工大學,2北京大學
  • 論文標題:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
  • 論文鏈接:https://arxiv.org/abs/2512.04597
  • 項目主頁:https://abstaineqa.github.io/
  • 代碼鏈接:https://github.com/gibrantaowu/AbstainEQA

? 研究背景:機器人“強行作答”,藏著巨大安全隱患

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

隨著視覺語言模型(VLMs)飛速發(fā)展,具身機器人已從實驗室走向家庭場景,能在3D室內(nèi)環(huán)境中導航、感知,完成具身問答(EQA)任務(wù),成為老人陪護、家務(wù)輔助的重要幫手。

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

所有現(xiàn)有EQA基準都存在一個致命前提默認機器人必須回答所有問題,完全忽略真實人機交互的復雜性。

研究團隊通過真實用戶調(diào)研發(fā)現(xiàn):

  • 收集500條人類自然提問,32.4%的問題存在信息缺失、歧義或無法回答;
  • 機器人強行作答會引發(fā)兩大災(zāi)難:
  1. 幻覺致安全事故:未查看浴室就謊稱地面干燥,導致老人滑倒;
  2. 導航徹底失效:指代模糊的問題讓機器人無目的漫游,完全浪費算力。

在家庭陪護、醫(yī)療輔助等安全敏感場景,“不知道”比“瞎回答”更重要!棄權(quán)(信息不足時拒絕作答)是可靠人機交互的最低要求,卻長期被學界忽視。

? 核心貢獻:四大突破,重新定義具身問答標準

  1. 首創(chuàng)棄權(quán)分類體系:基于人類認知理論+真實交互數(shù)據(jù),提煉5類必須棄權(quán)的場景,為具身問答不確定性提供系統(tǒng)化判定依據(jù)。
  2. 發(fā)布 AbstainEQA 基準:全球首個人工標注的具身問答棄權(quán)基準,包含1636個棄權(quán)案例+1636個常規(guī)案例,經(jīng)數(shù)據(jù)擴充后總樣本達16360條,配套幀級視覺證據(jù)標注。
  3. 全方位模型評測:從模型規(guī)模、提示策略、微調(diào)方法三大維度,系統(tǒng)性測試當前頂尖具身模型,揭露現(xiàn)有方法的核心缺陷
  4. 深度錯誤分析:明確模型棄權(quán)失效的根本原因,為后續(xù)安全、可靠的具身交互研究指明方向。

? 問題描述:從“必須作答”到“學會棄權(quán)”

本文將傳統(tǒng)具身問答(EQA)升級為AbstainEQA,核心要求:智能體在證據(jù)不足、問題歧義時,主動棄權(quán)而非強行作答。

形式化定義(極簡版)

給定用戶問題和機器人視覺觀測序列,機器人需自主決策:

  • 選擇answer:基于視覺證據(jù)給出準確答案;
  • 選擇abstain:明確說明無法回答的理由。

兩大評測場景

  1. 情景記憶EQA(EM-EQA):機器人僅用已看到的畫面作答,不額外探索;
  2. 主動EQA(A-EQA):機器人可在限定步數(shù)內(nèi)導航探索,再決定作答或棄權(quán)。

? AbstainEQA 基準:科學定義“什么時候該說不知道”

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

1. 棄權(quán)需求:真實交互中,1/3問題無法回答

團隊招募50名普通用戶,基于HM3D、ScanNet真實室內(nèi)場景生成自然提問,最終證實:32.4%的人類問題需要機器人棄權(quán),棄權(quán)是人機交互的固有需求。

2. 五大棄權(quán)類型(核心判定標準)

基于Norman人類認知錯誤理論,精準劃分5類必須棄權(quán)的場景,覆蓋所有真實歧義情況:

類型
核心含義
通俗場景示例
可執(zhí)行性限制(AL)
需物理交互,純視覺無法完成
問“盒子里有什么”,機器人打不開盒子
指代不明確(RU)
描述對應(yīng)多個物體,無法定位
問“白色柜子上有什么”,房間有多個白柜
信息不可用(IU)
關(guān)鍵時空信息缺失,無法推理
問“誰把花瓶放桌上”,機器人沒看到過程
錯誤預設(shè)(FP)
問題前提與事實矛盾
問“床上泰迪熊材質(zhì)”,床上根本沒有泰迪熊
偏好依賴(PD)
依賴主觀審美,無客觀答案
問“墻上的畫好看嗎”,無統(tǒng)一標準答案

3. 數(shù)據(jù)集亮點

  • 均衡配比:1636個棄權(quán)案例 + 1636個常規(guī)可回答案例,公平評測;
  • 幀級標注:人工標記支撐答案/棄權(quán)的關(guān)鍵畫面,綁定視覺證據(jù);
  • 數(shù)據(jù)擴充:通過LLM生成5種語義變體,覆蓋多樣化表達。

? 評估標準:三維度科學評測,結(jié)果可信可復現(xiàn)

為全面衡量機器人的棄權(quán)能力,團隊設(shè)計三維度評估體系,并通過人類驗證確保結(jié)果可靠:

  1. 回答準確率:用GPT-4o做語義匹配,評估機器人答案的準確性,避免主觀偏差。
  2. 棄權(quán)識別能力:核心計算召回率、精確率、F1值、準確率,判斷機器人能否精準識別需要棄權(quán)的問題。
  3. 具身導航效率:針對主動EQA,評測導航成功率、探索幀數(shù)、路徑長度,看棄權(quán)問題是否影響機器人行動。
  4. 人類驗證:LLM自動評估與人類標注的皮爾遜相關(guān)系數(shù)達0.88,評估結(jié)果高度可靠。

? 實驗結(jié)果:顛覆認知!現(xiàn)有模型根本不會“說不知道”

團隊圍繞4個核心問題展開實驗,結(jié)論直擊領(lǐng)域痛點:

1. 頂尖模型棄權(quán)能力,僅達人類一半

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布
  • 最優(yōu)模型Gemini-2.5-Pro:棄權(quán)召回率42.79% ;
  • 普通人類:棄權(quán)召回率91.17% ;
  • 模型僅在“信息不可用”上表現(xiàn)稍好,指代模糊、主觀偏好類問題幾乎完全失效。
CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

2. 模型做大沒用,跨模態(tài)對齊才是關(guān)鍵

  • 同系列模型(如Qwen):參數(shù)擴大,棄權(quán)能力小幅提升;
  • 跨模型對比:參數(shù)規(guī)模不決定棄權(quán)能力,模型架構(gòu)、跨模態(tài)對齊才是核心。

3. 提示、推理都是“表面功夫”

  • 加提示詞:棄權(quán)召回率飆升,但精確率暴跌,機器人開始過度棄權(quán);
  • 加推理步驟:大模型棄權(quán)能力不升反降,只會說廢話,不會真判斷。

4. 微調(diào)模型:全是“作弊”,只看文字不看畫面

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

監(jiān)督微調(diào)(SFT)模型看似指標拉滿,實則嚴重過擬合文本特征

  • 隨機刪掉/換掉視覺畫面,模型性能幾乎不變;
  • 同樣的問題,不管場景如何,答案完全一樣,完全無視視覺證據(jù)。

5. 棄權(quán)問題,直接摧毀導航效率

歧義問題下:

  • 導航成功率:77.17% → 61.41% ,暴跌15個百分點;
  • 機器人陷入兩極分化:要么過早停止探索,要么無目的亂逛,導航完全失效。

? 研究結(jié)論:具身機器人,先學會“說不知道”

  1. 現(xiàn)有具身問答模型,完全不具備可靠棄權(quán)能力,無法識別歧義、信息缺失問題,暗藏安全風險;
  2. 模型縮放、提示工程、顯式推理、監(jiān)督微調(diào),都只是表面優(yōu)化,模型依賴文字捷徑,未真正結(jié)合視覺證據(jù);
  3. 歧義問題會導致具身導航低效、不穩(wěn)定,嚴重影響人機交互安全性與實用性。

未來方向:研發(fā)綁定視覺證據(jù)的棄權(quán)推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式,讓機器人真正學會“知之為知之,不知為不知”。

CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權(quán)能力基準重磅發(fā)布

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
博湖县| 唐山市| 清原| 新巴尔虎左旗| 宁德市| 镇安县| 敦化市| 汉源县| 临湘市| 西平县| 东宁县| 通海县| 淮安市| 临江市| 哈巴河县| 荣昌县| 灵山县| 武义县| 礼泉县| 临江市| 定襄县| 于田县| 横山县| 肇州县| 盐城市| 玛沁县| 中卫市| 玉树县| 蓝田县| 安龙县| 大同市| 宿州市| 景洪市| 仁寿县| 肥城市| 临夏市| 凤山市| 类乌齐县| 阜南县| 临海市| 德令哈市|