CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權(quán)能力基準重磅發(fā)布

本文作者：陳淑瑜

2026-05-29 17:35

導語：南洋理工大學MARS Lab與NPL Lab聯(lián)合打造首個具身問答棄權(quán)基準AbstainEQA，實測發(fā)現(xiàn)頂尖模型棄權(quán)能力僅達人類47%，為安全人機交互劃定全新標準

來源：公眾號“視覺語言導航”

原文鏈接：https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58

作者：Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
單位：1南洋理工大學，2北京大學
論文標題：When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
論文鏈接：https://arxiv.org/abs/2512.04597
項目主頁：https://abstaineqa.github.io/
代碼鏈接：https://github.com/gibrantaowu/AbstainEQA

? 研究背景：機器人“強行作答”，藏著巨大安全隱患

隨著視覺語言模型（VLMs）飛速發(fā)展，具身機器人已從實驗室走向家庭場景，能在3D室內(nèi)環(huán)境中導航、感知，完成具身問答（EQA）任務(wù)，成為老人陪護、家務(wù)輔助的重要幫手。

但所有現(xiàn)有EQA基準都存在一個致命前提：默認機器人必須回答所有問題，完全忽略真實人機交互的復雜性。

研究團隊通過真實用戶調(diào)研發(fā)現(xiàn)：

在家庭陪護、醫(yī)療輔助等安全敏感場景，“不知道”比“瞎回答”更重要！棄權(quán)（信息不足時拒絕作答）是可靠人機交互的最低要求，卻長期被學界忽視。

首創(chuàng)棄權(quán)分類體系：基于人類認知理論+真實交互數(shù)據(jù)，提煉5類必須棄權(quán)的場景，為具身問答不確定性提供系統(tǒng)化判定依據(jù)。
發(fā)布 AbstainEQA 基準：全球首個人工標注的具身問答棄權(quán)基準，包含1636個棄權(quán)案例+1636個常規(guī)案例，經(jīng)數(shù)據(jù)擴充后總樣本達16360條，配套幀級視覺證據(jù)標注。
全方位模型評測：從模型規(guī)模、提示策略、微調(diào)方法三大維度，系統(tǒng)性測試當前頂尖具身模型，揭露現(xiàn)有方法的核心缺陷。
深度錯誤分析：明確模型棄權(quán)失效的根本原因，為后續(xù)安全、可靠的具身交互研究指明方向。

本文將傳統(tǒng)具身問答（EQA）升級為AbstainEQA，核心要求：智能體在證據(jù)不足、問題歧義時，主動棄權(quán)而非強行作答。

給定用戶問題和機器人視覺觀測序列，機器人需自主決策：

團隊招募50名普通用戶，基于HM3D、ScanNet真實室內(nèi)場景生成自然提問，最終證實：32.4%的人類問題需要機器人棄權(quán)，棄權(quán)是人機交互的固有需求。

基于Norman人類認知錯誤理論，精準劃分5類必須棄權(quán)的場景，覆蓋所有真實歧義情況：