ICRA 2026 | SurgVidLM：在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

本文作者：陳淑瑜

2026-05-27 18:43

導(dǎo)語： SurgVidLM是首個旨在解決手術(shù)視頻全過程及細(xì)粒度理解的視頻語言模型

來源：labren

原文鏈接：https://mp.weixin.qq.com/s/VrNm2pwk9-dBltTqcASSVQ?scene=1&click_id=117

香港中文大學(xué)任洪亮教授團(tuán)隊論文（SurgVidLM：在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解）被機(jī)器人領(lǐng)域頂會 IEEE International Conference on Robotics and Automation (ICRA 2026) 錄用！

ICRA 2026 | SurgVidLM：在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

論文題目：SurgVidLM: Towards Multi-grained Video Understanding with Large Language Model in Robot-assisted Surgery

論文作者：王冠錕（香港中文大學(xué)），王駿逸（香港中文大學(xué)），莫汶錦（香港中文大學(xué)），白龍（香港中文大學(xué)），袁焜（斯特拉斯堡大學(xué)、慕尼黑工業(yè)大學(xué)），胡銘（上海 AI Lab）, 吳錦林（中國科學(xué)院香港創(chuàng)新研究院），何軍軍（上海 AI Lab），黃一鳴（香港中文大學(xué)），Nicolas Padoy（斯特拉斯堡大學(xué)），雷震（中國科學(xué)院香港創(chuàng)新研究院），劉宏斌（中國科學(xué)院香港創(chuàng)新研究院），Nassir Navab（慕尼黑工業(yè)大學(xué)），任洪亮（香港中文大學(xué)）

論文簡介：手術(shù)場景理解對于機(jī)器人輔助手術(shù)中的手術(shù)培訓(xùn)和機(jī)器人決策至關(guān)重要。多模態(tài)大語言模型（MLLMs）的最新進(jìn)展在提升醫(yī)療領(lǐng)域場景感知方面展現(xiàn)了巨大潛力，能夠輔助外科醫(yī)生理解手術(shù)場景與流程。然而，現(xiàn)有方法主要面向圖像分析或全局視頻理解，忽視了細(xì)粒度視頻推理，而這對于分析特定過程及捕獲手術(shù)流程中詳細(xì)的任務(wù)執(zhí)行細(xì)節(jié)至關(guān)重要。為了彌補(bǔ)這一空白，我們提出了 SurgVidLM，這是首個旨在解決手術(shù)視頻全過程及細(xì)粒度理解的視頻語言模型。為了訓(xùn)練 SurgVidLM，我們構(gòu)建了 SVU-31K 數(shù)據(jù)庫，這是一個包含超過 3.1 萬個“視頻-指令”對的大規(guī)模數(shù)據(jù)集，支持對手術(shù)流程進(jìn)行整體理解與詳細(xì)分析。在此基礎(chǔ)上，SurgVidLM 引入了一種兩階段的 StageFocus（階段聚焦）機(jī)制：第一階段提取全局流程上下文，第二階段則在時間線索的引導(dǎo)下進(jìn)行高頻局部分析。此外，我們還開發(fā)了多頻融合注意力機(jī)制（Multi-frequency Fusion Attention），以有效整合低頻和高頻視覺標(biāo)號（Tokens），確保保留關(guān)鍵的任務(wù)特定細(xì)節(jié)。實驗結(jié)果表明，在全過程和細(xì)粒度視頻理解任務(wù)中，SurgVidLM 的表現(xiàn)顯著優(yōu)于同等參數(shù)規(guī)模的最先進(jìn)（SOTA）視頻大語言模型，展現(xiàn)了其捕獲復(fù)雜機(jī)器人輔助手術(shù)語境的卓越能力。

主要貢獻(xiàn)：

本文提出了首個專門針對機(jī)器人輔助手術(shù)設(shè)計的模型 SurgVidLM。該模型支持從宏觀的整段視頻理解到微觀的細(xì)粒度視覺推理，實現(xiàn)了多粒度的手術(shù)場景分析。
我們通過一種創(chuàng)新的Knowledge Augmentation Pipeline構(gòu)建了大規(guī)模數(shù)據(jù)集 SVU-31K。該數(shù)據(jù)集涵蓋了全過程視頻與細(xì)粒度視頻理解的任務(wù)標(biāo)注，使模型能夠具備結(jié)構(gòu)化且感知上下文的手術(shù)視頻理解能力。
SurgVidLM 引入了 StageFocus 機(jī)制，實現(xiàn)了從全局到局部的循序漸進(jìn)理解。同時，通過集成多頻融合注意力機(jī)制（Multi-frequency Fusion Attention），促進(jìn)了低頻與高頻視覺標(biāo)號（Tokens）之間的交互，從而完整保留了環(huán)境上下文與任務(wù)細(xì)節(jié)信息。
在 SVU-31K 數(shù)據(jù)集上進(jìn)行的廣泛實驗與消融研究表明，在同等參數(shù)規(guī)模下，SurgVidLM 在多粒度手術(shù)視頻理解任務(wù)中的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的（SOTA）視頻大語言模型。實驗結(jié)果凸顯了其在機(jī)器人輔助手術(shù)場景理解中的應(yīng)用潛力。

SVU-31K數(shù)據(jù)的收集與構(gòu)建流程圖。

SurgVidLM 整體架構(gòu)圖。第一階段（Stage 1）專注于對全過程視頻的整體理解；第二階段（Stage 2）則融合當(dāng)前階段與前一階段的信息，以實現(xiàn)精準(zhǔn)的細(xì)粒度視頻理解。

SurgVidLM 與 Vid-LLMs 在 SVU-31K 多粒度視頻理解任務(wù)中的性能比較。

精細(xì)視頻推理任務(wù)的定性比較示例。

【香港中文大學(xué)任洪亮教授課題組】

香港中文大學(xué)（CUHK）醫(yī)學(xué)機(jī)器人感知與人工智能研究課題組歡迎博士/博士后/研究助理加入，主要領(lǐng)域包括：醫(yī)學(xué)機(jī)器人與智能系統(tǒng)、圖像引導(dǎo)手術(shù)中的AI學(xué)習(xí)與控制、醫(yī)療機(jī)電一體化、連續(xù)和柔性機(jī)器人與傳感器、變剛度調(diào)控技術(shù)、AI輔助內(nèi)窺診斷、醫(yī)學(xué)圖像處理等。更多詳情，請參閱任洪亮教授Google Scholar信息頁與實驗室網(wǎng)站http://labren.org/

參考文獻(xiàn)：

Wang, G., Wang, J., Mo, W., Bai, L., Yuan, K., Hu, M., ... & Ren, H. (2025). Surgvidlm: Towards multi-grained surgical video understanding with large language model. arXiv preprint arXiv:2506.17873.

0人收藏

相關(guān)文章

LeEco在美國裁員70%，未來專注華語家庭市場

專題

ICRA 國際機(jī)器人與自動化會議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

ICRA 2026 | SurgVidLM：在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

ICRA 國際機(jī)器人與自動化會議