97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳淑瑜
發(fā)送

0

ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

導(dǎo)語: SurgVidLM是首個旨在解決手術(shù)視頻全過程及細(xì)粒度理解的視頻語言模型

來源:labren

原文鏈接:https://mp.weixin.qq.com/s/VrNm2pwk9-dBltTqcASSVQ?scene=1&click_id=117


香港中文大學(xué)任洪亮教授團(tuán)隊論文(SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解)被機(jī)器人領(lǐng)域頂會 IEEE International Conference on Robotics and Automation (ICRA 2026) 錄用!



ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

論文題目:SurgVidLM: Towards Multi-grained Video Understanding with Large Language Model in Robot-assisted Surgery

論文作者:王冠錕(香港中文大學(xué)),王駿逸(香港中文大學(xué)),莫汶錦(香港中文大學(xué)), 白龍(香港中文大學(xué)), 袁焜(斯特拉斯堡大學(xué)、慕尼黑工業(yè)大學(xué)),胡銘(上海 AI Lab), 吳錦林(中國科學(xué)院香港創(chuàng)新研究院),何軍軍(上海 AI Lab),黃一鳴(香港中文大學(xué)),Nicolas Padoy(斯特拉斯堡大學(xué)),雷震(中國科學(xué)院香港創(chuàng)新研究院),劉宏斌(中國科學(xué)院香港創(chuàng)新研究院),Nassir Navab(慕尼黑工業(yè)大學(xué)),任洪亮(香港中文大學(xué)) 


論文簡介:手術(shù)場景理解對于機(jī)器人輔助手術(shù)中的手術(shù)培訓(xùn)和機(jī)器人決策至關(guān)重要。多模態(tài)大語言模型(MLLMs)的最新進(jìn)展在提升醫(yī)療領(lǐng)域場景感知方面展現(xiàn)了巨大潛力,能夠輔助外科醫(yī)生理解手術(shù)場景與流程。然而,現(xiàn)有方法主要面向圖像分析或全局視頻理解,忽視了細(xì)粒度視頻推理,而這對于分析特定過程及捕獲手術(shù)流程中詳細(xì)的任務(wù)執(zhí)行細(xì)節(jié)至關(guān)重要。為了彌補(bǔ)這一空白,我們提出了 SurgVidLM,這是首個旨在解決手術(shù)視頻全過程及細(xì)粒度理解的視頻語言模型。為了訓(xùn)練 SurgVidLM,我們構(gòu)建了 SVU-31K 數(shù)據(jù)庫,這是一個包含超過 3.1 萬個“視頻-指令”對的大規(guī)模數(shù)據(jù)集,支持對手術(shù)流程進(jìn)行整體理解與詳細(xì)分析。在此基礎(chǔ)上,SurgVidLM 引入了一種兩階段的 StageFocus(階段聚焦)機(jī)制:第一階段提取全局流程上下文,第二階段則在時間線索的引導(dǎo)下進(jìn)行高頻局部分析。此外,我們還開發(fā)了多頻融合注意力機(jī)制(Multi-frequency Fusion Attention),以有效整合低頻和高頻視覺標(biāo)號(Tokens),確保保留關(guān)鍵的任務(wù)特定細(xì)節(jié)。實驗結(jié)果表明,在全過程和細(xì)粒度視頻理解任務(wù)中,SurgVidLM 的表現(xiàn)顯著優(yōu)于同等參數(shù)規(guī)模的最先進(jìn)(SOTA)視頻大語言模型,展現(xiàn)了其捕獲復(fù)雜機(jī)器人輔助手術(shù)語境的卓越能力。



主要貢獻(xiàn)

  • 本文提出了首個專門針對機(jī)器人輔助手術(shù)設(shè)計的模型 SurgVidLM。該模型支持從宏觀的整段視頻理解到微觀的細(xì)粒度視覺推理,實現(xiàn)了多粒度的手術(shù)場景分析。

  •  我們通過一種創(chuàng)新的Knowledge Augmentation Pipeline構(gòu)建了大規(guī)模數(shù)據(jù)集 SVU-31K。該數(shù)據(jù)集涵蓋了全過程視頻與細(xì)粒度視頻理解的任務(wù)標(biāo)注,使模型能夠具備結(jié)構(gòu)化且感知上下文的手術(shù)視頻理解能力。

  • SurgVidLM 引入了 StageFocus 機(jī)制,實現(xiàn)了從全局到局部的循序漸進(jìn)理解。同時,通過集成多頻融合注意力機(jī)制(Multi-frequency Fusion Attention),促進(jìn)了低頻與高頻視覺標(biāo)號(Tokens)之間的交互,從而完整保留了環(huán)境上下文與任務(wù)細(xì)節(jié)信息。

  • 在 SVU-31K 數(shù)據(jù)集上進(jìn)行的廣泛實驗與消融研究表明,在同等參數(shù)規(guī)模下,SurgVidLM 在多粒度手術(shù)視頻理解任務(wù)中的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的(SOTA)視頻大語言模型。實驗結(jié)果凸顯了其在機(jī)器人輔助手術(shù)場景理解中的應(yīng)用潛力。



ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

SVU-31K數(shù)據(jù)的收集與構(gòu)建流程圖。

ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

SurgVidLM 整體架構(gòu)圖。 第一階段(Stage 1)專注于對全過程視頻的整體理解;第二階段(Stage 2)則融合當(dāng)前階段與前一階段的信息,以實現(xiàn)精準(zhǔn)的細(xì)粒度視頻理解。

ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

SurgVidLM 與 Vid-LLMs 在 SVU-31K 多粒度視頻理解任務(wù)中的性能比較。

ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

精細(xì)視頻推理任務(wù)的定性比較示例。



【香港中文大學(xué)任洪亮教授課題組】

香港中文大學(xué)(CUHK)醫(yī)學(xué)機(jī)器人感知與人工智能研究課題組歡迎博士/博士后/研究助理加入,主要領(lǐng)域包括:醫(yī)學(xué)機(jī)器人與智能系統(tǒng)、圖像引導(dǎo)手術(shù)中的AI學(xué)習(xí)與控制、醫(yī)療機(jī)電一體化、連續(xù)和柔性機(jī)器人與傳感器、變剛度調(diào)控技術(shù)、AI輔助內(nèi)窺診斷、醫(yī)學(xué)圖像處理等。更多詳情,請參閱任洪亮教授Google Scholar信息頁與實驗室網(wǎng)站http://labren.org/


參考文獻(xiàn):

Wang, G., Wang, J., Mo, W., Bai, L., Yuan, K., Hu, M., ... & Ren, H. (2025). Surgvidlm: Towards multi-grained surgical video understanding with large language model. arXiv preprint arXiv:2506.17873.

ICRA 2026 | SurgVidLM:在機(jī)器人輔助手術(shù)中利用大語言模型實現(xiàn)多粒度視頻理解

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說
长沙县| 普兰县| 潢川县| 景洪市| 开远市| 海伦市| 苍溪县| 洪泽县| 孟村| 竹北市| 进贤县| 玛多县| 巴楚县| 武威市| 依安县| 柳江县| 县级市| 株洲市| 都兰县| 灵丘县| 仙游县| 永登县| 咸宁市| 正定县| 营山县| 吉木乃县| 凤城市| 寿阳县| 瑞金市| 江北区| 柞水县| 寻乌县| 上思县| 黄龙县| 崇明县| 鄂伦春自治旗| 深水埗区| 石台县| 称多县| 霸州市| 璧山县|