RAM——復(fù)雜場景下多人3D人體運(yùn)動重建新框架 | CVPR 2026

本文作者：陳淑瑜

2026-04-24 14:05

導(dǎo)語：RAM（Recover Any 3D Human Motion）提出統(tǒng)一框架將運(yùn)動感知跟蹤、時序建模與動作預(yù)測有機(jī)融合，實現(xiàn)從逐幀處理向時序建模的范式轉(zhuǎn)變

一、研究背景

從視頻中準(zhǔn)確理解并重建人體3D運(yùn)動是計算機(jī)視覺的重要研究方向，在體育賽事分析、VR/AR、人機(jī)交互以及醫(yī)療康復(fù)等領(lǐng)域具有廣泛應(yīng)用價值。然而，在真實復(fù)雜場景中，該任務(wù)仍面臨三大嚴(yán)峻挑戰(zhàn)：

首先是身份關(guān)聯(lián)不穩(wěn)定——多人交互時，頻繁的遮擋和快速運(yùn)動容易導(dǎo)致ID Switch，影響后續(xù)重建的一致性；其次是運(yùn)動軌跡中斷——視角變化和極端遮擋會造成目標(biāo)跟蹤丟失；第三是重建結(jié)果不連續(xù)——傳統(tǒng)逐幀處理方式難以維持時間維度上的三維結(jié)構(gòu)穩(wěn)定性。

傳統(tǒng)方法通常將目標(biāo)跟蹤和三維重建作為兩個獨(dú)立的流水線模塊處理，無法從整體視角利用跨幀的時序信息。RAM（Recover Any 3D Human Motion）從根本上打破了這一范式，提出統(tǒng)一框架將運(yùn)動感知跟蹤、時序建模與動作預(yù)測有機(jī)融合，實現(xiàn)從逐幀處理向時序建模的范式轉(zhuǎn)變。

二、核心方法

RAM 框架由四個關(guān)鍵模塊構(gòu)成，各司其職、協(xié)同工作：

SegFollow 模塊（穩(wěn)定跟蹤）：引入基于卡爾曼濾波的運(yùn)動建模機(jī)制，將運(yùn)動一致性信息融入目標(biāo)關(guān)聯(lián)過程。不再過度依賴外觀特征，即使在嚴(yán)重遮擋或外觀發(fā)生劇變的情況下，依然能維持穩(wěn)定的身份跟蹤，從根本上降低 ID Switch 發(fā)生率。

T-HMR 模塊（時序三維重建）：基于時間記憶機(jī)制，從鄰近幀中篩選關(guān)鍵特征，利用 Transformer 結(jié)構(gòu)進(jìn)行跨時間信息融合。當(dāng)當(dāng)前幀信息不完整或存在噪聲時，借助歷史上下文生成平滑且一致的3D人體結(jié)構(gòu)，解決重建不連續(xù)問題。

動作預(yù)測模塊：基于歷史運(yùn)動序列對人體動態(tài)進(jìn)行建模，預(yù)測未來的姿態(tài)。專門針對目標(biāo)被完全遮擋的極端情況，在當(dāng)前沒有任何觀測信息時，靠預(yù)測結(jié)果維持運(yùn)動序列的連續(xù)性。

自適應(yīng)融合模塊：對當(dāng)前幀重建結(jié)果與預(yù)測結(jié)果進(jìn)行自適應(yīng)加權(quán)——遮擋嚴(yán)重時更依賴預(yù)測，觀測清晰時更依賴重建，根據(jù)當(dāng)前信息可靠性動態(tài)調(diào)整權(quán)重，實現(xiàn)最優(yōu)融合。

RAM——復(fù)雜場景下多人3D人體運(yùn)動重建新框架 | CVPR 2026

三、亮點總結(jié)

亮點一：統(tǒng)一框架打破流水線壁壘RAM 首次將目標(biāo)跟蹤、時序三維重建與動作預(yù)測整合到統(tǒng)一框架內(nèi)，從整體視角充分利用跨幀時序信息，徹底改變了傳統(tǒng)串行流水線的局限，代表了多人3D運(yùn)動理解的范式轉(zhuǎn)變。

亮點二：強(qiáng)大的零樣本泛化能力在 PoseTrack 等國際主流復(fù)雜場景數(shù)據(jù)集上，RAM 在無需針對特定目標(biāo)數(shù)據(jù)集進(jìn)行額外訓(xùn)練（Zero-shot）的條件下，依然在身份一致性、跟蹤穩(wěn)定性以及三維重建精度上顯著超越現(xiàn)有方法，展現(xiàn)了極高的實際應(yīng)用潛力。

亮點三：時序建模接近人類認(rèn)知通過引入時間記憶與動作預(yù)測機(jī)制，使模型更接近人類真實世界中的動態(tài)認(rèn)知過程——人們即使暫時看不到一個運(yùn)動中的人，也能憑借記憶預(yù)判其位置與姿態(tài)。這一仿人認(rèn)知設(shè)計不僅提升了技術(shù)性能，也為視頻理解領(lǐng)域提供了重要的方法論啟示。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成，更詳細(xì)信息參見兩個鏈接

鏈接：https://arxiv.org/abs/2603.19929

解讀來源：https://cloud.tencent.com/developer/article/2658222

【封面圖片來源：網(wǎng)站名開發(fā)者社區(qū)，所有者：NLPIR Lab】