南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

本文作者：胡清文

2026-01-08 17:59

導(dǎo)語(yǔ)：以聲波毫米波為代表的新型模態(tài)感知，正在重塑空間智能。

12月12日，第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳正式啟幕。

本次大會(huì)為期兩天，由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦，高文院士任指導(dǎo)委員會(huì)主席，楊強(qiáng)院士與朱曉蕊教授任大會(huì)主席。

作為觀測(cè)AI技術(shù)演進(jìn)與生態(tài)變遷的重要窗口，GAIR大會(huì)自2016年創(chuàng)辦以來(lái)以來(lái)，始終與全球AI發(fā)展的脈搏同頻共振，見(jiàn)證了技術(shù)浪潮從實(shí)驗(yàn)室涌向產(chǎn)業(yè)深海。2025年，是大模型從“技術(shù)破壁”邁向“價(jià)值深耕”的關(guān)鍵節(jié)點(diǎn)，值此之際GAIR如期而至，攜手智者觸摸AI最前沿脈動(dòng)，洞見(jiàn)產(chǎn)業(yè)深層邏輯。

大會(huì)上，深圳市海外高層次人才、南方科技大學(xué)計(jì)算機(jī)科學(xué)與工程系長(zhǎng)聘副教授張進(jìn)親臨現(xiàn)場(chǎng)，為參會(huì)者帶來(lái)了一場(chǎng)精彩紛呈的演講分享。

演講一開(kāi)始，張進(jìn)教授就向“時(shí)空AI”、“具身智能”等當(dāng)下火熱概念率先拋出了自身見(jiàn)解：無(wú)論是具身智能還是智慧健康，都需要對(duì)物理世界進(jìn)行感知理解，并在虛擬世界和物理世界之間建立溝通。因此傳統(tǒng)AI和新型傳感本質(zhì)上是從不同的角度和路徑走到同一個(gè)點(diǎn)，最終實(shí)現(xiàn)“殊途同歸”。

基于這一點(diǎn)，張進(jìn)教授認(rèn)為傳統(tǒng)AI從語(yǔ)言、文字、視覺(jué)等模態(tài)出發(fā)，生成世界模型探索空間智能。而傳感器、智能物聯(lián)網(wǎng)相關(guān)領(lǐng)域的學(xué)者們一直以來(lái)在做的，同樣是為了準(zhǔn)確感知物理世界。只不過(guò)感知方式從信號(hào)處理迭代到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)，再到如今通過(guò)大模型實(shí)現(xiàn)面向空間智能的多模態(tài)感知。

關(guān)于面向空間智能的新型模態(tài)感知，張進(jìn)教授和她的團(tuán)隊(duì)有一些新想法：

1、當(dāng)下的多模態(tài)感知大部分集中在語(yǔ)音、文字、圖像、視頻等形式，存在功耗成本高、隱私性差等問(wèn)題，我們希望引入更多的新型模態(tài)感知如聲波感知、毫米波雷達(dá)感知。

2、聲波感知成本低、計(jì)算量低，能通過(guò)對(duì)多個(gè)設(shè)備對(duì)之間的聲波感知，判斷它的方向和距離，未來(lái)這項(xiàng)技術(shù)有望作為提供連接和方向感知的基礎(chǔ)設(shè)施。

3、聲波感知在醫(yī)療健康領(lǐng)域大有可為，在未來(lái)也許利用小小一副耳機(jī)就能實(shí)現(xiàn)心跳、血壓、肺功能健康全鏈路監(jiān)測(cè)。但如何實(shí)現(xiàn)跨模態(tài)檢測(cè)、消除個(gè)體差異性影響，仍是一項(xiàng)巨大挑戰(zhàn)。

4、如今我們對(duì)毫米波雷達(dá)的關(guān)注點(diǎn)由檢測(cè)準(zhǔn)確率轉(zhuǎn)向可信感知，正在思考要如何將視覺(jué)的數(shù)據(jù)合成毫米波數(shù)據(jù)。

5、接下來(lái)我們的主要工作方向有個(gè)：繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型、讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解，用大模型自動(dòng)生成代碼來(lái)檢測(cè)物理世界的感知信號(hào)。

6、在將來(lái)，面向空間智能、物理世界的多模態(tài)感知需求會(huì)極其大，需要更多像聲波感知、毫米波雷達(dá)一樣的新型感知模態(tài)在不同場(chǎng)景并發(fā)揮獨(dú)特優(yōu)勢(shì)。

7、當(dāng)下新型模態(tài)的數(shù)據(jù)量還是很少，所以未來(lái)的研究方向?qū)?huì)集中于數(shù)據(jù)理解、數(shù)據(jù)生成等方面。如何生成、如何防御、如何更輕量化的跑在端側(cè)等等，這些問(wèn)題亟需進(jìn)一步研究。

以下是張進(jìn)教授演講的精彩內(nèi)容，雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯：

聲波感知也好，毫米波也罷，都是為了感知物理世界獲取空間智能，所以今天我要講的是面向空間智能的新型模態(tài)感知。

眾所周知，上個(gè)月李飛飛院士剛剛提出空間智能是AI的下一個(gè)前沿。深圳的反應(yīng)非常迅速，在上個(gè)月底發(fā)布的《深圳市“人工智能+”（征求意見(jiàn)稿）》當(dāng)中就把空間智能模型寫(xiě)進(jìn)去了。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

實(shí)際上無(wú)論是現(xiàn)在的具身智能、無(wú)人機(jī)、智慧健康，都是用來(lái)認(rèn)識(shí)和了解物理世界的，只不過(guò)大家是從不同的渠道、不同的方向走到了共同的點(diǎn)上，所以我管它叫殊途同歸。

為什么說(shuō)是殊途同歸？

傳統(tǒng)AI從語(yǔ)言、文字、視覺(jué)等模態(tài)出發(fā)，生成世界模型，探索空間智能。但回過(guò)頭看，二十年前我們?cè)跓o(wú)線通信和無(wú)線網(wǎng)絡(luò)的研究中，就已經(jīng)開(kāi)始做無(wú)線傳感器網(wǎng)絡(luò)了：把所有的傳感器放到山里、放到河里、甚至空中去進(jìn)行監(jiān)測(cè)。

再往前追溯十年，數(shù)字孿生、城市建筑、交通等等都是為了準(zhǔn)確的感知物理世界。包括現(xiàn)在我們利用WiFi、手機(jī)信號(hào)做感知，從有線發(fā)展到無(wú)線，這些都是我們?cè)谠噲D感知物理世界的方式。

那么我們是如何做到殊途同歸的呢？

最初我們是用信號(hào)處理來(lái)完成這件事情，后來(lái)我們可以用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)來(lái)理解物理信息，現(xiàn)在我們可以用大模型理解傳統(tǒng)傳感器的信號(hào)，從而得到更多的信息，也為我們帶來(lái)面向空間智能的多模態(tài)感知。

但說(shuō)實(shí)話，現(xiàn)在所謂的多模態(tài)感知，都還是集中在語(yǔ)音、文字、圖像、視頻，真正新型的并不多。像激光雷達(dá)、點(diǎn)云、深度攝像頭、紅外，稍微有一點(diǎn)與傳統(tǒng)的結(jié)合。我們希望能夠引入更多的模態(tài)，比如聲波感知、毫米波雷達(dá)感知。

聲波感知有哪些最新探索？

毫米波雷達(dá)感知目前已經(jīng)有一些應(yīng)用了，但聲波感知的應(yīng)用目前較少。更重要的是，為了更好地理解這些新型模態(tài)，我們需要用更新的網(wǎng)絡(luò)更好地理解它，所以這也是我們整個(gè)正在團(tuán)隊(duì)做的事情，就是希望用這些最新的模型技術(shù)，來(lái)理解一些新型的傳感器數(shù)據(jù)。

為什么需要這些新型的傳感器數(shù)據(jù)？這個(gè)事情非常好理解。已有的視覺(jué)傳感器復(fù)雜度高、依賴光照，還有隱私問(wèn)題。如果要在小機(jī)器人上加一個(gè)攝像頭，甚至加一個(gè)處理視覺(jué)數(shù)據(jù)的芯片，它的功耗和成本都是不容小覷的。那么能不能用更便宜、更好的方式來(lái)做感知呢？

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

基于此，我們最近幾年都在研究聲波感知。我們所有的設(shè)備，例如手機(jī)、智能眼鏡、耳機(jī)、智能音箱等，全都帶有揚(yáng)聲器和麥克風(fēng)。無(wú)需要借助額外設(shè)備，只要讓它們用揚(yáng)聲器、麥克風(fēng)發(fā)出一個(gè)人聽(tīng)不到的聲音，將這個(gè)聲音打在環(huán)境中再返回來(lái)，就能夠像蝙蝠一樣感知到周邊的狀況。這種感知方法成本低、計(jì)算量低，非常適合機(jī)器人應(yīng)用。

具體來(lái)看它有哪些應(yīng)用呢？例如華為汽車，它在車內(nèi)的定位已經(jīng)試圖在做這件事了。以及在筆記本電腦上，已經(jīng)可以用手來(lái)翻頁(yè)了，這個(gè)動(dòng)作并不是靠攝像頭來(lái)完成，而是通過(guò)聲波完成的。還有很多應(yīng)用，包括智能眼鏡和耳機(jī)等設(shè)備上的應(yīng)用。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

最早的時(shí)候我們還沒(méi)有用聲波模型，只是理解信號(hào)，用兩個(gè)很小、距離很近的兩個(gè)揚(yáng)聲器，發(fā)一些特殊的旋轉(zhuǎn)聲場(chǎng)的信號(hào)，就可以做到很精準(zhǔn)的厘米級(jí)的位置感知，這是需要依賴設(shè)備的，在設(shè)備和設(shè)備之間做定位的時(shí)候這一點(diǎn)就非常重要。

除了2D的感知，我們還可以做3D的運(yùn)動(dòng)追蹤。其實(shí)兩個(gè)設(shè)備之間去做聲波感知，并非一件容易的事，多設(shè)備之間的聲波感知就更為復(fù)雜了。在這個(gè)過(guò)程中要面臨很多的沖突，要怎么去解決這些沖突呢？近幾年我們?cè)诟鷺s耀、華為等智能設(shè)備廠商合作解決這個(gè)問(wèn)題，通過(guò)多個(gè)設(shè)備對(duì)之間的感知，判斷它的方向和距離。未來(lái)，這項(xiàng)技術(shù)有望放到華為OpenHarmony系統(tǒng)中，作為提供連接以及方向感知的基礎(chǔ)設(shè)施。

除此之外，我們還在智能交互方面做了很大一部分工作。我們花了很多的精力做智能眼鏡的交互，希望能夠用聲波感知人眼上下左右的表情。比如只需要眨個(gè)眼、擠個(gè)眉，就可以控制眼鏡的操作。本質(zhì)其實(shí)也是speaker發(fā)出聲音，打到麥克風(fēng)上從而做交互，實(shí)現(xiàn)無(wú)需抬手僅用眼球就可以控制智能眼鏡。

緊接著，我們還做了不少的東西。如果你現(xiàn)在的智能眼鏡前面有十幾個(gè)圖標(biāo)，在點(diǎn)擊圖標(biāo)的時(shí)候你需要用手滑動(dòng)它，看到需要點(diǎn)的位置。因此，我們做了一個(gè)面部的傳感器，它只需要發(fā)出一個(gè)稍微高一點(diǎn)的次聲波，就可以非常便捷地進(jìn)行感知，包括觸摸、滑動(dòng)等等。未來(lái)，這種傳感器如果可以集成在眼鏡上，外觀上可以做到基本隱形。

除此之外，我們還做了隔空的手勢(shì)識(shí)別。比如華為的智能眼鏡，在旁邊有一個(gè)觸控板，只要觸碰到就可以感覺(jué)到眼鏡在動(dòng)造成不適感。那么能不能隔空控制它呢？這個(gè)技術(shù)挑戰(zhàn)還是蠻高的。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

目前，我們有兩種技術(shù)：一種是被動(dòng)感知的技術(shù)，手在滑動(dòng)產(chǎn)生了微弱的聲音，讓麥克風(fēng)聽(tīng)到。另一種是主動(dòng)感知的技術(shù)，speaker要發(fā)一個(gè)人聽(tīng)不到的聲音，彈回來(lái)然后感知它，無(wú)論如何都是隔空手勢(shì)的感知。

除了在智能眼鏡上做交互之外，我們還發(fā)現(xiàn)了很多痛點(diǎn)。例如現(xiàn)在幾乎人手一個(gè)藍(lán)牙耳機(jī)，但是目前對(duì)耳機(jī)做交互主要還是靠摸，摸它的柄上下不同的位置。尤其是很好的耳機(jī)，輕輕一摸聲音的增減幅度就很大，現(xiàn)在我們希望不觸摸它，就可以讓耳機(jī)實(shí)現(xiàn)感知。

我們首先做的是，讓舌頭頂上顎的不同位置，來(lái)告訴耳機(jī)現(xiàn)在希望它進(jìn)行什么樣的操作，這個(gè)構(gòu)想我們最早是從助聽(tīng)器上得到的。助聽(tīng)器具備一個(gè)很重要的特點(diǎn)，就是需要區(qū)分聲音的方向，不光要選擇聲音的強(qiáng)弱，而且還要選擇聲音的方向，并且使用者一般不希望別人知道他戴著這個(gè)東西。

因此，我們受了助聽(tīng)器的啟發(fā)，在藍(lán)牙耳機(jī)上安裝了隔空隱蔽式傳感器，用舌頭就可以控制耳機(jī)。它的原理其實(shí)很簡(jiǎn)單，因?yàn)槎?、上顎和口腔是連通的，耳道發(fā)一個(gè)聲音，打到口腔內(nèi)再返回去，舌頭不同的位置會(huì)使信道產(chǎn)生明顯的變化。通過(guò)感知信道的變化，就可以實(shí)現(xiàn)隔空隱蔽，這也是今年人機(jī)交互頂會(huì)上的一份工作。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

除了用舌頭來(lái)控制耳機(jī)之外，接下來(lái)我們還做了隔空手勢(shì)控制耳機(jī)。這個(gè)部分其實(shí)有非常多的挑戰(zhàn)，包括怎樣設(shè)置這個(gè)手勢(shì)？怎樣防止周圍環(huán)境的干擾？選用什么樣的信號(hào)？看起來(lái)是蠻小的系統(tǒng)，但這里面的技術(shù)挑戰(zhàn)還是很多的。在交互上，我們前前后后也做了不少的工作。有一些消費(fèi)電子類廠商對(duì)我們正在做的這些研究很感興趣，所以我們現(xiàn)在也在做進(jìn)一步的落地工作。

另一方面，我們想稍微聊一下聲波感知在健康方面的應(yīng)用。實(shí)際上用聲波感知做健康的監(jiān)測(cè)，這項(xiàng)研究我們已經(jīng)做了十多年。在此之前，我們已經(jīng)做了快20年遠(yuǎn)程健康監(jiān)測(cè)。

我們現(xiàn)在想做的事情是，用聲波感知最基本的呼吸、心跳。打個(gè)比方，就是把手機(jī)放在桌子前面，就可以看你的呼吸、心跳，這部分現(xiàn)在已經(jīng)做得非常成熟了。而我們現(xiàn)在做的事情是，拿耳機(jī)觀測(cè)你的肺功能。

在中國(guó)，有非常多的慢阻肺人群，以及哮喘病人需要定期到醫(yī)院做肺功能的監(jiān)測(cè)，有時(shí)候他不想去，就沒(méi)辦法知道自己病情的發(fā)展。如果我們?cè)诩依锎髦鷻C(jī)，就可以得出跟醫(yī)院幾十萬(wàn)的監(jiān)測(cè)設(shè)備類似的肺功能曲線結(jié)果，這對(duì)用戶來(lái)說(shuō)將是一件非常利好的事情。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

為此，我們做了兩方面的工作：第一份工作，用耳機(jī)作肺功能監(jiān)測(cè)，但是還需要吹一個(gè)很長(zhǎng)的管子。第二份工作即今年的研究，現(xiàn)在用耳機(jī)做肺功能檢測(cè)已經(jīng)不需要管子了，通過(guò)正常說(shuō)話就可以判斷肺功能的情況。

在做完這件事情之后，醫(yī)生告訴我們光知道他們的情況是沒(méi)用的，對(duì)醫(yī)學(xué)來(lái)說(shuō)，技術(shù)手段不光要監(jiān)測(cè)出狀況，最重要的就是要形成閉環(huán)，還需要返回來(lái)幫助他們進(jìn)行康復(fù)或治療。

那么要如何在呼吸系統(tǒng)疾病上幫助他做治療呢？醫(yī)生告訴我們，肺部訓(xùn)練是一個(gè)很常用的辦法，可以每天做幾十次的腹式呼吸訓(xùn)練。

但是病人一回家就發(fā)現(xiàn)，雖然一開(kāi)始做的是腹式呼吸，但做了不到2個(gè)就又變成胸式呼吸了。所以我們想到可以用聲學(xué)攝像機(jī)或毫米波雷達(dá)來(lái)幫助他們做呼吸方式、呼吸深度的評(píng)估，從而替代醫(yī)生和護(hù)士，幫助他們?nèi)プ龊粑?xùn)練的指導(dǎo)。目前，我們正在跟廣東省人民醫(yī)院進(jìn)行相關(guān)合作。

除此之外，我們還用聲波做了房顫監(jiān)測(cè)系統(tǒng)，只要放到手上就可以做監(jiān)測(cè)，使用方法上相對(duì)比較容易。想象一下，未來(lái)只要戴著耳機(jī)就可以知道你的呼吸、心跳、壓力狀況，發(fā)出呼吸訓(xùn)練的提醒，還可以順帶放一些音樂(lè)緩解你的壓力。這個(gè)方面目前我們正在做，后續(xù)還有很多需要進(jìn)一步完善的地方。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

除了聲波感知，我們做了一些關(guān)于柔性傳感器的工作。因?yàn)槲覀兊难芯恐饕P(guān)注醫(yī)療健康領(lǐng)域，所以我們嘗試過(guò)把柔性傳感器放在耳朵里做血壓監(jiān)測(cè)，放在手腕上進(jìn)行血壓的監(jiān)測(cè)等等。這一方面我們要解決的核心問(wèn)題是，原來(lái)大多數(shù)的數(shù)據(jù)都是基于光電傳感器和PPG的，如果切換到柔性傳感器它的數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不足的。

這部分的難點(diǎn)主要有兩個(gè)，一方面要實(shí)現(xiàn)跨模態(tài)監(jiān)測(cè)，這一點(diǎn)尤為重要。另一方面，在正常人身上做監(jiān)測(cè)是很容易的，但是在病人身上做檢測(cè)就相對(duì)困難。未來(lái)我們還需要收集更多病人的數(shù)據(jù)來(lái)做相關(guān)工作，仍然有很長(zhǎng)的一段路要走。

數(shù)據(jù)匱乏是毫米波雷達(dá)感知的關(guān)鍵挑戰(zhàn)

最后一部分，我想分享一下關(guān)于毫米波雷達(dá)的感知。

其實(shí)毫米波雷達(dá)我們其實(shí)做了已經(jīng)快10年了，之前也做了很多毫米波雷達(dá)的SLAM，比如針對(duì)材質(zhì)進(jìn)行識(shí)別，是玻璃、石頭還是沙發(fā)？最近我們的關(guān)注點(diǎn)反而不是它的檢測(cè)準(zhǔn)確率了，而是毫米波雷達(dá)的可信感知。之前我們嘗試過(guò)用毫米波雷達(dá)監(jiān)測(cè)人的運(yùn)動(dòng)，可以做到把人的Skeleton畫(huà)出來(lái)、追蹤出來(lái)。

在這個(gè)工作中要解決的核心問(wèn)題是，毫米波雷達(dá)的數(shù)據(jù)很少。但視覺(jué)的數(shù)據(jù)很多的，所以我們?cè)谒伎家绾螌⒁曈X(jué)的數(shù)據(jù)合成毫米波數(shù)據(jù)從而進(jìn)行分析以及后續(xù)的學(xué)習(xí)和訓(xùn)練。在做的過(guò)程中我們發(fā)現(xiàn)，視覺(jué)上的欺騙可能會(huì)影響毫米波雷達(dá)的判斷，所以只能識(shí)別還是遠(yuǎn)遠(yuǎn)不夠的。

舉一個(gè)交通相關(guān)的例子，假如你前面有一輛車，但是旁邊車輛開(kāi)門(mén)造成一個(gè)視覺(jué)上的遮擋，這時(shí)它就會(huì)生成一個(gè)信號(hào)讓你誤以為前面沒(méi)有車，就很容易撞上去。還有一種可能，就是你前面本來(lái)沒(méi)有車，但是它生成一個(gè)信號(hào)讓你誤以為前面有車，這個(gè)時(shí)候剎車就會(huì)導(dǎo)致后車追尾，這些情況都是有可能發(fā)生的。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

那要怎么樣防御這種生成式欺騙呢？后續(xù)我們著重做了一些工作。舉個(gè)例子，我們可以設(shè)置毫米波雷達(dá)發(fā)射出來(lái)的信號(hào)，讓它形成幾個(gè)不同的通路，使得我們?cè)谝粋€(gè)通路下看到的運(yùn)動(dòng)速度距離是A，另外一個(gè)通路下看到的運(yùn)動(dòng)速度距離是B。這樣我們就可以區(qū)分真實(shí)信號(hào)和欺騙信號(hào)。

如今大家進(jìn)到一個(gè)陌生的房間里，會(huì)很關(guān)心屋子里有沒(méi)有攝像頭在進(jìn)行偷拍。也許在未來(lái)，如果房間里有入侵的毫米波雷達(dá)，不需要偷拍就可以感知到房間里的狀況，那我們要如何探測(cè)、發(fā)現(xiàn)、并將它清理出房間呢？這個(gè)相關(guān)研究也是我們后續(xù)要做的。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

最后，我們來(lái)總結(jié)一下聲波毫米波雷達(dá)的發(fā)展歷程。

在初期，我主要做信號(hào)相關(guān)研究。這也與我的專業(yè)背景有關(guān)，我的本科碩士都是電子信息專業(yè)，博士期間跨專業(yè)到計(jì)算機(jī)，于是開(kāi)始做深度學(xué)習(xí)研究。我們最早用的是一些信號(hào)處理的手段。隨著深度學(xué)習(xí)的發(fā)展，我們?cè)缙诘男盘?hào)處理手段已經(jīng)遠(yuǎn)遠(yuǎn)不夠用了，需要在理解物理信號(hào)的基礎(chǔ)上，設(shè)計(jì)針對(duì)物理信號(hào)的模型。

舉個(gè)簡(jiǎn)單例子，毫米波雷達(dá)的信號(hào)是有稀疏性的，會(huì)有天線之間角度的關(guān)聯(lián)性，這種關(guān)聯(lián)性就不能再直接套用傳統(tǒng)的視覺(jué)網(wǎng)絡(luò)。我們需要理解它的物理意義，然后在此基礎(chǔ)上設(shè)計(jì)合理的模型。因此，所以我們慢慢從物理意義做到有物理意義模型。

新型模態(tài)感知會(huì)走向何方？

在將來(lái)，我們的主要工作方向會(huì)集中在以下三個(gè)方面：

首先，繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型。舉個(gè)例子，現(xiàn)在已經(jīng)做出了很多毫米波雷達(dá)模型，但大都是基于生成點(diǎn)云然后在點(diǎn)云上做理解的。但實(shí)際上生成點(diǎn)云這件事本身就已經(jīng)消耗了很多信息，如果可以直接在原有的信息上做理解，用物理意義結(jié)合深度模型來(lái)做模型設(shè)計(jì)，效果將會(huì)更好，這也是我們現(xiàn)在的工作方向。

其次，如何讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解。

最后，近兩年大模型非?；馃?，并且對(duì)各行各業(yè)造成了翻天覆地的變化。我們所做的智能感知領(lǐng)域的物聯(lián)網(wǎng)相關(guān)研究，自然也深受大模型的影響。所以我們也在積極擁抱大模型并做了一些新的工作，比如用大模型自動(dòng)生成代碼來(lái)檢測(cè)物理世界的感知信號(hào)，然后直接給出結(jié)果。

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

未來(lái)，還會(huì)有非常多基于大模型的感知模型生成方面的工作。如今這方面的工作才剛剛開(kāi)始，我相信未來(lái)五到十年就會(huì)非常繁榮的發(fā)展。

總結(jié)一下，面向空間智能、物理世界的多模態(tài)感知需求是極其大的。傳統(tǒng)的感知模式只有寥寥幾類，而未來(lái)我們需要更多的新型感知模式。并且在不同領(lǐng)域需要不同的感知模式，聲波感知、毫米波感知、柔性傳感等新型模態(tài)，會(huì)適用于不同物體的感知并發(fā)揮獨(dú)特優(yōu)勢(shì)。

而我們需要做的，就是理解新型的感知模態(tài)，設(shè)計(jì)新型感知模型，從而更好地利用這些新型感知模態(tài)的信息，更全面的感知這個(gè)物理世界。所以未來(lái)的研究方向?qū)?huì)集中于數(shù)據(jù)理解、數(shù)據(jù)生成等方面，當(dāng)下新型模態(tài)的數(shù)據(jù)量還是很少，如何生成、如何防御、如何更輕量化的跑在端側(cè)等等，這些問(wèn)題亟需我們進(jìn)一步研究。

我的分享就到這里，謝謝。

以下是雷峰網(wǎng)與張進(jìn)教授采訪對(duì)談的精彩內(nèi)容，雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯：

雷峰網(wǎng)：您最初的研究領(lǐng)域電子通信與現(xiàn)在跨度很大，是基于什么樣的契機(jī)開(kāi)始做感知研究？

張進(jìn)：本碩期間我在清華讀的都是電子通信專業(yè)，后來(lái)去了香港科技大學(xué)讀博改學(xué)計(jì)算機(jī)專業(yè)，結(jié)合過(guò)往的學(xué)科背景，博士期間我開(kāi)始研究認(rèn)知無(wú)線電。博士畢業(yè)后我開(kāi)始跟醫(yī)院合作，將無(wú)線信號(hào)技術(shù)應(yīng)用在智慧醫(yī)療中，也是在這期間發(fā)現(xiàn)了信號(hào)也能感知健康狀況。人口老齡化不斷加速發(fā)展的背景，讓我意識(shí)到智慧健康領(lǐng)域的感知需求將會(huì)非常大。

但學(xué)界研究和業(yè)界需求變革始終是相輔相成的，所以在2014年前后我選擇回到學(xué)術(shù)界，繼續(xù)深耕健康檢測(cè)感知技術(shù)。研究過(guò)程中我開(kāi)始關(guān)注到毫米波雷達(dá)在醫(yī)療健康領(lǐng)域的適用性，從2014年至今我一直在南方科技大學(xué)做毫米波雷達(dá)相關(guān)的應(yīng)用研究，并在2018年開(kāi)始同時(shí)做聲波感知的應(yīng)用研究。因此，我經(jīng)常告訴我的學(xué)生，在找工作時(shí)不能只看公司需求的產(chǎn)品跟自己的研究?jī)?nèi)容是否對(duì)號(hào)入座，要用系統(tǒng)性思維去拆分需求找到解決問(wèn)題的突破點(diǎn)，這也是一個(gè)成功的博士應(yīng)該具備的能力。

雷峰網(wǎng)：聲波感知、毫米波雷達(dá)這種新型感知技術(shù)，會(huì)對(duì)普通大眾產(chǎn)生什么主要影響？

張進(jìn)：真正的好技術(shù)是“無(wú)形”和“無(wú)感”的。打個(gè)比方，平時(shí)我們把藍(lán)牙耳機(jī)從充電倉(cāng)里取出來(lái)戴在耳朵上，就能立刻自動(dòng)連接手機(jī)。但如果戴上耳機(jī)之后還需要在手機(jī)上點(diǎn)一下才能開(kāi)始用，那么用戶的體驗(yàn)感就會(huì)大打折扣。所以我們這種新型感知技術(shù)的核心目的，就是幫助設(shè)備理解周圍的環(huán)境，并具備智能感知周圍環(huán)境的能力，從而更加便捷的進(jìn)行人機(jī)交互。

舉個(gè)例子，現(xiàn)在我們跟一些AI智能設(shè)備互動(dòng)時(shí)，還需要拍個(gè)照片或說(shuō)句話才能讓設(shè)備理解我們的目的并執(zhí)行。在未來(lái)，有了更多模態(tài)的智能感知技術(shù)之后，也許我們無(wú)需做任何事，設(shè)備就能自動(dòng)理解周圍環(huán)境并執(zhí)行我們的目的。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))：新型模態(tài)感知技術(shù)在推動(dòng)空間智能發(fā)展中起什么作用？未來(lái)的感知世界會(huì)是什么樣？

王進(jìn)：傳統(tǒng)的AI是通過(guò)視覺(jué)、聽(tīng)覺(jué)、文本等內(nèi)容來(lái)讀取信息認(rèn)識(shí)世界，對(duì)于物理世界中的距離這種概念它是無(wú)法理解的。所以要真想讓空間智能真正的理解物理世界，需要通過(guò)物理傳感來(lái)進(jìn)行空間感知，因此我認(rèn)為新型模態(tài)感知技術(shù)中的聲波感知、毫米波雷達(dá)等物理傳感，在推動(dòng)空間智能的發(fā)展中是必不可少的。

正如剛才所說(shuō)的，真正的好技術(shù)是“無(wú)形”和“無(wú)感”的，在感知這件事情上也是一樣的。新型感知技術(shù)是一個(gè)非常復(fù)雜的領(lǐng)域，它會(huì)針對(duì)不同的場(chǎng)景需求和設(shè)備限制提供不同的技術(shù)支持，聲波感知也好、毫米波雷達(dá)也好，一般來(lái)說(shuō)不會(huì)有一種感知技術(shù)打通一切場(chǎng)景的情況。未來(lái)也許會(huì)是一樣或者幾樣感知技術(shù)結(jié)合起來(lái)，在特定場(chǎng)景中滿足產(chǎn)品的智能化需求。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

胡清文

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

南方科技大學(xué)張進(jìn)教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025