97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給胡清文
發(fā)送

0

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

本文作者: 胡清文   2026-01-08 17:59
導(dǎo)語(yǔ):以聲波毫米波為代表的新型模態(tài)感知,正在重塑空間智能。

12月12日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳正式啟幕。

本次大會(huì)為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導(dǎo)委員會(huì)主席,楊強(qiáng)院士與朱曉蕊教授任大會(huì)主席。

作為觀測(cè)AI技術(shù)演進(jìn)與生態(tài)變遷的重要窗口,GAIR大會(huì)自2016年創(chuàng)辦以來(lái)以來(lái),始終與全球AI發(fā)展的脈搏同頻共振,見(jiàn)證了技術(shù)浪潮從實(shí)驗(yàn)室涌向產(chǎn)業(yè)深海。2025年,是大模型從“技術(shù)破壁”邁向“價(jià)值深耕”的關(guān)鍵節(jié)點(diǎn),值此之際GAIR如期而至,攜手智者觸摸AI最前沿脈動(dòng),洞見(jiàn)產(chǎn)業(yè)深層邏輯。

大會(huì)上,深圳市海外高層次人才、南方科技大學(xué)計(jì)算機(jī)科學(xué)與工程系長(zhǎng)聘副教授張進(jìn)親臨現(xiàn)場(chǎng),為參會(huì)者帶來(lái)了一場(chǎng)精彩紛呈的演講分享。

演講一開(kāi)始,張進(jìn)教授就向“時(shí)空AI”、“具身智能”等當(dāng)下火熱概念率先拋出了自身見(jiàn)解:無(wú)論是具身智能還是智慧健康,都需要對(duì)物理世界進(jìn)行感知理解,并在虛擬世界和物理世界之間建立溝通。因此傳統(tǒng)AI和新型傳感本質(zhì)上是從不同的角度和路徑走到同一個(gè)點(diǎn),最終實(shí)現(xiàn)“殊途同歸”。

基于這一點(diǎn),張進(jìn)教授認(rèn)為傳統(tǒng)AI從語(yǔ)言、文字、視覺(jué)等模態(tài)出發(fā),生成世界模型探索空間智能。而傳感器、智能物聯(lián)網(wǎng)相關(guān)領(lǐng)域的學(xué)者們一直以來(lái)在做的,同樣是為了準(zhǔn)確感知物理世界。只不過(guò)感知方式從信號(hào)處理迭代到機(jī)器學(xué)習(xí)、深度學(xué)習(xí),再到如今通過(guò)大模型實(shí)現(xiàn)面向空間智能的多模態(tài)感知。

關(guān)于面向空間智能的新型模態(tài)感知,張進(jìn)教授和她的團(tuán)隊(duì)有一些新想法:

1、當(dāng)下的多模態(tài)感知大部分集中在語(yǔ)音、文字、圖像、視頻等形式,存在功耗成本高、隱私性差等問(wèn)題,我們希望引入更多的新型模態(tài)感知如聲波感知、毫米波雷達(dá)感知。

2、聲波感知成本低、計(jì)算量低,能通過(guò)對(duì)多個(gè)設(shè)備對(duì)之間的聲波感知,判斷它的方向和距離,未來(lái)這項(xiàng)技術(shù)有望作為提供連接和方向感知的基礎(chǔ)設(shè)施。

3、聲波感知在醫(yī)療健康領(lǐng)域大有可為,在未來(lái)也許利用小小一副耳機(jī)就能實(shí)現(xiàn)心跳、血壓、肺功能健康全鏈路監(jiān)測(cè)。但如何實(shí)現(xiàn)跨模態(tài)檢測(cè)、消除個(gè)體差異性影響,仍是一項(xiàng)巨大挑戰(zhàn)。

4、如今我們對(duì)毫米波雷達(dá)的關(guān)注點(diǎn)由檢測(cè)準(zhǔn)確率轉(zhuǎn)向可信感知,正在思考要如何將視覺(jué)的數(shù)據(jù)合成毫米波數(shù)據(jù)。

5、接下來(lái)我們的主要工作方向有個(gè):繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型、讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解,用大模型自動(dòng)生成代碼來(lái)檢測(cè)物理世界的感知信號(hào)。

6、在將來(lái),面向空間智能、物理世界的多模態(tài)感知需求會(huì)極其大,需要更多像聲波感知、毫米波雷達(dá)一樣的新型感知模態(tài)在不同場(chǎng)景并發(fā)揮獨(dú)特優(yōu)勢(shì)。

7、當(dāng)下新型模態(tài)的數(shù)據(jù)量還是很少,所以未來(lái)的研究方向?qū)?huì)集中于數(shù)據(jù)理解、數(shù)據(jù)生成等方面。如何生成、如何防御、如何更輕量化的跑在端側(cè)等等,這些問(wèn)題亟需進(jìn)一步研究。

以下是張進(jìn)教授演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:

聲波感知也好,毫米波也罷,都是為了感知物理世界獲取空間智能,所以今天我要講的是面向空間智能的新型模態(tài)感知。

眾所周知,上個(gè)月李飛飛院士剛剛提出空間智能是AI的下一個(gè)前沿。深圳的反應(yīng)非常迅速,在上個(gè)月底發(fā)布的《深圳市“人工智能+”(征求意見(jiàn)稿)》當(dāng)中就把空間智能模型寫(xiě)進(jìn)去了。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

實(shí)際上無(wú)論是現(xiàn)在的具身智能、無(wú)人機(jī)、智慧健康,都是用來(lái)認(rèn)識(shí)和了解物理世界的,只不過(guò)大家是從不同的渠道、不同的方向走到了共同的點(diǎn)上,所以我管它叫殊途同歸。

為什么說(shuō)是殊途同歸?

傳統(tǒng)AI從語(yǔ)言、文字、視覺(jué)等模態(tài)出發(fā),生成世界模型,探索空間智能。但回過(guò)頭看,二十年前我們?cè)跓o(wú)線通信和無(wú)線網(wǎng)絡(luò)的研究中,就已經(jīng)開(kāi)始做無(wú)線傳感器網(wǎng)絡(luò)了:把所有的傳感器放到山里、放到河里、甚至空中去進(jìn)行監(jiān)測(cè)。

再往前追溯十年,數(shù)字孿生、城市建筑、交通等等都是為了準(zhǔn)確的感知物理世界。包括現(xiàn)在我們利用WiFi、手機(jī)信號(hào)做感知,從有線發(fā)展到無(wú)線,這些都是我們?cè)谠噲D感知物理世界的方式。

那么我們是如何做到殊途同歸的呢?

最初我們是用信號(hào)處理來(lái)完成這件事情,后來(lái)我們可以用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)來(lái)理解物理信息,現(xiàn)在我們可以用大模型理解傳統(tǒng)傳感器的信號(hào),從而得到更多的信息,也為我們帶來(lái)面向空間智能的多模態(tài)感知。

但說(shuō)實(shí)話,現(xiàn)在所謂的多模態(tài)感知,都還是集中在語(yǔ)音、文字、圖像、視頻,真正新型的并不多。像激光雷達(dá)、點(diǎn)云、深度攝像頭、紅外,稍微有一點(diǎn)與傳統(tǒng)的結(jié)合。我們希望能夠引入更多的模態(tài),比如聲波感知、毫米波雷達(dá)感知。

聲波感知有哪些最新探索?

毫米波雷達(dá)感知目前已經(jīng)有一些應(yīng)用了,但聲波感知的應(yīng)用目前較少。更重要的是,為了更好地理解這些新型模態(tài),我們需要用更新的網(wǎng)絡(luò)更好地理解它,所以這也是我們整個(gè)正在團(tuán)隊(duì)做的事情,就是希望用這些最新的模型技術(shù),來(lái)理解一些新型的傳感器數(shù)據(jù)。

為什么需要這些新型的傳感器數(shù)據(jù)?這個(gè)事情非常好理解。已有的視覺(jué)傳感器復(fù)雜度高、依賴光照,還有隱私問(wèn)題。如果要在小機(jī)器人上加一個(gè)攝像頭,甚至加一個(gè)處理視覺(jué)數(shù)據(jù)的芯片,它的功耗和成本都是不容小覷的。那么能不能用更便宜、更好的方式來(lái)做感知呢?

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

基于此,我們最近幾年都在研究聲波感知。我們所有的設(shè)備,例如手機(jī)、智能眼鏡、耳機(jī)、智能音箱等,全都帶有揚(yáng)聲器和麥克風(fēng)。無(wú)需要借助額外設(shè)備,只要讓它們用揚(yáng)聲器、麥克風(fēng)發(fā)出一個(gè)人聽(tīng)不到的聲音,將這個(gè)聲音打在環(huán)境中再返回來(lái),就能夠像蝙蝠一樣感知到周邊的狀況。這種感知方法成本低、計(jì)算量低,非常適合機(jī)器人應(yīng)用。

具體來(lái)看它有哪些應(yīng)用呢?例如華為汽車,它在車內(nèi)的定位已經(jīng)試圖在做這件事了。以及在筆記本電腦上,已經(jīng)可以用手來(lái)翻頁(yè)了,這個(gè)動(dòng)作并不是靠攝像頭來(lái)完成,而是通過(guò)聲波完成的。還有很多應(yīng)用,包括智能眼鏡和耳機(jī)等設(shè)備上的應(yīng)用。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

最早的時(shí)候我們還沒(méi)有用聲波模型,只是理解信號(hào),用兩個(gè)很小、距離很近的兩個(gè)揚(yáng)聲器,發(fā)一些特殊的旋轉(zhuǎn)聲場(chǎng)的信號(hào),就可以做到很精準(zhǔn)的厘米級(jí)的位置感知,這是需要依賴設(shè)備的,在設(shè)備和設(shè)備之間做定位的時(shí)候這一點(diǎn)就非常重要。

除了2D的感知,我們還可以做3D的運(yùn)動(dòng)追蹤。其實(shí)兩個(gè)設(shè)備之間去做聲波感知,并非一件容易的事,多設(shè)備之間的聲波感知就更為復(fù)雜了。在這個(gè)過(guò)程中要面臨很多的沖突,要怎么去解決這些沖突呢?近幾年我們?cè)诟鷺s耀、華為等智能設(shè)備廠商合作解決這個(gè)問(wèn)題,通過(guò)多個(gè)設(shè)備對(duì)之間的感知,判斷它的方向和距離。未來(lái),這項(xiàng)技術(shù)有望放到華為OpenHarmony系統(tǒng)中,作為提供連接以及方向感知的基礎(chǔ)設(shè)施。

除此之外,我們還在智能交互方面做了很大一部分工作。我們花了很多的精力做智能眼鏡的交互,希望能夠用聲波感知人眼上下左右的表情。比如只需要眨個(gè)眼、擠個(gè)眉,就可以控制眼鏡的操作。本質(zhì)其實(shí)也是speaker發(fā)出聲音,打到麥克風(fēng)上從而做交互,實(shí)現(xiàn)無(wú)需抬手僅用眼球就可以控制智能眼鏡。

緊接著,我們還做了不少的東西。如果你現(xiàn)在的智能眼鏡前面有十幾個(gè)圖標(biāo),在點(diǎn)擊圖標(biāo)的時(shí)候你需要用手滑動(dòng)它,看到需要點(diǎn)的位置。因此,我們做了一個(gè)面部的傳感器,它只需要發(fā)出一個(gè)稍微高一點(diǎn)的次聲波,就可以非常便捷地進(jìn)行感知,包括觸摸、滑動(dòng)等等。未來(lái),這種傳感器如果可以集成在眼鏡上,外觀上可以做到基本隱形。

除此之外,我們還做了隔空的手勢(shì)識(shí)別。比如華為的智能眼鏡,在旁邊有一個(gè)觸控板,只要觸碰到就可以感覺(jué)到眼鏡在動(dòng)造成不適感。那么能不能隔空控制它呢?這個(gè)技術(shù)挑戰(zhàn)還是蠻高的。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

目前,我們有兩種技術(shù):一種是被動(dòng)感知的技術(shù),手在滑動(dòng)產(chǎn)生了微弱的聲音,讓麥克風(fēng)聽(tīng)到。另一種是主動(dòng)感知的技術(shù),speaker要發(fā)一個(gè)人聽(tīng)不到的聲音,彈回來(lái)然后感知它,無(wú)論如何都是隔空手勢(shì)的感知。

除了在智能眼鏡上做交互之外,我們還發(fā)現(xiàn)了很多痛點(diǎn)。例如現(xiàn)在幾乎人手一個(gè)藍(lán)牙耳機(jī),但是目前對(duì)耳機(jī)做交互主要還是靠摸,摸它的柄上下不同的位置。尤其是很好的耳機(jī),輕輕一摸聲音的增減幅度就很大,現(xiàn)在我們希望不觸摸它,就可以讓耳機(jī)實(shí)現(xiàn)感知。

我們首先做的是,讓舌頭頂上顎的不同位置,來(lái)告訴耳機(jī)現(xiàn)在希望它進(jìn)行什么樣的操作,這個(gè)構(gòu)想我們最早是從助聽(tīng)器上得到的。助聽(tīng)器具備一個(gè)很重要的特點(diǎn),就是需要區(qū)分聲音的方向,不光要選擇聲音的強(qiáng)弱,而且還要選擇聲音的方向,并且使用者一般不希望別人知道他戴著這個(gè)東西。

因此,我們受了助聽(tīng)器的啟發(fā),在藍(lán)牙耳機(jī)上安裝了隔空隱蔽式傳感器,用舌頭就可以控制耳機(jī)。它的原理其實(shí)很簡(jiǎn)單,因?yàn)槎?、上顎和口腔是連通的,耳道發(fā)一個(gè)聲音,打到口腔內(nèi)再返回去,舌頭不同的位置會(huì)使信道產(chǎn)生明顯的變化。通過(guò)感知信道的變化,就可以實(shí)現(xiàn)隔空隱蔽,這也是今年人機(jī)交互頂會(huì)上的一份工作。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

除了用舌頭來(lái)控制耳機(jī)之外,接下來(lái)我們還做了隔空手勢(shì)控制耳機(jī)。這個(gè)部分其實(shí)有非常多的挑戰(zhàn),包括怎樣設(shè)置這個(gè)手勢(shì)?怎樣防止周圍環(huán)境的干擾?選用什么樣的信號(hào)?看起來(lái)是蠻小的系統(tǒng),但這里面的技術(shù)挑戰(zhàn)還是很多的。在交互上,我們前前后后也做了不少的工作。有一些消費(fèi)電子類廠商對(duì)我們正在做的這些研究很感興趣,所以我們現(xiàn)在也在做進(jìn)一步的落地工作。

另一方面,我們想稍微聊一下聲波感知在健康方面的應(yīng)用。實(shí)際上用聲波感知做健康的監(jiān)測(cè),這項(xiàng)研究我們已經(jīng)做了十多年。在此之前,我們已經(jīng)做了快20年遠(yuǎn)程健康監(jiān)測(cè)。

我們現(xiàn)在想做的事情是,用聲波感知最基本的呼吸、心跳。打個(gè)比方,就是把手機(jī)放在桌子前面,就可以看你的呼吸、心跳,這部分現(xiàn)在已經(jīng)做得非常成熟了。 而我們現(xiàn)在做的事情是,拿耳機(jī)觀測(cè)你的肺功能。

在中國(guó),有非常多的慢阻肺人群,以及哮喘病人需要定期到醫(yī)院做肺功能的監(jiān)測(cè),有時(shí)候他不想去,就沒(méi)辦法知道自己病情的發(fā)展。如果我們?cè)诩依锎髦鷻C(jī),就可以得出跟醫(yī)院幾十萬(wàn)的監(jiān)測(cè)設(shè)備類似的肺功能曲線結(jié)果,這對(duì)用戶來(lái)說(shuō)將是一件非常利好的事情。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

為此,我們做了兩方面的工作:第一份工作,用耳機(jī)作肺功能監(jiān)測(cè),但是還需要吹一個(gè)很長(zhǎng)的管子。第二份工作即今年的研究,現(xiàn)在用耳機(jī)做肺功能檢測(cè)已經(jīng)不需要管子了,通過(guò)正常說(shuō)話就可以判斷肺功能的情況。

在做完這件事情之后,醫(yī)生告訴我們光知道他們的情況是沒(méi)用的,對(duì)醫(yī)學(xué)來(lái)說(shuō),技術(shù)手段不光要監(jiān)測(cè)出狀況,最重要的就是要形成閉環(huán),還需要返回來(lái)幫助他們進(jìn)行康復(fù)或治療。

那么要如何在呼吸系統(tǒng)疾病上幫助他做治療呢?醫(yī)生告訴我們,肺部訓(xùn)練是一個(gè)很常用的辦法,可以每天做幾十次的腹式呼吸訓(xùn)練。

但是病人一回家就發(fā)現(xiàn),雖然一開(kāi)始做的是腹式呼吸,但做了不到2個(gè)就又變成胸式呼吸了。所以我們想到可以用聲學(xué)攝像機(jī)或毫米波雷達(dá)來(lái)幫助他們做呼吸方式、呼吸深度的評(píng)估,從而替代醫(yī)生和護(hù)士,幫助他們?nèi)プ龊粑?xùn)練的指導(dǎo)。目前,我們正在跟廣東省人民醫(yī)院進(jìn)行相關(guān)合作。

除此之外,我們還用聲波做了房顫監(jiān)測(cè)系統(tǒng),只要放到手上就可以做監(jiān)測(cè),使用方法上相對(duì)比較容易。想象一下,未來(lái)只要戴著耳機(jī)就可以知道你的呼吸、心跳、壓力狀況,發(fā)出呼吸訓(xùn)練的提醒,還可以順帶放一些音樂(lè)緩解你的壓力。這個(gè)方面目前我們正在做,后續(xù)還有很多需要進(jìn)一步完善的地方。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

除了聲波感知,我們做了一些關(guān)于柔性傳感器的工作。因?yàn)槲覀兊难芯恐饕P(guān)注醫(yī)療健康領(lǐng)域,所以我們嘗試過(guò)把柔性傳感器放在耳朵里做血壓監(jiān)測(cè),放在手腕上進(jìn)行血壓的監(jiān)測(cè)等等。這一方面我們要解決的核心問(wèn)題是,原來(lái)大多數(shù)的數(shù)據(jù)都是基于光電傳感器和PPG的,如果切換到柔性傳感器它的數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不足的。

這部分的難點(diǎn)主要有兩個(gè),一方面要實(shí)現(xiàn)跨模態(tài)監(jiān)測(cè),這一點(diǎn)尤為重要。另一方面,在正常人身上做監(jiān)測(cè)是很容易的,但是在病人身上做檢測(cè)就相對(duì)困難。未來(lái)我們還需要收集更多病人的數(shù)據(jù)來(lái)做相關(guān)工作,仍然有很長(zhǎng)的一段路要走。

數(shù)據(jù)匱乏是毫米波雷達(dá)感知的關(guān)鍵挑戰(zhàn)

最后一部分,我想分享一下關(guān)于毫米波雷達(dá)的感知。

其實(shí)毫米波雷達(dá)我們其實(shí)做了已經(jīng)快10年了,之前也做了很多毫米波雷達(dá)的SLAM,比如針對(duì)材質(zhì)進(jìn)行識(shí)別,是玻璃、石頭還是沙發(fā)?最近我們的關(guān)注點(diǎn)反而不是它的檢測(cè)準(zhǔn)確率了,而是毫米波雷達(dá)的可信感知。之前我們嘗試過(guò)用毫米波雷達(dá)監(jiān)測(cè)人的運(yùn)動(dòng),可以做到把人的Skeleton畫(huà)出來(lái)、追蹤出來(lái)。

在這個(gè)工作中要解決的核心問(wèn)題是,毫米波雷達(dá)的數(shù)據(jù)很少。但視覺(jué)的數(shù)據(jù)很多的,所以我們?cè)谒伎家绾螌⒁曈X(jué)的數(shù)據(jù)合成毫米波數(shù)據(jù)從而進(jìn)行分析以及后續(xù)的學(xué)習(xí)和訓(xùn)練。在做的過(guò)程中我們發(fā)現(xiàn),視覺(jué)上的欺騙可能會(huì)影響毫米波雷達(dá)的判斷,所以只能識(shí)別還是遠(yuǎn)遠(yuǎn)不夠的。

舉一個(gè)交通相關(guān)的例子,假如你前面有一輛車,但是旁邊車輛開(kāi)門(mén)造成一個(gè)視覺(jué)上的遮擋,這時(shí)它就會(huì)生成一個(gè)信號(hào)讓你誤以為前面沒(méi)有車,就很容易撞上去。還有一種可能,就是你前面本來(lái)沒(méi)有車,但是它生成一個(gè)信號(hào)讓你誤以為前面有車,這個(gè)時(shí)候剎車就會(huì)導(dǎo)致后車追尾,這些情況都是有可能發(fā)生的。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

那要怎么樣防御這種生成式欺騙呢?后續(xù)我們著重做了一些工作。舉個(gè)例子,我們可以設(shè)置毫米波雷達(dá)發(fā)射出來(lái)的信號(hào),讓它形成幾個(gè)不同的通路,使得我們?cè)谝粋€(gè)通路下看到的運(yùn)動(dòng)速度距離是A,另外一個(gè)通路下看到的運(yùn)動(dòng)速度距離是B。這樣我們就可以區(qū)分真實(shí)信號(hào)和欺騙信號(hào)。

如今大家進(jìn)到一個(gè)陌生的房間里,會(huì)很關(guān)心屋子里有沒(méi)有攝像頭在進(jìn)行偷拍。也許在未來(lái),如果房間里有入侵的毫米波雷達(dá),不需要偷拍就可以感知到房間里的狀況,那我們要如何探測(cè)、發(fā)現(xiàn)、并將它清理出房間呢?這個(gè)相關(guān)研究也是我們后續(xù)要做的。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

最后,我們來(lái)總結(jié)一下聲波毫米波雷達(dá)的發(fā)展歷程。

在初期,我主要做信號(hào)相關(guān)研究。這也與我的專業(yè)背景有關(guān),我的本科碩士都是電子信息專業(yè),博士期間跨專業(yè)到計(jì)算機(jī),于是開(kāi)始做深度學(xué)習(xí)研究。我們最早用的是一些信號(hào)處理的手段。隨著深度學(xué)習(xí)的發(fā)展,我們?cè)缙诘男盘?hào)處理手段已經(jīng)遠(yuǎn)遠(yuǎn)不夠用了,需要在理解物理信號(hào)的基礎(chǔ)上,設(shè)計(jì)針對(duì)物理信號(hào)的模型。

舉個(gè)簡(jiǎn)單例子,毫米波雷達(dá)的信號(hào)是有稀疏性的,會(huì)有天線之間角度的關(guān)聯(lián)性,這種關(guān)聯(lián)性就不能再直接套用傳統(tǒng)的視覺(jué)網(wǎng)絡(luò)。我們需要理解它的物理意義,然后在此基礎(chǔ)上設(shè)計(jì)合理的模型。因此,所以我們慢慢從物理意義做到有物理意義模型。

新型模態(tài)感知會(huì)走向何方?

在將來(lái),我們的主要工作方向會(huì)集中在以下三個(gè)方面:

首先,繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型。舉個(gè)例子,現(xiàn)在已經(jīng)做出了很多毫米波雷達(dá)模型,但大都是基于生成點(diǎn)云然后在點(diǎn)云上做理解的。但實(shí)際上生成點(diǎn)云這件事本身就已經(jīng)消耗了很多信息,如果可以直接在原有的信息上做理解,用物理意義結(jié)合深度模型來(lái)做模型設(shè)計(jì),效果將會(huì)更好,這也是我們現(xiàn)在的工作方向。

其次,如何讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解。

最后,近兩年大模型非?;馃?,并且對(duì)各行各業(yè)造成了翻天覆地的變化。我們所做的智能感知領(lǐng)域的物聯(lián)網(wǎng)相關(guān)研究,自然也深受大模型的影響。所以我們也在積極擁抱大模型并做了一些新的工作,比如用大模型自動(dòng)生成代碼來(lái)檢測(cè)物理世界的感知信號(hào),然后直接給出結(jié)果。

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

未來(lái),還會(huì)有非常多基于大模型的感知模型生成方面的工作。如今這方面的工作才剛剛開(kāi)始,我相信未來(lái)五到十年就會(huì)非常繁榮的發(fā)展。

總結(jié)一下,面向空間智能、物理世界的多模態(tài)感知需求是極其大的。傳統(tǒng)的感知模式只有寥寥幾類,而未來(lái)我們需要更多的新型感知模式。并且在不同領(lǐng)域需要不同的感知模式,聲波感知、毫米波感知、柔性傳感等新型模態(tài),會(huì)適用于不同物體的感知并發(fā)揮獨(dú)特優(yōu)勢(shì)。

而我們需要做的,就是理解新型的感知模態(tài),設(shè)計(jì)新型感知模型,從而更好地利用這些新型感知模態(tài)的信息,更全面的感知這個(gè)物理世界。所以未來(lái)的研究方向?qū)?huì)集中于數(shù)據(jù)理解、數(shù)據(jù)生成等方面,當(dāng)下新型模態(tài)的數(shù)據(jù)量還是很少,如何生成、如何防御、如何更輕量化的跑在端側(cè)等等,這些問(wèn)題亟需我們進(jìn)一步研究。

我的分享就到這里,謝謝。

以下是雷峰網(wǎng)與張進(jìn)教授采訪對(duì)談的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:

雷峰網(wǎng):您最初的研究領(lǐng)域電子通信與現(xiàn)在跨度很大,是基于什么樣的契機(jī)開(kāi)始做感知研究?

張進(jìn):本碩期間我在清華讀的都是電子通信專業(yè),后來(lái)去了香港科技大學(xué)讀博改學(xué)計(jì)算機(jī)專業(yè),結(jié)合過(guò)往的學(xué)科背景,博士期間我開(kāi)始研究認(rèn)知無(wú)線電。博士畢業(yè)后我開(kāi)始跟醫(yī)院合作,將無(wú)線信號(hào)技術(shù)應(yīng)用在智慧醫(yī)療中,也是在這期間發(fā)現(xiàn)了信號(hào)也能感知健康狀況。人口老齡化不斷加速發(fā)展的背景,讓我意識(shí)到智慧健康領(lǐng)域的感知需求將會(huì)非常大。

但學(xué)界研究和業(yè)界需求變革始終是相輔相成的,所以在2014年前后我選擇回到學(xué)術(shù)界,繼續(xù)深耕健康檢測(cè)感知技術(shù)。研究過(guò)程中我開(kāi)始關(guān)注到毫米波雷達(dá)在醫(yī)療健康領(lǐng)域的適用性,從2014年至今我一直在南方科技大學(xué)做毫米波雷達(dá)相關(guān)的應(yīng)用研究,并在2018年開(kāi)始同時(shí)做聲波感知的應(yīng)用研究。因此,我經(jīng)常告訴我的學(xué)生,在找工作時(shí)不能只看公司需求的產(chǎn)品跟自己的研究?jī)?nèi)容是否對(duì)號(hào)入座,要用系統(tǒng)性思維去拆分需求找到解決問(wèn)題的突破點(diǎn),這也是一個(gè)成功的博士應(yīng)該具備的能力。

雷峰網(wǎng):聲波感知、毫米波雷達(dá)這種新型感知技術(shù),會(huì)對(duì)普通大眾產(chǎn)生什么主要影響?

張進(jìn):真正的好技術(shù)是“無(wú)形”和“無(wú)感”的。打個(gè)比方,平時(shí)我們把藍(lán)牙耳機(jī)從充電倉(cāng)里取出來(lái)戴在耳朵上,就能立刻自動(dòng)連接手機(jī)。但如果戴上耳機(jī)之后還需要在手機(jī)上點(diǎn)一下才能開(kāi)始用,那么用戶的體驗(yàn)感就會(huì)大打折扣。所以我們這種新型感知技術(shù)的核心目的,就是幫助設(shè)備理解周圍的環(huán)境,并具備智能感知周圍環(huán)境的能力,從而更加便捷的進(jìn)行人機(jī)交互。

舉個(gè)例子,現(xiàn)在我們跟一些AI智能設(shè)備互動(dòng)時(shí),還需要拍個(gè)照片或說(shuō)句話才能讓設(shè)備理解我們的目的并執(zhí)行。在未來(lái),有了更多模態(tài)的智能感知技術(shù)之后,也許我們無(wú)需做任何事,設(shè)備就能自動(dòng)理解周圍環(huán)境并執(zhí)行我們的目的。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):新型模態(tài)感知技術(shù)在推動(dòng)空間智能發(fā)展中起什么作用?未來(lái)的感知世界會(huì)是什么樣?

王進(jìn):傳統(tǒng)的AI是通過(guò)視覺(jué)、聽(tīng)覺(jué)、文本等內(nèi)容來(lái)讀取信息認(rèn)識(shí)世界,對(duì)于物理世界中的距離這種概念它是無(wú)法理解的。所以要真想讓空間智能真正的理解物理世界,需要通過(guò)物理傳感來(lái)進(jìn)行空間感知,因此我認(rèn)為新型模態(tài)感知技術(shù)中的聲波感知、毫米波雷達(dá)等物理傳感,在推動(dòng)空間智能的發(fā)展中是必不可少的。

正如剛才所說(shuō)的,真正的好技術(shù)是“無(wú)形”和“無(wú)感”的,在感知這件事情上也是一樣的。新型感知技術(shù)是一個(gè)非常復(fù)雜的領(lǐng)域,它會(huì)針對(duì)不同的場(chǎng)景需求和設(shè)備限制提供不同的技術(shù)支持,聲波感知也好、毫米波雷達(dá)也好,一般來(lái)說(shuō)不會(huì)有一種感知技術(shù)打通一切場(chǎng)景的情況。未來(lái)也許會(huì)是一樣或者幾樣感知技術(shù)結(jié)合起來(lái),在特定場(chǎng)景中滿足產(chǎn)品的智能化需求。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

南方科技大學(xué)張進(jìn)教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

分享:
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
大化| 永嘉县| 罗甸县| 扶风县| 盐边县| 潢川县| 财经| 丹寨县| 通州市| 开江县| 台山市| 北安市| 汝阳县| 资中县| 锦屏县| 瑞安市| 商都县| 宣恩县| 固始县| 孟连| 普安县| 正镶白旗| 马公市| 太湖县| 丹凤县| 江都市| 平和县| 金乡县| 滨州市| 乐陵市| 老河口市| 吉林省| 搜索| 岳西县| 泰顺县| 盐城市| 黑河市| 永登县| 内江市| 新安县| 睢宁县|