0
| 本文作者: 新智駕 | 2026-04-21 21:35 | 專題:理想:All in AI重新定義自己 |
2025年5月,理想在一場(chǎng)內(nèi)部活動(dòng)上展示了一段視頻。視頻中,一輛理想L9駛?cè)胍粋€(gè)從未到過的路口,前方是臨時(shí)搭建的施工區(qū)域,路面上沒有標(biāo)線,兩側(cè)擺放著反光錐,一個(gè)工人正在指揮交通。車輛沒有慌張,減速后向左變道,繞過施工區(qū)域,重新匯入車流。
這段視頻之所以讓現(xiàn)場(chǎng)的工程師們興奮,不是因?yàn)樽兊辣旧怼魏我慌_(tái)搭載高階智駕的車都能做到。真正讓他們興奮的是這輛車變道的原因:它"理解"了施工區(qū)域的語(yǔ)義,而不僅僅是"檢測(cè)"到了反光錐的位置。
這就是VLA(Vision-Language-Action,視覺-語(yǔ)言-動(dòng)作)和傳統(tǒng)端到端的根本區(qū)別。傳統(tǒng)端到端的做法是"行為克隆"——用海量人類駕駛數(shù)據(jù)訓(xùn)練模型,讓AI照搬人類的操作??吹椒垂忮F就剎車,看到標(biāo)線就跟隨,這本質(zhì)上是一種高級(jí)的模仿。VLA的做法是讓AI先"理解"場(chǎng)景,再通過推理做出決策。它不是一個(gè)被動(dòng)的復(fù)制者,而是一個(gè)主動(dòng)的思考者。
兩者的差距在Corner Case中會(huì)被無(wú)限放大。傳統(tǒng)端到端模型面對(duì)從未見過的場(chǎng)景時(shí),要么"亂來(lái)"——做出明顯錯(cuò)誤的決策,要么"罷工"——退出智駕把控制權(quán)交給人類。因?yàn)樗臎Q策依據(jù)是"歷史數(shù)據(jù)中有沒有見過類似的",沒見過就沒有答案。VLA模型面對(duì)同樣場(chǎng)景時(shí),會(huì)先在內(nèi)部完成一輪語(yǔ)義推理:"前方有施工區(qū)域→有工人在指揮→通行空間變窄→需要減速并尋找安全的繞行路線→左側(cè)車道空曠→執(zhí)行左變道"。這個(gè)推理鏈條雖然不一定每次都對(duì),但至少提供了一種超越"經(jīng)驗(yàn)匹配"的決策機(jī)制。
2026年3月,理想自動(dòng)駕駛基座模型負(fù)責(zé)人詹錕在NVIDIA GTC 2026上發(fā)布了下一代模型MindVLA-o1,把這個(gè)理念推到了新高度。訓(xùn)練成本降低約75%,引入預(yù)測(cè)式隱世界模型,原生多模態(tài)MoE架構(gòu)——這些技術(shù)術(shù)語(yǔ)背后的核心敘事是:理想正在把自動(dòng)駕駛從"參數(shù)競(jìng)賽"拉入"認(rèn)知競(jìng)賽"。
VLA不是憑空冒出來(lái)的,它是理想在自動(dòng)駕駛技術(shù)路線上持續(xù)迭代的第四代產(chǎn)物。
回看這四年,理想的智駕路線走了一個(gè)清晰的"由淺入深"的路徑。2023年及之前,理想的主力是NPN先驗(yàn)網(wǎng)絡(luò),核心任務(wù)是在已建圖的城市中建立穩(wěn)定的感知能力。這個(gè)階段的技術(shù)底子是高精地圖——車知道自己的精確位置,也知道周圍的精確路況,導(dǎo)航更像是在執(zhí)行一條預(yù)設(shè)好的軌道。這個(gè)方案在高速和快速路上表現(xiàn)良好,但在城市復(fù)雜路口、臨時(shí)施工區(qū)域等高變化場(chǎng)景中就捉襟見肘了。
2024年,理想開始推進(jìn)"無(wú)圖化"——擺脫對(duì)高精地圖的依賴,用車載傳感器實(shí)時(shí)感知環(huán)境。這個(gè)轉(zhuǎn)變的代價(jià)是研發(fā)投入的激增,但收益是場(chǎng)景覆蓋能力的質(zhì)變:不再受限于地圖覆蓋范圍,理論上"車能開到哪里,智駕就能用到哪里"。2024年底,理想無(wú)圖NOA在全國(guó)361個(gè)城市落地,覆蓋了絕大多數(shù)城市道路。
2025年初,端到端+VLM的方案接棒。VLM(視覺語(yǔ)言模型)的引入是一個(gè)轉(zhuǎn)折點(diǎn)——它讓智駕系統(tǒng)第一次有了"語(yǔ)義理解"的能力,不再只是處理像素和點(diǎn)云,而是能理解"前方有交警在指揮交通""這里是學(xué)校區(qū)域""右側(cè)車道在施工"這類需要語(yǔ)言推理的場(chǎng)景。
2025年5月至今,VLA司機(jī)大模型成為主軸。它在VLM的基礎(chǔ)上進(jìn)一步打通了"理解"到"行動(dòng)"的鏈路——不僅理解場(chǎng)景,還直接生成駕駛動(dòng)作序列。用戶通過VLA指令與智駕系統(tǒng)自然語(yǔ)言交互,比如"跟著前車走""變到左側(cè)車道",系統(tǒng)理解語(yǔ)義后直接執(zhí)行。這個(gè)交互方式的改變讓用戶對(duì)智駕的信任感大幅提升——月使用率從端到端時(shí)期的不足50%躍升至80%,全年VLA指令累計(jì)使用超過1225萬(wàn)次。
這四步走的每一步都不是顛覆式的,而是在前一步的基礎(chǔ)上疊加新能力。但四步疊加之后,理想智駕系統(tǒng)的"能力模型"已經(jīng)發(fā)生了質(zhì)變——從"在高精地圖上跑"到"實(shí)時(shí)感知世界"再到"理解世界語(yǔ)義"最后到"像人一樣思考和決策"。每一步的幅度不大,但方向從未改變。
MindVLA-o1不是一個(gè)單獨(dú)的模型,而是一個(gè)由四個(gè)模塊組成的完整系統(tǒng)。理想的技術(shù)團(tuán)隊(duì)把它描述為"AI閉環(huán)"——數(shù)據(jù)進(jìn)入、模型訓(xùn)練、仿真驗(yàn)證、強(qiáng)化學(xué)習(xí)、再回到車端部署,每個(gè)環(huán)節(jié)都在為下一個(gè)環(huán)節(jié)提供更好的輸入。
第一個(gè)模塊是MindData,數(shù)據(jù)引擎。 數(shù)據(jù)是VLA的燃料,而理想在數(shù)據(jù)方面的積累正在加速。2025年春節(jié)期間輔助駕駛總里程達(dá)2.5億公里,VLA指令使用130.3萬(wàn)次。全年累計(jì)VLA指令使用1225.4萬(wàn)次,月使用率達(dá)到80%。這些真實(shí)駕駛行為產(chǎn)生的數(shù)據(jù),比任何仿真都更有價(jià)值——因?yàn)樗鼈儼巳祟愸{駛員面對(duì)復(fù)雜場(chǎng)景時(shí)的真實(shí)決策邏輯。
但數(shù)據(jù)質(zhì)量比數(shù)量更重要。理想沒有公開詳細(xì)的數(shù)據(jù)清洗流程,但從行業(yè)經(jīng)驗(yàn)看,VLA模型需要的是"有信息量的數(shù)據(jù)"——高速公路上300公里的勻速巡航對(duì)模型訓(xùn)練幾乎沒有幫助,而一個(gè)包含突然變道、行人橫穿、施工繞行的5分鐘城市通勤片段,可能抵得上300公里的高速數(shù)據(jù)。如何從海量原始數(shù)據(jù)中高效地篩選出"有信息量"的片段,是數(shù)據(jù)引擎的核心能力。
第二個(gè)模塊是MindVLA-o1本身,核心模型。 它的技術(shù)架構(gòu)圍繞五個(gè)維度展開。感知層用3D ViT Encoder作為"眼睛",激光雷達(dá)的點(diǎn)云數(shù)據(jù)作為三維幾何的提示信號(hào),讓模型既能"看到"圖像又能"理解"空間關(guān)系。思考層在傳統(tǒng)語(yǔ)言模型的基礎(chǔ)上引入了"預(yù)測(cè)式隱世界模型"——這個(gè)概念可以理解為AI的"預(yù)演系統(tǒng)"。就像人類駕駛員變道之前會(huì)下意識(shí)判斷旁邊車輛的速度和距離一樣,VLA會(huì)在隱空間中模擬未來(lái)多種可能性,選擇最優(yōu)的行動(dòng)方案。
執(zhí)行層的技術(shù)細(xì)節(jié)更值得深挖。傳統(tǒng)端到端模型是逐點(diǎn)生成軌跡,速度慢且容易累積誤差。MindVLA-o1采用了VLA-MoE架構(gòu),引入專門的Action Expert模塊,可以同時(shí)并行解碼所有軌跡點(diǎn),再通過離散擴(kuò)散進(jìn)行多輪迭代優(yōu)化。如果說(shuō)傳統(tǒng)端到端是"一步一步算",那MoE架構(gòu)就是"同時(shí)算好幾步,再選最好的一條"。
進(jìn)化層和部署層是支撐長(zhǎng)期競(jìng)爭(zhēng)力的關(guān)鍵。閉環(huán)強(qiáng)化學(xué)習(xí)配合前饋式場(chǎng)景重建,能夠在虛擬環(huán)境中瞬時(shí)生成大規(guī)模高保真場(chǎng)景用于訓(xùn)練——理想宣稱整體訓(xùn)練成本降低約75%,這在算力價(jià)格仍然高企的當(dāng)下是一個(gè)非常重要的效率指標(biāo)。部署層提出的"軟硬件協(xié)同設(shè)計(jì)定律"則針對(duì)端側(cè)部署的痛點(diǎn):先建模芯片硬件的算力限制,再反向約束模型結(jié)構(gòu)設(shè)計(jì),避免"模型能跑但芯片扛不住"的錯(cuò)配。
第三個(gè)模塊是MindSim,世界模型。 它的用途是在虛擬環(huán)境中生成極端場(chǎng)景——連環(huán)事故、突然竄出的行人、暴雨中的高速變道——讓模型在沒有真實(shí)數(shù)據(jù)的情況下也能學(xué)習(xí)應(yīng)對(duì)。這類場(chǎng)景在現(xiàn)實(shí)中發(fā)生概率極低,但一旦發(fā)生,模型的應(yīng)對(duì)能力直接關(guān)系到生命安全。世界模型的意義在于把"靠運(yùn)氣積累的極端場(chǎng)景經(jīng)驗(yàn)"變成"靠算力批量生成的訓(xùn)練數(shù)據(jù)"。
第四個(gè)模塊是RL Infra,強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。 這是VLA區(qū)別于傳統(tǒng)端到端的關(guān)鍵所在。行為克隆只能讓模型"學(xué)會(huì)人類已有的操作",強(qiáng)化學(xué)習(xí)能讓模型"探索人類沒試過但可能更好的操作"。兩者的區(qū)別,好比一個(gè)是跟著師傅學(xué)炒菜,一個(gè)是自己反復(fù)試哪種火候和調(diào)料搭配最好吃。前者學(xué)得快但上限受限于師傅的水平,后者學(xué)得慢但有可能做出師傅都沒想到的新菜。
四個(gè)模塊協(xié)同運(yùn)作,構(gòu)成了理想的自動(dòng)駕駛AI閉環(huán)。每個(gè)環(huán)節(jié)的輸出都是下一個(gè)環(huán)節(jié)的輸入,數(shù)據(jù)質(zhì)量決定模型上限,模型能力決定仿真精度,仿真精度決定強(qiáng)化學(xué)習(xí)效率,強(qiáng)化學(xué)習(xí)的成果又反過來(lái)提升數(shù)據(jù)引擎的標(biāo)注質(zhì)量。這個(gè)飛輪一旦轉(zhuǎn)起來(lái),速度會(huì)越來(lái)越快。
VLA不是理想的獨(dú)門秘技。特斯拉走純視覺端到端路線,華為走"感知-決策-控制"分模塊路線,小鵬也在2025年發(fā)布了XNGP 5.0的純視覺方案。每家都在探索最優(yōu)的技術(shù)路徑,但目前還沒有人能給出定論。
三條路線的本質(zhì)分歧在于如何理解駕駛場(chǎng)景。
特斯拉的答案是"看多了就會(huì)"。FSD基于海量用戶數(shù)據(jù)的行為克隆,通過數(shù)據(jù)驅(qū)動(dòng)的方式覆蓋盡可能多的場(chǎng)景。北美超過200萬(wàn)活躍FSD用戶每天產(chǎn)生數(shù)百萬(wàn)英里的駕駛數(shù)據(jù),這些數(shù)據(jù)持續(xù)反哺模型訓(xùn)練。優(yōu)勢(shì)是數(shù)據(jù)量最大、覆蓋場(chǎng)景最廣;劣勢(shì)是對(duì)從未見過的Corner Case缺乏推理能力,只能靠持續(xù)推送版本來(lái)修補(bǔ)。
華為的答案是"分而治之"。ADS將感知、決策、控制拆分為獨(dú)立模塊,每個(gè)模塊各司其職。優(yōu)勢(shì)是安全性和可解釋性強(qiáng)——出了問題能定位到具體模塊,監(jiān)管和審計(jì)也更容易通過;劣勢(shì)是模塊之間的信息傳遞會(huì)損失效率,難以實(shí)現(xiàn)真正的端到端優(yōu)化。
理想的答案是"先理解再行動(dòng)"。VLA在視覺感知和動(dòng)作輸出之間插入了一個(gè)"語(yǔ)言推理"層,讓模型先用自然語(yǔ)言描述場(chǎng)景、分析問題、規(guī)劃策略,再轉(zhuǎn)化為具體的駕駛動(dòng)作。理論上,這種架構(gòu)在面對(duì)需要語(yǔ)義推理的復(fù)雜場(chǎng)景時(shí)——比如理解交警手勢(shì)的含義、判斷前方施工區(qū)域的正確通行策略——應(yīng)該比純視覺端到端和分模塊方案都更有優(yōu)勢(shì)。
但理論和現(xiàn)實(shí)之間總有一段距離。郎咸朋在2026年初曾表示,OTA 8.2后的VLA"非常確認(rèn)是行業(yè)領(lǐng)先"。在北京、上海、深圳、杭州累計(jì)實(shí)測(cè)上千公里后,理想預(yù)計(jì)到2026年底系統(tǒng)MPI(平均接管里程)將突破1000公里。作為參照,華為ADS 3.0的MPI在部分城市已超過2000公里,特斯拉FSD V13在北美也達(dá)到了類似水平。理想的VLA確實(shí)在快速追趕,但"領(lǐng)先"這個(gè)判斷能否經(jīng)得起第三方測(cè)試的驗(yàn)證,還需要更多城市、更多用戶、更多極端場(chǎng)景的持續(xù)考驗(yàn)。
VLA路線面臨的最大挑戰(zhàn)不是技術(shù)不夠先進(jìn),而是一個(gè)看似矛盾的問題:生成式模型的核心特征是"不確定性輸出",而自動(dòng)駕駛的核心要求是"確定性安全"。
ChatGPT每次回答同一個(gè)問題,措辭可能不同,甚至可能出現(xiàn)幻覺——在聊天場(chǎng)景中這頂多是用戶體驗(yàn)問題。但在駕駛場(chǎng)景中,面對(duì)同一個(gè)前方障礙物,模型這次的決策是"左變道",下次的決策是"急剎車",這種不確定性是不可接受的。
理想在MindVLA-o1中引入了兩層安全約束來(lái)解決這個(gè)矛盾。第一層是離散擴(kuò)散機(jī)制——模型生成的軌跡不是一步到位的,而是經(jīng)過多輪迭代優(yōu)化,每輪都會(huì)檢查軌跡是否符合車輛動(dòng)力學(xué)約束(比如最大轉(zhuǎn)向角、最大加速度)。不符合的軌跡會(huì)被修正或淘汰。第二層是外部安全規(guī)則層——在VLA的推理結(jié)果之上疊加一套硬編碼的安全規(guī)則,當(dāng)模型輸出明顯違反安全規(guī)則的操作時(shí),安全規(guī)則層會(huì)強(qiáng)制否決。
這兩層約束在工程上有效,但引入了一個(gè)新的問題:當(dāng)安全規(guī)則頻繁否決VLA的輸出時(shí),系統(tǒng)的"智能性"就被削弱了——用戶會(huì)感覺車輛在某些場(chǎng)景下"過于保守",明明可以通行卻選擇停車等待。這種"安全性"和"智能性"的平衡,是所有生成式智駕方案都需要面對(duì)的工程難題。
更深層的問題是可解釋性。當(dāng)傳統(tǒng)模塊化方案出錯(cuò)時(shí),工程師可以逐層回溯:是感知模塊把錐桶識(shí)別成了垃圾桶?還是決策模塊選擇了錯(cuò)誤的變道策略?每個(gè)環(huán)節(jié)都有明確的輸入輸出,問題定位相對(duì)簡(jiǎn)單。VLA方案的決策過程發(fā)生在一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)內(nèi)部,當(dāng)輸出錯(cuò)誤時(shí),工程師很難精確判斷是哪個(gè)環(huán)節(jié)出了問題——是語(yǔ)義理解錯(cuò)了?是推理鏈條斷了?還是執(zhí)行層翻譯有誤?這種"黑箱"特性在研發(fā)階段會(huì)增加調(diào)試成本,在事故調(diào)查中也會(huì)增加責(zé)任界定的難度。
如果只把VLA看作自動(dòng)駕駛系統(tǒng),那就低估了理想的野心。
在理想的技術(shù)敘事中,汽車被定義為"跑在路上的具身智能體"。MindVLA-o1的四大模塊——數(shù)據(jù)引擎、核心模型、世界模型、強(qiáng)化學(xué)習(xí)——構(gòu)成的不是一個(gè)專用于駕駛的系統(tǒng),而是一個(gè)通用的物理AI框架。這個(gè)框架的能力可以遷移到任何需要"感知環(huán)境-理解語(yǔ)義-執(zhí)行動(dòng)作"的場(chǎng)景——包括家庭服務(wù)機(jī)器人、工業(yè)物流機(jī)器人、倉(cāng)儲(chǔ)機(jī)器人。
2025年,理想投資了斜躍智能(由前理想高管創(chuàng)辦的家庭機(jī)器人公司),這正是VLA能力外溢的第一步。家庭場(chǎng)景和駕駛場(chǎng)景的復(fù)雜度完全不同——家庭環(huán)境是非結(jié)構(gòu)化的、高度動(dòng)態(tài)的、包含大量需要常識(shí)推理的任務(wù)——但核心的認(rèn)知框架是相通的:感知環(huán)境、理解指令、規(guī)劃動(dòng)作、安全執(zhí)行。
馬赫100芯片則提供了算力基座。5nm制程、單顆1280TOPS、雙顆2560TOPS,這樣的端側(cè)算力不僅足夠部署當(dāng)前參數(shù)量的VLA模型,還為未來(lái)更大規(guī)模的模型留出了空間。當(dāng)芯片+算法+數(shù)據(jù)三個(gè)要素齊備,理想就擁有了向"具身智能平臺(tái)"躍遷的技術(shù)底座。
但終局仍遠(yuǎn)。VLA目前的月使用率80%、MPI目標(biāo)1000公里,在用戶體驗(yàn)層面距離"離不開"還有相當(dāng)?shù)木嚯x。從"能用"到"好用"再到"不可或缺",每一步跨越都需要技術(shù)迭代和用戶教育的雙重投入。理想在自動(dòng)駕駛上的年研發(fā)投入已經(jīng)超過60億元,利潤(rùn)同比下降99%——這些數(shù)字說(shuō)明,這場(chǎng)AI豪賭的籌碼已經(jīng)加到了最大。
下一個(gè)關(guān)鍵驗(yàn)證節(jié)點(diǎn)是L9 Livis的量產(chǎn)交付。搭載雙馬赫100芯片、全主動(dòng)懸架、360度激光雷達(dá)布局的新旗艦,是理想VLA能力最完整的載體。如果L9 Livis的智駕體驗(yàn)?zāi)軌蛘嬲齼冬F(xiàn)"行業(yè)領(lǐng)先"的承諾,理想就完成了從"增程之王"到"AI先鋒"的身份轉(zhuǎn)換的第一步。至于這一步走得好不好,2026年下半年,用戶和市場(chǎng)會(huì)給答案。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))新智駕北京車展2026專題)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。