憑什么說(shuō)自己領(lǐng)先特斯拉和華為？理想VLA研發(fā)復(fù)盤

本文作者：新智駕

2026-04-21 21:35

導(dǎo)語(yǔ)：當(dāng)特斯拉通過海量數(shù)據(jù)力推純視覺端到端，華為堅(jiān)守“感知-決策-控制”的模塊化路線時(shí)，理想自動(dòng)駕駛交出了第四代答卷。

當(dāng)AI不再"照抄"人類開車

2025年5月，理想在一場(chǎng)內(nèi)部活動(dòng)上展示了一段視頻。視頻中，一輛理想L9駛?cè)胍粋€(gè)從未到過的路口，前方是臨時(shí)搭建的施工區(qū)域，路面上沒有標(biāo)線，兩側(cè)擺放著反光錐，一個(gè)工人正在指揮交通。車輛沒有慌張，減速后向左變道，繞過施工區(qū)域，重新匯入車流。

這段視頻之所以讓現(xiàn)場(chǎng)的工程師們興奮，不是因?yàn)樽兊辣旧怼魏我慌_(tái)搭載高階智駕的車都能做到。真正讓他們興奮的是這輛車變道的原因：它"理解"了施工區(qū)域的語(yǔ)義，而不僅僅是"檢測(cè)"到了反光錐的位置。

這就是VLA（Vision-Language-Action，視覺-語(yǔ)言-動(dòng)作）和傳統(tǒng)端到端的根本區(qū)別。傳統(tǒng)端到端的做法是"行為克隆"——用海量人類駕駛數(shù)據(jù)訓(xùn)練模型，讓AI照搬人類的操作?？吹椒垂忮F就剎車，看到標(biāo)線就跟隨，這本質(zhì)上是一種高級(jí)的模仿。VLA的做法是讓AI先"理解"場(chǎng)景，再通過推理做出決策。它不是一個(gè)被動(dòng)的復(fù)制者，而是一個(gè)主動(dòng)的思考者。

兩者的差距在Corner Case中會(huì)被無(wú)限放大。傳統(tǒng)端到端模型面對(duì)從未見過的場(chǎng)景時(shí)，要么"亂來(lái)"——做出明顯錯(cuò)誤的決策，要么"罷工"——退出智駕把控制權(quán)交給人類。因?yàn)樗臎Q策依據(jù)是"歷史數(shù)據(jù)中有沒有見過類似的"，沒見過就沒有答案。VLA模型面對(duì)同樣場(chǎng)景時(shí)，會(huì)先在內(nèi)部完成一輪語(yǔ)義推理："前方有施工區(qū)域→有工人在指揮→通行空間變窄→需要減速并尋找安全的繞行路線→左側(cè)車道空曠→執(zhí)行左變道"。這個(gè)推理鏈條雖然不一定每次都對(duì)，但至少提供了一種超越"經(jīng)驗(yàn)匹配"的決策機(jī)制。

2026年3月，理想自動(dòng)駕駛基座模型負(fù)責(zé)人詹錕在NVIDIA GTC 2026上發(fā)布了下一代模型MindVLA-o1，把這個(gè)理念推到了新高度。訓(xùn)練成本降低約75%，引入預(yù)測(cè)式隱世界模型，原生多模態(tài)MoE架構(gòu)——這些技術(shù)術(shù)語(yǔ)背后的核心敘事是：理想正在把自動(dòng)駕駛從"參數(shù)競(jìng)賽"拉入"認(rèn)知競(jìng)賽"。

理想智駕的四年進(jìn)化史

VLA不是憑空冒出來(lái)的，它是理想在自動(dòng)駕駛技術(shù)路線上持續(xù)迭代的第四代產(chǎn)物。

回看這四年，理想的智駕路線走了一個(gè)清晰的"由淺入深"的路徑。2023年及之前，理想的主力是NPN先驗(yàn)網(wǎng)絡(luò)，核心任務(wù)是在已建圖的城市中建立穩(wěn)定的感知能力。這個(gè)階段的技術(shù)底子是高精地圖——車知道自己的精確位置，也知道周圍的精確路況，導(dǎo)航更像是在執(zhí)行一條預(yù)設(shè)好的軌道。這個(gè)方案在高速和快速路上表現(xiàn)良好，但在城市復(fù)雜路口、臨時(shí)施工區(qū)域等高變化場(chǎng)景中就捉襟見肘了。

2024年，理想開始推進(jìn)"無(wú)圖化"——擺脫對(duì)高精地圖的依賴，用車載傳感器實(shí)時(shí)感知環(huán)境。這個(gè)轉(zhuǎn)變的代價(jià)是研發(fā)投入的激增，但收益是場(chǎng)景覆蓋能力的質(zhì)變：不再受限于地圖覆蓋范圍，理論上"車能開到哪里，智駕就能用到哪里"。2024年底，理想無(wú)圖NOA在全國(guó)361個(gè)城市落地，覆蓋了絕大多數(shù)城市道路。

2025年初，端到端+VLM的方案接棒。VLM（視覺語(yǔ)言模型）的引入是一個(gè)轉(zhuǎn)折點(diǎn)——它讓智駕系統(tǒng)第一次有了"語(yǔ)義理解"的能力，不再只是處理像素和點(diǎn)云，而是能理解"前方有交警在指揮交通""這里是學(xué)校區(qū)域""右側(cè)車道在施工"這類需要語(yǔ)言推理的場(chǎng)景。

2025年5月至今，VLA司機(jī)大模型成為主軸。它在VLM的基礎(chǔ)上進(jìn)一步打通了"理解"到"行動(dòng)"的鏈路——不僅理解場(chǎng)景，還直接生成駕駛動(dòng)作序列。用戶通過VLA指令與智駕系統(tǒng)自然語(yǔ)言交互，比如"跟著前車走""變到左側(cè)車道"，系統(tǒng)理解語(yǔ)義后直接執(zhí)行。這個(gè)交互方式的改變讓用戶對(duì)智駕的信任感大幅提升——月使用率從端到端時(shí)期的不足50%躍升至80%，全年VLA指令累計(jì)使用超過1225萬(wàn)次。

這四步走的每一步都不是顛覆式的，而是在前一步的基礎(chǔ)上疊加新能力。但四步疊加之后，理想智駕系統(tǒng)的"能力模型"已經(jīng)發(fā)生了質(zhì)變——從"在高精地圖上跑"到"實(shí)時(shí)感知世界"再到"理解世界語(yǔ)義"最后到"像人一樣思考和決策"。每一步的幅度不大，但方向從未改變。

四個(gè)模塊拼成的大腦

MindVLA-o1不是一個(gè)單獨(dú)的模型，而是一個(gè)由四個(gè)模塊組成的完整系統(tǒng)。理想的技術(shù)團(tuán)隊(duì)把它描述為"AI閉環(huán)"——數(shù)據(jù)進(jìn)入、模型訓(xùn)練、仿真驗(yàn)證、強(qiáng)化學(xué)習(xí)、再回到車端部署，每個(gè)環(huán)節(jié)都在為下一個(gè)環(huán)節(jié)提供更好的輸入。

第一個(gè)模塊是MindData，數(shù)據(jù)引擎。 數(shù)據(jù)是VLA的燃料，而理想在數(shù)據(jù)方面的積累正在加速。2025年春節(jié)期間輔助駕駛總里程達(dá)2.5億公里，VLA指令使用130.3萬(wàn)次。全年累計(jì)VLA指令使用1225.4萬(wàn)次，月使用率達(dá)到80%。這些真實(shí)駕駛行為產(chǎn)生的數(shù)據(jù)，比任何仿真都更有價(jià)值——因?yàn)樗鼈儼巳祟愸{駛員面對(duì)復(fù)雜場(chǎng)景時(shí)的真實(shí)決策邏輯。

但數(shù)據(jù)質(zhì)量比數(shù)量更重要。理想沒有公開詳細(xì)的數(shù)據(jù)清洗流程，但從行業(yè)經(jīng)驗(yàn)看，VLA模型需要的是"有信息量的數(shù)據(jù)"——高速公路上300公里的勻速巡航對(duì)模型訓(xùn)練幾乎沒有幫助，而一個(gè)包含突然變道、行人橫穿、施工繞行的5分鐘城市通勤片段，可能抵得上300公里的高速數(shù)據(jù)。如何從海量原始數(shù)據(jù)中高效地篩選出"有信息量"的片段，是數(shù)據(jù)引擎的核心能力。

第二個(gè)模塊是MindVLA-o1本身，核心模型。 它的技術(shù)架構(gòu)圍繞五個(gè)維度展開。感知層用3D ViT Encoder作為"眼睛"，激光雷達(dá)的點(diǎn)云數(shù)據(jù)作為三維幾何的提示信號(hào)，讓模型既能"看到"圖像又能"理解"空間關(guān)系。思考層在傳統(tǒng)語(yǔ)言模型的基礎(chǔ)上引入了"預(yù)測(cè)式隱世界模型"——這個(gè)概念可以理解為AI的"預(yù)演系統(tǒng)"。就像人類駕駛員變道之前會(huì)下意識(shí)判斷旁邊車輛的速度和距離一樣，VLA會(huì)在隱空間中模擬未來(lái)多種可能性，選擇最優(yōu)的行動(dòng)方案。

執(zhí)行層的技術(shù)細(xì)節(jié)更值得深挖。傳統(tǒng)端到端模型是逐點(diǎn)生成軌跡，速度慢且容易累積誤差。MindVLA-o1采用了VLA-MoE架構(gòu)，引入專門的Action Expert模塊，可以同時(shí)并行解碼所有軌跡點(diǎn)，再通過離散擴(kuò)散進(jìn)行多輪迭代優(yōu)化。如果說(shuō)傳統(tǒng)端到端是"一步一步算"，那MoE架構(gòu)就是"同時(shí)算好幾步，再選最好的一條"。

進(jìn)化層和部署層是支撐長(zhǎng)期競(jìng)爭(zhēng)力的關(guān)鍵。閉環(huán)強(qiáng)化學(xué)習(xí)配合前饋式場(chǎng)景重建，能夠在虛擬環(huán)境中瞬時(shí)生成大規(guī)模高保真場(chǎng)景用于訓(xùn)練——理想宣稱整體訓(xùn)練成本降低約75%，這在算力價(jià)格仍然高企的當(dāng)下是一個(gè)非常重要的效率指標(biāo)。部署層提出的"軟硬件協(xié)同設(shè)計(jì)定律"則針對(duì)端側(cè)部署的痛點(diǎn)：先建模芯片硬件的算力限制，再反向約束模型結(jié)構(gòu)設(shè)計(jì)，避免"模型能跑但芯片扛不住"的錯(cuò)配。

第三個(gè)模塊是MindSim，世界模型。 它的用途是在虛擬環(huán)境中生成極端場(chǎng)景——連環(huán)事故、突然竄出的行人、暴雨中的高速變道——讓模型在沒有真實(shí)數(shù)據(jù)的情況下也能學(xué)習(xí)應(yīng)對(duì)。這類場(chǎng)景在現(xiàn)實(shí)中發(fā)生概率極低，但一旦發(fā)生，模型的應(yīng)對(duì)能力直接關(guān)系到生命安全。世界模型的意義在于把"靠運(yùn)氣積累的極端場(chǎng)景經(jīng)驗(yàn)"變成"靠算力批量生成的訓(xùn)練數(shù)據(jù)"。

第四個(gè)模塊是RL Infra，強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。 這是VLA區(qū)別于傳統(tǒng)端到端的關(guān)鍵所在。行為克隆只能讓模型"學(xué)會(huì)人類已有的操作"，強(qiáng)化學(xué)習(xí)能讓模型"探索人類沒試過但可能更好的操作"。兩者的區(qū)別，好比一個(gè)是跟著師傅學(xué)炒菜，一個(gè)是自己反復(fù)試哪種火候和調(diào)料搭配最好吃。前者學(xué)得快但上限受限于師傅的水平，后者學(xué)得慢但有可能做出師傅都沒想到的新菜。

四個(gè)模塊協(xié)同運(yùn)作，構(gòu)成了理想的自動(dòng)駕駛AI閉環(huán)。每個(gè)環(huán)節(jié)的輸出都是下一個(gè)環(huán)節(jié)的輸入，數(shù)據(jù)質(zhì)量決定模型上限，模型能力決定仿真精度，仿真精度決定強(qiáng)化學(xué)習(xí)效率，強(qiáng)化學(xué)習(xí)的成果又反過來(lái)提升數(shù)據(jù)引擎的標(biāo)注質(zhì)量。這個(gè)飛輪一旦轉(zhuǎn)起來(lái)，速度會(huì)越來(lái)越快。

一場(chǎng)關(guān)于"怎么理解世界"的路線之爭(zhēng)

VLA不是理想的獨(dú)門秘技。特斯拉走純視覺端到端路線，華為走"感知-決策-控制"分模塊路線，小鵬也在2025年發(fā)布了XNGP 5.0的純視覺方案。每家都在探索最優(yōu)的技術(shù)路徑，但目前還沒有人能給出定論。

三條路線的本質(zhì)分歧在于如何理解駕駛場(chǎng)景。

特斯拉的答案是"看多了就會(huì)"。FSD基于海量用戶數(shù)據(jù)的行為克隆，通過數(shù)據(jù)驅(qū)動(dòng)的方式覆蓋盡可能多的場(chǎng)景。北美超過200萬(wàn)活躍FSD用戶每天產(chǎn)生數(shù)百萬(wàn)英里的駕駛數(shù)據(jù)，這些數(shù)據(jù)持續(xù)反哺模型訓(xùn)練。優(yōu)勢(shì)是數(shù)據(jù)量最大、覆蓋場(chǎng)景最廣；劣勢(shì)是對(duì)從未見過的Corner Case缺乏推理能力，只能靠持續(xù)推送版本來(lái)修補(bǔ)。

華為的答案是"分而治之"。ADS將感知、決策、控制拆分為獨(dú)立模塊，每個(gè)模塊各司其職。優(yōu)勢(shì)是安全性和可解釋性強(qiáng)——出了問題能定位到具體模塊，監(jiān)管和審計(jì)也更容易通過；劣勢(shì)是模塊之間的信息傳遞會(huì)損失效率，難以實(shí)現(xiàn)真正的端到端優(yōu)化。

理想的答案是"先理解再行動(dòng)"。VLA在視覺感知和動(dòng)作輸出之間插入了一個(gè)"語(yǔ)言推理"層，讓模型先用自然語(yǔ)言描述場(chǎng)景、分析問題、規(guī)劃策略，再轉(zhuǎn)化為具體的駕駛動(dòng)作。理論上，這種架構(gòu)在面對(duì)需要語(yǔ)義推理的復(fù)雜場(chǎng)景時(shí)——比如理解交警手勢(shì)的含義、判斷前方施工區(qū)域的正確通行策略——應(yīng)該比純視覺端到端和分模塊方案都更有優(yōu)勢(shì)。

但理論和現(xiàn)實(shí)之間總有一段距離。郎咸朋在2026年初曾表示，OTA 8.2后的VLA"非常確認(rèn)是行業(yè)領(lǐng)先"。在北京、上海、深圳、杭州累計(jì)實(shí)測(cè)上千公里后，理想預(yù)計(jì)到2026年底系統(tǒng)MPI（平均接管里程）將突破1000公里。作為參照，華為ADS 3.0的MPI在部分城市已超過2000公里，特斯拉FSD V13在北美也達(dá)到了類似水平。理想的VLA確實(shí)在快速追趕，但"領(lǐng)先"這個(gè)判斷能否經(jīng)得起第三方測(cè)試的驗(yàn)證，還需要更多城市、更多用戶、更多極端場(chǎng)景的持續(xù)考驗(yàn)。

安全冗余：生成式AI的天生矛盾

VLA路線面臨的最大挑戰(zhàn)不是技術(shù)不夠先進(jìn)，而是一個(gè)看似矛盾的問題：生成式模型的核心特征是"不確定性輸出"，而自動(dòng)駕駛的核心要求是"確定性安全"。

ChatGPT每次回答同一個(gè)問題，措辭可能不同，甚至可能出現(xiàn)幻覺——在聊天場(chǎng)景中這頂多是用戶體驗(yàn)問題。但在駕駛場(chǎng)景中，面對(duì)同一個(gè)前方障礙物，模型這次的決策是"左變道"，下次的決策是"急剎車"，這種不確定性是不可接受的。

理想在MindVLA-o1中引入了兩層安全約束來(lái)解決這個(gè)矛盾。第一層是離散擴(kuò)散機(jī)制——模型生成的軌跡不是一步到位的，而是經(jīng)過多輪迭代優(yōu)化，每輪都會(huì)檢查軌跡是否符合車輛動(dòng)力學(xué)約束（比如最大轉(zhuǎn)向角、最大加速度）。不符合的軌跡會(huì)被修正或淘汰。第二層是外部安全規(guī)則層——在VLA的推理結(jié)果之上疊加一套硬編碼的安全規(guī)則，當(dāng)模型輸出明顯違反安全規(guī)則的操作時(shí)，安全規(guī)則層會(huì)強(qiáng)制否決。

這兩層約束在工程上有效，但引入了一個(gè)新的問題：當(dāng)安全規(guī)則頻繁否決VLA的輸出時(shí)，系統(tǒng)的"智能性"就被削弱了——用戶會(huì)感覺車輛在某些場(chǎng)景下"過于保守"，明明可以通行卻選擇停車等待。這種"安全性"和"智能性"的平衡，是所有生成式智駕方案都需要面對(duì)的工程難題。

更深層的問題是可解釋性。當(dāng)傳統(tǒng)模塊化方案出錯(cuò)時(shí)，工程師可以逐層回溯：是感知模塊把錐桶識(shí)別成了垃圾桶？還是決策模塊選擇了錯(cuò)誤的變道策略？每個(gè)環(huán)節(jié)都有明確的輸入輸出，問題定位相對(duì)簡(jiǎn)單。VLA方案的決策過程發(fā)生在一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)內(nèi)部，當(dāng)輸出錯(cuò)誤時(shí)，工程師很難精確判斷是哪個(gè)環(huán)節(jié)出了問題——是語(yǔ)義理解錯(cuò)了？是推理鏈條斷了？還是執(zhí)行層翻譯有誤？這種"黑箱"特性在研發(fā)階段會(huì)增加調(diào)試成本，在事故調(diào)查中也會(huì)增加責(zé)任界定的難度。

從車到機(jī)器人：VLA的終局想象

如果只把VLA看作自動(dòng)駕駛系統(tǒng)，那就低估了理想的野心。

在理想的技術(shù)敘事中，汽車被定義為"跑在路上的具身智能體"。MindVLA-o1的四大模塊——數(shù)據(jù)引擎、核心模型、世界模型、強(qiáng)化學(xué)習(xí)——構(gòu)成的不是一個(gè)專用于駕駛的系統(tǒng)，而是一個(gè)通用的物理AI框架。這個(gè)框架的能力可以遷移到任何需要"感知環(huán)境-理解語(yǔ)義-執(zhí)行動(dòng)作"的場(chǎng)景——包括家庭服務(wù)機(jī)器人、工業(yè)物流機(jī)器人、倉(cāng)儲(chǔ)機(jī)器人。

2025年，理想投資了斜躍智能（由前理想高管創(chuàng)辦的家庭機(jī)器人公司），這正是VLA能力外溢的第一步。家庭場(chǎng)景和駕駛場(chǎng)景的復(fù)雜度完全不同——家庭環(huán)境是非結(jié)構(gòu)化的、高度動(dòng)態(tài)的、包含大量需要常識(shí)推理的任務(wù)——但核心的認(rèn)知框架是相通的：感知環(huán)境、理解指令、規(guī)劃動(dòng)作、安全執(zhí)行。

馬赫100芯片則提供了算力基座。5nm制程、單顆1280TOPS、雙顆2560TOPS，這樣的端側(cè)算力不僅足夠部署當(dāng)前參數(shù)量的VLA模型，還為未來(lái)更大規(guī)模的模型留出了空間。當(dāng)芯片+算法+數(shù)據(jù)三個(gè)要素齊備，理想就擁有了向"具身智能平臺(tái)"躍遷的技術(shù)底座。

但終局仍遠(yuǎn)。VLA目前的月使用率80%、MPI目標(biāo)1000公里，在用戶體驗(yàn)層面距離"離不開"還有相當(dāng)?shù)木嚯x。從"能用"到"好用"再到"不可或缺"，每一步跨越都需要技術(shù)迭代和用戶教育的雙重投入。理想在自動(dòng)駕駛上的年研發(fā)投入已經(jīng)超過60億元，利潤(rùn)同比下降99%——這些數(shù)字說(shuō)明，這場(chǎng)AI豪賭的籌碼已經(jīng)加到了最大。

下一個(gè)關(guān)鍵驗(yàn)證節(jié)點(diǎn)是L9 Livis的量產(chǎn)交付。搭載雙馬赫100芯片、全主動(dòng)懸架、360度激光雷達(dá)布局的新旗艦，是理想VLA能力最完整的載體。如果L9 Livis的智駕體驗(yàn)?zāi)軌蛘嬲齼冬F(xiàn)"行業(yè)領(lǐng)先"的承諾，理想就完成了從"增程之王"到"AI先鋒"的身份轉(zhuǎn)換的第一步。至于這一步走得好不好，2026年下半年，用戶和市場(chǎng)會(huì)給答案。

（雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))新智駕北京車展2026專題）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章