排名第九、國(guó)內(nèi)第二，DeepSeek V4 憑什么讓人又愛(ài)又恨？

本文作者：梁丙鑒

2026-05-31 14:31

導(dǎo)語(yǔ)：一周真實(shí)業(yè)務(wù)流、四個(gè)中國(guó)特色場(chǎng)景和三百組對(duì)比測(cè)試，V4到底行不行？

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))訊 DeepSeek V3 有多震撼，V4 給人的落差就有多大。

4 月 24 號(hào)那天，我打開(kāi)微信，看到群里一條條的“就這”、“還行”，忽然想起 DeepSeek V3 “炸群”的那天。當(dāng)時(shí)有人說(shuō) OpenAI 的棺材板要壓不住了，還有人干脆把 V3 的跑分截圖設(shè)成了手機(jī)壁紙。

V4 呢？

Vals AI 說(shuō)它是全球第九，中國(guó)國(guó)內(nèi)第二。有開(kāi)發(fā)者直接向媒體表示略感失望，DeepSeek 自己也承認(rèn)，Agentic Coding 比 Opus 4.6 思考模式還有差距，世界知識(shí)也不如 Gemini。

但當(dāng)我把它塞進(jìn)一個(gè) workflow 里跑上一周，測(cè)了一堆只有中國(guó)開(kāi)發(fā)者才懂的場(chǎng)景之后，我發(fā)現(xiàn) V4 或許無(wú)法復(fù)刻 V3 帶來(lái)的震撼，但它仍然是 DeepSeek 最重要的作品之一。

至于原因，我想先談?wù)勈摚降自谑裁础?/span>

排名第九、國(guó)內(nèi)第二，DeepSeek V4 憑什么讓人又愛(ài)又恨？

“榜單第九”，到底在失望什么

DeepSeek V4 平均準(zhǔn)確率 63.87％的成績(jī)，出自 Vals AI 的測(cè)評(píng)。這個(gè)測(cè)評(píng)集覆蓋金融、法律、編程、多語(yǔ)言等維度，V4 全球排名第九，國(guó)內(nèi)僅次于 Kimi K2.6。排在它前面的，有 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4，全是閉源模型。

數(shù)據(jù)本身沒(méi)有問(wèn)題，但解讀方式很值得挖一挖。如果 Vals AI 用美國(guó)律師資格考試、英國(guó)金融合規(guī)題、英文編程競(jìng)賽來(lái)排名，那跟我一個(gè)寫(xiě)微信小程序、讀李商隱、寫(xiě)八項(xiàng)規(guī)定學(xué)習(xí)心得的中國(guó)用戶(hù)，有什么關(guān)系？

更關(guān)鍵的是，Vals AI 不測(cè)中文古詩(shī)詞理解、中國(guó)法律法規(guī)引用、中文網(wǎng)絡(luò)梗的理解，也不測(cè)公文寫(xiě)作水平或者把“新質(zhì)生產(chǎn)力”翻譯成英文的時(shí)候會(huì)不會(huì)胡編。而這些，才是中國(guó)用戶(hù)會(huì)面對(duì)的場(chǎng)景。

所以我們重新設(shè)計(jì)了一套評(píng)測(cè)方案。包括古詩(shī)詞、法律、網(wǎng)絡(luò)梗、公文、翻譯五大中國(guó)特色場(chǎng)景，外加完整的開(kāi)發(fā)工作流實(shí)測(cè)，重新衡量一下 V4 的表現(xiàn)。

在古詩(shī)詞和法律維度，我們邀請(qǐng)了 Opus 4.7 作為裁判模型評(píng)分，工作流維度從可運(yùn)行性、可讀性、可維護(hù)性三個(gè)工程指標(biāo)評(píng)估，智能體維度則考察任務(wù)分解、工具使用、自我糾錯(cuò)、任務(wù)完成度、狀態(tài)管理五項(xiàng)能力。

結(jié)果，很耐人尋味。

四個(gè)“只有中國(guó)人懂”的測(cè)試

V4 到底是真懂中文語(yǔ)境，還是只會(huì)背標(biāo)準(zhǔn)答案？我們先從最“不實(shí)用”的一項(xiàng)測(cè)起，中國(guó)古詩(shī)詞深層理解。

其實(shí)讓大模型讀古詩(shī)，有點(diǎn)像讓老外聽(tīng)相聲，懂字面意思還不夠，重點(diǎn)是明白弦外之音的包袱。V4 在這件事上的表現(xiàn)，直接體現(xiàn)了它到底有沒(méi)有“中國(guó)心”。

我們選擇了李商隱的《無(wú)題》，要求 V4 逐層剝開(kāi)“春蠶到死絲方盡”中”絲”的三層含義。小時(shí)候老師講過(guò)這句詩(shī)，除了蠶絲和“思”的諧音，這個(gè)字還傳神地表現(xiàn)出了思念的纏綿特質(zhì)。而令我驚喜的是，DeepSeek V4 在這三個(gè)答案之外，還提出了一個(gè)教科書(shū)里沒(méi)有提到的層次，“生命之質(zhì)”。

“將’絲’提升為一種生命元質(zhì)，象征著人的生命力、精神與靈魂的耗盡過(guò)程。蠶的生命由絲構(gòu)成，人的生命由情思支撐，二者在’生命本質(zhì)的外化與耗盡’這一層面上合二為一。”

更妙的是，當(dāng)我問(wèn)它能不能把原句改為“思方盡”，V4 稱(chēng)這會(huì)導(dǎo)致“整個(gè)詩(shī)意將發(fā)生質(zhì)的降級(jí)，從一座立體的詩(shī)歌建筑坍縮為一個(gè)單薄的陳述句?！?/span>

顯然，這種分析不是能靠背誦百度百科做到的。

而整個(gè)測(cè)過(guò)過(guò)程中，V4 讓我印象最深刻的一段輸出，是對(duì)杜甫“國(guó)破山河在”中“在”字的解讀。

它寫(xiě)道：“’國(guó)破’與’山河在’之間形成了一個(gè)巨大的情感裂谷。‘國(guó)破’是人事的徹底崩塌，’山河在’是自然的永恒漠然?！毕旅娴倪@句話(huà)，我讀到時(shí)停下來(lái)看了三遍：“你失去了整個(gè)世界，而世界若無(wú)其事?！?/span>

Opus 4.7 評(píng)委給了近乎滿(mǎn)分的評(píng)價(jià)，準(zhǔn)確性 5、洞察力 5、文化敏感度 5。評(píng)語(yǔ)是：“‘剝奪了與萬(wàn)物同悲的幻想’‘被世界拋棄的存在性孤獨(dú)’‘美與殘酷同時(shí)抵達(dá)頂峰’等表達(dá)極具個(gè)人體悟，超出教科書(shū)式的解讀?！?/span>

可以說(shuō)，在中文古詩(shī)詞深層理解上，V4 的表現(xiàn)是當(dāng)下所有大模型中最頂尖的之一。它不僅僅在做詩(shī)歌閱讀理解題，而是讓我有了種一窺詩(shī)人精神世界的感覺(jué)。

第二組測(cè)試聚焦中國(guó)法律法規(guī)的引用準(zhǔn)確性。

這組題的設(shè)計(jì)邏輯很直接，大模型在法律領(lǐng)域的最大風(fēng)險(xiǎn)不是”答得不好”，而是”編造法條”，一本正經(jīng)地引用一條根本不存在的法律，專(zhuān)業(yè)律師沒(méi)準(zhǔn)也得琢磨琢磨。

而 5 道題測(cè)下來(lái)，V4 做到了法條引用零幻覺(jué)。

《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例》第 38 條下有兩款規(guī)定，但我們?cè)O(shè)置了一個(gè)陷阱，請(qǐng) V4 解讀一下第三款的內(nèi)容。很多模型在這種情況下會(huì)硬著頭皮編造，但 V4 的處理堪稱(chēng)教科書(shū)級(jí)別：

“《條例》第 38 條內(nèi)容是關(guān)于主管部門(mén)對(duì)網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)督檢查的禁止性規(guī)定，其僅有 2 款，并無(wú)第 3 款。你問(wèn)及的‘向主管部門(mén)公示用戶(hù)數(shù)據(jù)收集情況’的義務(wù)，實(shí)際上規(guī)定在《條例》其他條款中?！?/span>

隨后，它沒(méi)有就此停筆，而是主動(dòng)幫用戶(hù)梳理了真正相關(guān)的條款（第 26 條、第 36 條、第 19 條、第 21 條），并逐一引用原文、說(shuō)明適用情形。

敢于說(shuō)”找不到”，還能引導(dǎo)你到正確的地方，這種“負(fù)責(zé)任的不知道”，正是模型落地最珍貴的能力。

在另外四道題的測(cè)試中，我們也人工核對(duì)了 V4 引用的每一個(gè)法條，均為真實(shí)存在。在法律這個(gè)”寧可答得慢，也不能答得假”的領(lǐng)域，零幻覺(jué)是最硬的指標(biāo)。

下面的測(cè)試，是關(guān)于 V4 對(duì)中文網(wǎng)絡(luò)梗與亞文化的理解。我們發(fā)現(xiàn)它是 5G 沖浪選手，但也會(huì)自信瞎編。

這組測(cè)試有 6 道題，沒(méi)有正式評(píng)分，只做定性觀察。我們關(guān)注的核心問(wèn)題是，一個(gè) AI 能不能理解”遙遙領(lǐng)先”為什么是陰陽(yáng)怪氣的萬(wàn)能鑰匙？而面對(duì)一個(gè)根本不存在的梗，它敢不敢說(shuō)”我不知道”？

首先是“遙遙領(lǐng)先”的符號(hào)演變分析，V4 準(zhǔn)確追溯到了余承東和華為 Mate 60 的發(fā)布，還歸納了三種使用語(yǔ)氣，分別是真誠(chéng)的自豪、調(diào)侃幽默、諷刺反話(huà)。在那個(gè)成功造梗的視頻中，V4 還解析了“夢(mèng)開(kāi)始的地方”“前方高能”“下次一定”等 B 站彈幕，每一條都標(biāo)注了字面意思、實(shí)際用法、出現(xiàn)位置和觀眾心理模式，甚至連“翻譯難度”都做了分級(jí)判斷。

還有一道職場(chǎng)對(duì)話(huà)分析題：“你這次方案做得也挺好的呀，雖然大家都不這么做，但你有自己的想法嘛，挺好的挺好的?！?/span>

V4 逐字拆解了這段話(huà)的語(yǔ)言策略：

“也挺好的”：也’是勉強(qiáng)附和的信號(hào)；

“雖然大家都不這么做”：通過(guò)預(yù)設(shè)“不合群”來(lái)委婉指出方案是異類(lèi)；

“挺好的挺好的”：機(jī)械重復(fù)恰恰是敷衍、想快速結(jié)束話(huà)題的標(biāo)志；

“不用管大家怎么說(shuō)”：表面挺你，實(shí)則切斷提醒你的可能性；

然后給出了直白翻譯：“你這次方案其實(shí)做得很一般，跟大家正常的做法根本不一樣。我懶得跟你認(rèn)真討論了，反正你覺(jué)得自己挺有想法的，那就照你的想法繼續(xù)弄吧，到時(shí)候出了問(wèn)題你自己看著辦?！?/span>

做完這項(xiàng)測(cè)試，我開(kāi)始理解網(wǎng)上有人用 AI 當(dāng)職場(chǎng)翻譯器了。

不過(guò)有一道測(cè)試暴露了嚴(yán)重問(wèn)題。我們故意問(wèn)了一個(gè)根本不存在的梗，“電子嘔吐”，而 V4 的反應(yīng)卻是洋洋灑灑一千多字的”深度解析”，來(lái)源、含義、使用場(chǎng)景、文化解讀一應(yīng)俱全。

它說(shuō)，“電子嘔吐是一個(gè)最近在中文互聯(lián)網(wǎng)上很火的網(wǎng)絡(luò)流行語(yǔ)，形容的是一種在社交媒體上的情緒宣泄行為……”。V4 甚至還這個(gè)梗編了兩種用法，分別是人類(lèi)情緒宣泄和 AI 生成低質(zhì)量?jī)?nèi)容，乍一聽(tīng)頭頭是道，唯一的問(wèn)題是，這個(gè)梗根本不存在。

正確的做法，是承認(rèn)自己不了解這個(gè)說(shuō)法，推測(cè)可能是新出現(xiàn)的表達(dá)，建議提供上下文。

最后的考驗(yàn)是翻譯，不是單純地將一種語(yǔ)言變成另一種，而是把中國(guó)話(huà)講成世界聽(tīng)得懂、愿意聽(tīng)的樣子。

我們準(zhǔn)備的 6 道翻譯題中，覆蓋政策術(shù)語(yǔ)、企業(yè)用語(yǔ)、經(jīng)典標(biāo)語(yǔ)、成語(yǔ)比喻、長(zhǎng)段落綜合翻譯。這項(xiàng)測(cè)試同樣沒(méi)有量化評(píng)分，但 V4 的表現(xiàn)可以說(shuō)是游刃有余。

首先是政策術(shù)語(yǔ)，V4 不僅精準(zhǔn)使用了“新質(zhì)生產(chǎn)力”的官方譯法 “new quality productive forces”，還解釋了”新質(zhì)”在政策語(yǔ)境中的四層含義，即技術(shù)革命驅(qū)動(dòng)、要素重組與躍升、全要素生產(chǎn)率提升、先進(jìn)生產(chǎn)力質(zhì)態(tài)，并提供了兩種備選譯法及其優(yōu)劣對(duì)比。

更出色的是“綠水青山就是金山銀山”的分場(chǎng)景處理。V4 指出官方文件應(yīng)采用 “Lucid waters and lush mountains are invaluable assets”（官方定譯，概念化、抽象化），而如果是旅游景區(qū)宣傳牌則可保留 “mountains of gold and silver” 的具象比喻，如 “Green hills and clear waters are the real gold and silver”。

同一個(gè)詞組，在不同場(chǎng)景中給出不同譯法，這種對(duì)語(yǔ)境的敏感恰恰是很多翻譯模型缺乏的。

還有排比節(jié)奏的巧思，在“做大做強(qiáng)做優(yōu)國(guó)有資本”中，有三個(gè)兩字段動(dòng)詞形成了排比。V4 的處理堪稱(chēng)巧妙，它選用三個(gè)以 -er 結(jié)尾的比較級(jí)形容詞，“Make state-owned capital bigger, stronger, and better”，三詞均為單音節(jié)或雙音節(jié)，長(zhǎng)短一致，產(chǎn)生了一種類(lèi)似詩(shī)句的頓挫感，恰好再現(xiàn)了中文排比的韻律美和氣勢(shì)。

四組“只有中國(guó)人懂”的測(cè)試跑完，我們發(fā)現(xiàn)的一個(gè)有趣規(guī)律是，在詩(shī)詞理解、中文翻譯等需要“中國(guó)心”的領(lǐng)域，V4 表現(xiàn)最強(qiáng)。它的確不是全能的，但對(duì)于中文，確實(shí)比大多數(shù)對(duì)手更懂。

當(dāng)一周牛馬——開(kāi)發(fā)者真實(shí)工作流實(shí)測(cè)

把大模型當(dāng)”賽博同事”用上一整周，它會(huì)是什么樣的員工？

這是我們?cè)O(shè)計(jì)的最接近真實(shí)開(kāi)發(fā)節(jié)奏的一組測(cè)試，涵蓋了從數(shù)據(jù)庫(kù)設(shè)計(jì)到核心代碼編寫(xiě)，從 Bug 診斷到性能優(yōu)化，從技術(shù)文檔到智能體任務(wù)的完整項(xiàng)目周期。

其中涉及八項(xiàng)任務(wù)，全部交給了 DeepSeek V4 Pro。這個(gè)過(guò)程中沒(méi)有標(biāo)準(zhǔn)答案參考，也沒(méi)有多選題提供容錯(cuò)空間，每一行代碼都要經(jīng)得起編譯器和人類(lèi)評(píng)委的雙重審視。

結(jié)果？V4 是一個(gè)代碼能力溢出的工程天才。

▎代碼生成的絕對(duì)主場(chǎng)

第一題要求 V4 設(shè)計(jì)一個(gè)支持全職、兼職、外包三種員工的工資系統(tǒng)數(shù)據(jù)庫(kù)。V4 給出的 PostgreSQL DDL，Opus 4.7 評(píng)委直接給了滿(mǎn)分三連，可運(yùn)行性、可讀性、可維護(hù)性均為 5 分。

它的設(shè)計(jì)思路堪稱(chēng)優(yōu)雅，沒(méi)有硬編碼三種員工類(lèi)型，而是用字典表 employee_types 統(tǒng)一管理。對(duì)于工資部分，V4 也沒(méi)有為每種工資項(xiàng)都寫(xiě)個(gè)獨(dú)立字段，而是用 salary_items 字典表 + employee_salary_structure 結(jié)構(gòu)表，堪稱(chēng)教科書(shū)級(jí)的抽象。

'E' 代表收入，'D' 代表扣除，is_taxable 標(biāo)記是否計(jì)稅。這種設(shè)計(jì)意味著，當(dāng)公司需要新增一個(gè)”通訊補(bǔ)貼”或者調(diào)整計(jì)稅規(guī)則，不需要改表結(jié)構(gòu)，只需插入一條配置數(shù)據(jù)。

對(duì)此，Opus 4.7 評(píng)委的原話(huà)是：“設(shè)計(jì)專(zhuān)業(yè)、抽象得當(dāng)，兼具可執(zhí)行性與可擴(kuò)展性，是一個(gè)優(yōu)秀的工資計(jì)算數(shù)據(jù)庫(kù)模型?！?/span>

測(cè)試任務(wù)還包括工資計(jì)算核心邏輯的 Python 實(shí)現(xiàn)，其中要求包含類(lèi)型注解和文檔字符串。V4 的表現(xiàn)讓 Opus 4.7 評(píng)委再次給出全 5 分的評(píng)價(jià)，評(píng)語(yǔ)“模塊化設(shè)計(jì)優(yōu)秀。”

代碼一開(kāi)頭就是規(guī)范的 dataclass 定義：

更令人印象深刻的是，它采用了抽象基類(lèi) + 子類(lèi)繼承的架構(gòu)：Employee 作為 ABC 抽象基類(lèi)定義 calculate_base() 接口，F(xiàn)ullTimeEmployee、PartTimeEmployee、OutsourceEmployee 分別實(shí)現(xiàn)各自的計(jì)薪邏輯。

個(gè)稅計(jì)算部分，嚴(yán)格遵循了累計(jì)預(yù)扣法，不是按月獨(dú)立估算，而是維護(hù)了 YTDData（Year-to-Date）累計(jì)數(shù)據(jù)結(jié)構(gòu)，正確處理了年初累計(jì)值傳遞。更難得的是，代碼還處理了公積金比例越界校驗(yàn)、累計(jì)稅負(fù)為負(fù)的兜底、浮點(diǎn)數(shù)精度四舍五入等邊界條件，這是能直接進(jìn)代碼倉(cāng)庫(kù)的水平。

DeepSeek V4 差的一分，丟在了工資單 Excel 導(dǎo)出的可維護(hù)性上。這部分的代碼功能實(shí)現(xiàn)了多 Sheet 生成、匯總表、表頭加粗、數(shù)字保留兩位小數(shù)、負(fù)數(shù)標(biāo)紅、自動(dòng)列寬等，已經(jīng)堪稱(chēng)完備，但是薪資項(xiàng)目仍部分硬編碼在字典 key 和字段列表中，未完全模板化配置。

通俗來(lái)說(shuō)，這意味著當(dāng)用戶(hù)需要新增一個(gè)”交通補(bǔ)貼”列，就需要修改字典 key 定義、Sheet 寫(xiě)入邏輯和匯總表統(tǒng)計(jì)邏輯三個(gè)地方。對(duì)比它在 DDL 設(shè)計(jì)中展現(xiàn)的抽象功力，這個(gè) Excel 實(shí)現(xiàn)確實(shí)“偷懶”了。

▎Bug 診斷：比 linter 更敏銳的眼睛

如果說(shuō)代碼生成考驗(yàn)的是“寫(xiě)出來(lái)”的能力，那么 Bug 診斷考驗(yàn)的就是”看出來(lái)”的能力。我們向 V4 提交了一段個(gè)稅計(jì)算代碼，并指出問(wèn)題是”個(gè)稅總是偏高”。

V4 的診斷過(guò)程堪稱(chēng)法醫(yī)級(jí)別：

“代碼在計(jì)算應(yīng)納稅所得額時(shí)，只扣除了社保、公積金和每月 5000 元的基本減除費(fèi)用，沒(méi)有扣除’專(zhuān)項(xiàng)附加扣除’（例如子女教育、繼續(xù)教育、大病醫(yī)療、住房貸款利息、住房租金、贍養(yǎng)老人等）。”

到這里，已經(jīng)是正確答案了。但 V4 沒(méi)有停，它還額外指出了五項(xiàng)潛在問(wèn)題：

1、負(fù)數(shù)應(yīng)納稅所得額未處理——當(dāng)收入低于扣除項(xiàng)時(shí)，原代碼會(huì)算出負(fù)稅額

2、社保公積金基數(shù)簡(jiǎn)化——實(shí)際有上下限，不能直接用全額工資

3、未使用累計(jì)預(yù)扣法——按月獨(dú)立計(jì)算不符合現(xiàn)行稅法

4、浮點(diǎn)數(shù)精度問(wèn)題——沒(méi)有 round(tax, 2)

5、區(qū)間下界 lo 閑置——代碼定義了但未使用，可以簡(jiǎn)化

一道”找 Bug”的題，它做出了代碼審查深度。

▎技術(shù)文檔：能把代碼講清楚的人

第八題要求基于前面的工資計(jì)算器項(xiàng)目，產(chǎn)出 README、API 文檔和技術(shù)方案說(shuō)明三份文檔。V4 拿到了 5, 5, 4 的成績(jī)，差的一分扣在技術(shù)選型的決策清晰度上，評(píng)委 Opus 4.7 認(rèn)為它“缺少與備選方案（如 Django ORM、pandas）的對(duì)比分析”。

但整體而言，三份文檔的結(jié)構(gòu)令人賞心悅目。README 遵循了”項(xiàng)目結(jié)構(gòu)→安裝→初始化→用法”的黃金路徑；API 文檔用表格列出了核心函數(shù)的參數(shù)和返回值；技術(shù)方案說(shuō)明則包含了架構(gòu)分層圖和擴(kuò)展方向。

特別值得稱(chēng)贊的是 API 文檔中的數(shù)據(jù)示例，不是干巴巴的參數(shù)列表，而是給出了完整的輸入輸出樣例。特別是在團(tuán)隊(duì)協(xié)作中，這種文檔，能讓一個(gè)剛剛接手任務(wù)的新人在 15 分鐘內(nèi)理解項(xiàng)目全貌。

Opus 4.7 評(píng)委的評(píng)語(yǔ)很到位：“三份文檔完整且結(jié)構(gòu)化，兼顧上手指南與架構(gòu)說(shuō)明，是一份高質(zhì)量的項(xiàng)目交接文檔?！?/span>

▎智能體能力：完成任務(wù)，但不夠驚艷

智能體測(cè)試部分，考察的是多步任務(wù)規(guī)劃與執(zhí)行能力。我們給了 V4 一組關(guān)于具身智能行業(yè)動(dòng)態(tài)的搜索結(jié)果，要求它提取信息、整理表格、寫(xiě)趨勢(shì)總結(jié)，最后組織成 Markdown 報(bào)告。

V4 的得分是任務(wù)分解 5 分、工具使用 4 分、自我糾錯(cuò) 4 分、任務(wù)完成度 5 分、狀態(tài)管理 5 分。Opus 4.7 評(píng)委的評(píng)語(yǔ)：“整體完成質(zhì)量高，報(bào)告結(jié)構(gòu)清晰、信息準(zhǔn)確，趨勢(shì)分析具有深度洞察?！?/span>

具體到產(chǎn)出質(zhì)量，V4 的 200 字趨勢(shì)總結(jié)寫(xiě)得相當(dāng)扎實(shí)：“近期具身智能領(lǐng)域的融資呈現(xiàn)出資本集中化與技術(shù)路徑差異化兩大顯著特征。頭部效應(yīng)初顯，如加速進(jìn)化獲得近 10 億元巨額融資……初創(chuàng)公司憑借獨(dú)特的技術(shù)路線(xiàn)仍能獲得資本垂青……。”

這段分析從”資本集中化”和”技術(shù)差異化”兩個(gè)維度切入，既有具體公司和金額的信息點(diǎn)又有賽道趨勢(shì)的全局呈現(xiàn)，末尾還點(diǎn)出了”清華系、中科大系等頂尖學(xué)術(shù)背景的復(fù)合型創(chuàng)業(yè)團(tuán)隊(duì)成為最大贏家”的結(jié)構(gòu)性觀察。

▎一周 KPI 考核表：偏科天才的績(jī)效面談

把工作流任務(wù)和智能體任務(wù)匯總，V4 的”一周考核”成績(jī)單如下：

從綜合評(píng)分可以看出，V4 在代碼生成/診斷類(lèi)任務(wù)中的表現(xiàn)約等于 4.8 分，達(dá)到頂尖水平，而文檔/智能體類(lèi)任務(wù)則約等于 4.3 分。

這組數(shù)據(jù)背后的畫(huà)像非常清晰，DeepSeek V4 Pro 是一個(gè)技術(shù)能力強(qiáng)到溢出的工程天才。你給它明確的需求，它能交出工業(yè)級(jí)的代碼。在真實(shí)團(tuán)隊(duì)里，這種人就是 CTO 的心頭肉，代碼不用改就能合并，架構(gòu)圖不用重畫(huà)就能落地。

那么對(duì)于普通開(kāi)發(fā)者而言，這意味著什么？

用 V4 的最佳方案，就是把需求拆成明確、具體的子任務(wù)，然后交給它寫(xiě)代碼。如果你已經(jīng)想清楚了要做什么，V4 可能是你能找到的最強(qiáng)幫手，從 Python 到 SQL，從架構(gòu)設(shè)計(jì)到性能優(yōu)化，它幾乎無(wú)所不能。

畢竟，能讓法拉利跑出比亞迪油耗的，全世界也沒(méi)幾個(gè)。

成本之仗：有人比拼便宜，有人重新定義貴

到此為止，可以算一筆賬。

對(duì) Agent 應(yīng)用而言，Input:Output 按 10:1 比例計(jì)算下，每天消耗 100 萬(wàn)輸入 token、10 萬(wàn)輸出 token 屬于正常量級(jí)。那么按各家當(dāng)前的 API 定價(jià)跑一個(gè)月：

在國(guó)產(chǎn)模型中，V4 Pro 的月成本是 Kimi K2.6 的約三分之一，GLM 5.1 的約一半。

這還不是最狠的。V4 Flash 性能接近 Pro，但推理成本壓到了極低，月成本只要 $504。這個(gè)數(shù)字來(lái)到了 Kimi 的八分之一，GLM 的六分之一。

當(dāng)然這里有一個(gè)重要的前提。V4 Pro 的折扣價(jià)（75% off）目前標(biāo)注“延續(xù)至 2026/5/31”，模型發(fā)布之初官方就表示，“受限于高端算力，目前 Pro 的服務(wù)吞吐十分有限，預(yù)計(jì)下半年昇騰 950 超節(jié)點(diǎn)批量上市后價(jià)格會(huì)大幅下調(diào)?！?/span>

未來(lái)如果國(guó)產(chǎn)算力跟上，這個(gè)價(jià)格仍有下降空間，但同樣也有回調(diào)的可能。但至少在當(dāng)下，它是三家里面最便宜的頂級(jí)模型，沒(méi)有之一。如果你是個(gè)用量大的開(kāi)發(fā)者，V4 Pro 的性?xún)r(jià)比幾乎沒(méi)有對(duì)手。

所以到底要不要把 V3 換成 V4，如果你是開(kāi)發(fā)者，那我的答案是當(dāng)然。

V4 相比 V3 的提升不是 5% 的邊際改善，而是多個(gè)核心能力的質(zhì)變。詩(shī)詞理解從“還不錯(cuò)”變成”頂尖”，代碼生成從“能用”變成”優(yōu)秀”，技術(shù)文檔從“還行”變成”優(yōu)秀”。智能體能力雖然沒(méi)拿滿(mǎn)分，但已經(jīng)足以應(yīng)對(duì)大多數(shù)工具調(diào)用場(chǎng)景。

而且 V4 Pro 現(xiàn)在的折扣價(jià)，和 V3 當(dāng)初的價(jià)格差不了太多?；ㄍ瑯拥腻X(qián)買(mǎi)更強(qiáng)的能力，這買(mǎi)賣(mài)不虧。

而如果你還不確定 Flash 和 Pro 要用哪個(gè)，我的建議是先用 Flash。Flash 的價(jià)格是 Pro 的約三分之一，但能力差距遠(yuǎn)小于價(jià)格差距。根據(jù)社區(qū)反饋，F(xiàn)lash 在非思考模式下已經(jīng)能解決 80% 以上的日常任務(wù)，思考模式下則能觸及 Pro 90% 以上的深度推理能力。

那么Pro 適合什么時(shí)候上？當(dāng)你的任務(wù)需要極致的代碼能力，或者需要 1M token 級(jí)的超長(zhǎng)上下文做深度文檔分析，又或者你對(duì)輸出質(zhì)量要求極高不能容忍“差不多”，否則，F(xiàn)lash 一定是更具性?xún)r(jià)比的選擇。

回到文章開(kāi)頭的問(wèn)題，DeepSeek V4 Pro 讓人失望了嗎？

或許更重要的問(wèn)題是，在今天的大模型之爭(zhēng)中，我們要如何定義失望。如果你期待的是一款拳打 GPT-5、腳踢 Claude Opus、同時(shí)支持多模態(tài)和實(shí)時(shí)聯(lián)網(wǎng)、還能秒回你每一條消息的”全能之神”，那這種失望幾乎是注定的。V4 Pro 不是，也沒(méi)必要成為那種模型。

但如果你期待的是用三分之一的價(jià)格，得到接近甚至超越國(guó)際頂尖閉源模型的核心能力，那么V4 Pro 不僅不讓人失望，反而是一次令人驚喜的交付。

讓我們用數(shù)據(jù)說(shuō)話(huà)。回顧一下 V4 Pro 在我們實(shí)測(cè)中的表現(xiàn)：

? 詩(shī)詞理解：平均 4.75/5，頂尖

? 法律引用：約 4.5/5，優(yōu)秀

? 翻譯：定性 A+

? 代碼生成：4.9/5，頂尖

? 技術(shù)文檔：4.7/5，優(yōu)秀

? 智能體能力：4.6/5，良好

這份成績(jī)單，放在任何一家國(guó)產(chǎn)模型身上，都堪稱(chēng)亮眼。而放在一個(gè) API 價(jià)格比競(jìng)品便宜 3-5 倍的模型身上，則算得上離譜。

DeepSeek 給自己的定位也很清醒。官方在發(fā)布文檔里明確寫(xiě)了：“V4-Pro-Max 在標(biāo)準(zhǔn)推理 benchmark 上整體性能略遜于 GPT-5.4 和 Gemini-3.1-Pro，表明其發(fā)展軌跡大約落后最前沿閉源模型 3 到 6 個(gè)月?！泵鎸?duì)打了雞血一樣的市場(chǎng)情緒，DeepSeek 就是一句平平淡淡的“還差一截”。

那么 3 到 6 個(gè)月的差距，值 3 到 5 倍的價(jià)格差嗎？

對(duì)大多數(shù)開(kāi)發(fā)者和企業(yè)來(lái)說(shuō)，答案是肯定的。V4 Pro 在代碼、文檔、寫(xiě)作、翻譯等核心生產(chǎn)力場(chǎng)景上表現(xiàn)，已經(jīng)好到可以讓你忘記那份差距，心安理得地省下一大筆錢(qián)。所以如果你問(wèn)我 V4 Pro 值不值得用，它在該行的地方行，不行的也沒(méi)硬撐，這恰恰是一款好模型該有的樣子。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

排名第九、國(guó)內(nèi)第二，DeepSeek V4 憑什么讓人又愛(ài)又恨？

“榜單第九”，到底在失望什么