97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

本文作者: 梁丙鑒   2026-05-31 14:31
導(dǎo)語(yǔ):一周真實(shí)業(yè)務(wù)流、四個(gè)中國(guó)特色場(chǎng)景和三百組對(duì)比測(cè)試,V4到底行不行?


雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))訊 DeepSeek V3 有多震撼,V4 給人的落差就有多大。


4 月 24 號(hào)那天,我打開(kāi)微信,看到群里一條條的“就這”、“還行”,忽然想起 DeepSeek V3 “炸群”的那天。當(dāng)時(shí)有人說(shuō) OpenAI 的棺材板要壓不住了,還有人干脆把 V3 的跑分截圖設(shè)成了手機(jī)壁紙。

V4 呢?

Vals AI 說(shuō)它是全球第九,中國(guó)國(guó)內(nèi)第二。有開(kāi)發(fā)者直接向媒體表示略感失望,DeepSeek 自己也承認(rèn),Agentic Coding 比 Opus 4.6 思考模式還有差距,世界知識(shí)也不如 Gemini。

但當(dāng)我把它塞進(jìn)一個(gè) workflow 里跑上一周,測(cè)了一堆只有中國(guó)開(kāi)發(fā)者才懂的場(chǎng)景之后,我發(fā)現(xiàn) V4 或許無(wú)法復(fù)刻 V3 帶來(lái)的震撼,但它仍然是 DeepSeek 最重要的作品之一。

至于原因,我想先談?wù)勈摚降自谑裁础?/span>

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

01

“榜單第九”,到底在失望什么

DeepSeek V4 平均準(zhǔn)確率 63.87% 的成績(jī),出自 Vals AI 的測(cè)評(píng)。這個(gè)測(cè)評(píng)集覆蓋金融、法律、編程、多語(yǔ)言等維度,V4 全球排名第九,國(guó)內(nèi)僅次于 Kimi K2.6。排在它前面的,有 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,全是閉源模型。

數(shù)據(jù)本身沒(méi)有問(wèn)題,但解讀方式很值得挖一挖。如果 Vals AI 用美國(guó)律師資格考試、英國(guó)金融合規(guī)題、英文編程競(jìng)賽來(lái)排名,那跟我一個(gè)寫(xiě)微信小程序、讀李商隱、寫(xiě)八項(xiàng)規(guī)定學(xué)習(xí)心得的中國(guó)用戶(hù),有什么關(guān)系?

更關(guān)鍵的是,Vals AI 不測(cè)中文古詩(shī)詞理解、中國(guó)法律法規(guī)引用、中文網(wǎng)絡(luò)梗的理解,也不測(cè)公文寫(xiě)作水平或者把“新質(zhì)生產(chǎn)力”翻譯成英文的時(shí)候會(huì)不會(huì)胡編。而這些,才是中國(guó)用戶(hù)會(huì)面對(duì)的場(chǎng)景。

所以我們重新設(shè)計(jì)了一套評(píng)測(cè)方案。包括古詩(shī)詞、法律、網(wǎng)絡(luò)梗、公文、翻譯五大中國(guó)特色場(chǎng)景,外加完整的開(kāi)發(fā)工作流實(shí)測(cè),重新衡量一下 V4 的表現(xiàn)。

在古詩(shī)詞和法律維度,我們邀請(qǐng)了 Opus 4.7 作為裁判模型評(píng)分,工作流維度從可運(yùn)行性、可讀性、可維護(hù)性三個(gè)工程指標(biāo)評(píng)估,智能體維度則考察任務(wù)分解、工具使用、自我糾錯(cuò)、任務(wù)完成度、狀態(tài)管理五項(xiàng)能力。

結(jié)果,很耐人尋味。

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

02

四個(gè)“只有中國(guó)人懂”的測(cè)試

V4 到底是真懂中文語(yǔ)境,還是只會(huì)背標(biāo)準(zhǔn)答案?我們先從最“不實(shí)用”的一項(xiàng)測(cè)起,中國(guó)古詩(shī)詞深層理解。

其實(shí)讓大模型讀古詩(shī),有點(diǎn)像讓老外聽(tīng)相聲,懂字面意思還不夠,重點(diǎn)是明白弦外之音的包袱。V4 在這件事上的表現(xiàn),直接體現(xiàn)了它到底有沒(méi)有“中國(guó)心”。

我們選擇了李商隱的《無(wú)題》,要求 V4 逐層剝開(kāi)“春蠶到死絲方盡”中”絲”的三層含義。小時(shí)候老師講過(guò)這句詩(shī),除了蠶絲和“思”的諧音,這個(gè)字還傳神地表現(xiàn)出了思念的纏綿特質(zhì)。而令我驚喜的是,DeepSeek V4 在這三個(gè)答案之外,還提出了一個(gè)教科書(shū)里沒(méi)有提到的層次,“生命之質(zhì)”。

“將’絲’提升為一種生命元質(zhì),象征著人的生命力、精神與靈魂的耗盡過(guò)程。蠶的生命由絲構(gòu)成,人的生命由情思支撐,二者在’生命本質(zhì)的外化與耗盡’這一層面上合二為一。”

更妙的是,當(dāng)我問(wèn)它能不能把原句改為“思方盡”,V4 稱(chēng)這會(huì)導(dǎo)致“整個(gè)詩(shī)意將發(fā)生質(zhì)的降級(jí),從一座立體的詩(shī)歌建筑坍縮為一個(gè)單薄的陳述句?!?/span>

顯然,這種分析不是能靠背誦百度百科做到的。

而整個(gè)測(cè)過(guò)過(guò)程中,V4 讓我印象最深刻的一段輸出,是對(duì)杜甫“國(guó)破山河在”中“在”字的解讀。

它寫(xiě)道:“’國(guó)破’與’山河在’之間形成了一個(gè)巨大的情感裂谷。‘國(guó)破’是人事的徹底崩塌,’山河在’是自然的永恒漠然?!毕旅娴倪@句話(huà),我讀到時(shí)停下來(lái)看了三遍:“你失去了整個(gè)世界,而世界若無(wú)其事?!?/span>

Opus 4.7 評(píng)委給了近乎滿(mǎn)分的評(píng)價(jià),準(zhǔn)確性 5、洞察力 5、文化敏感度 5。評(píng)語(yǔ)是:“‘剝奪了與萬(wàn)物同悲的幻想’‘被世界拋棄的存在性孤獨(dú)’‘美與殘酷同時(shí)抵達(dá)頂峰’等表達(dá)極具個(gè)人體悟,超出教科書(shū)式的解讀?!?/span>

可以說(shuō),在中文古詩(shī)詞深層理解上,V4 的表現(xiàn)是當(dāng)下所有大模型中最頂尖的之一。它不僅僅在做詩(shī)歌閱讀理解題,而是讓我有了種一窺詩(shī)人精神世界的感覺(jué)。

第二組測(cè)試聚焦中國(guó)法律法規(guī)的引用準(zhǔn)確性。

這組題的設(shè)計(jì)邏輯很直接,大模型在法律領(lǐng)域的最大風(fēng)險(xiǎn)不是”答得不好”,而是”編造法條”,一本正經(jīng)地引用一條根本不存在的法律,專(zhuān)業(yè)律師沒(méi)準(zhǔn)也得琢磨琢磨。

而 5 道題測(cè)下來(lái),V4 做到了法條引用零幻覺(jué)。

《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例》第 38 條下有兩款規(guī)定,但我們?cè)O(shè)置了一個(gè)陷阱,請(qǐng) V4 解讀一下第三款的內(nèi)容。很多模型在這種情況下會(huì)硬著頭皮編造,但 V4 的處理堪稱(chēng)教科書(shū)級(jí)別:

“《條例》第 38 條內(nèi)容是關(guān)于主管部門(mén)對(duì)網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)督檢查的禁止性規(guī)定,其僅有 2 款,并無(wú)第 3 款。你問(wèn)及的‘向主管部門(mén)公示用戶(hù)數(shù)據(jù)收集情況’的義務(wù),實(shí)際上規(guī)定在《條例》其他條款中?!?/span>

隨后,它沒(méi)有就此停筆,而是主動(dòng)幫用戶(hù)梳理了真正相關(guān)的條款(第 26 條、第 36 條、第 19 條、第 21 條),并逐一引用原文、說(shuō)明適用情形。

敢于說(shuō)”找不到”,還能引導(dǎo)你到正確的地方,這種“負(fù)責(zé)任的不知道”,正是模型落地最珍貴的能力。

在另外四道題的測(cè)試中,我們也人工核對(duì)了 V4 引用的每一個(gè)法條,均為真實(shí)存在。在法律這個(gè)”寧可答得慢,也不能答得假”的領(lǐng)域,零幻覺(jué)是最硬的指標(biāo)。

下面的測(cè)試,是關(guān)于 V4 對(duì)中文網(wǎng)絡(luò)梗與亞文化的理解。我們發(fā)現(xiàn)它是 5G 沖浪選手,但也會(huì)自信瞎編。

這組測(cè)試有 6 道題,沒(méi)有正式評(píng)分,只做定性觀察。我們關(guān)注的核心問(wèn)題是,一個(gè) AI 能不能理解”遙遙領(lǐng)先”為什么是陰陽(yáng)怪氣的萬(wàn)能鑰匙?而面對(duì)一個(gè)根本不存在的梗,它敢不敢說(shuō)”我不知道”?

首先是“遙遙領(lǐng)先”的符號(hào)演變分析,V4 準(zhǔn)確追溯到了余承東和華為 Mate 60 的發(fā)布,還歸納了三種使用語(yǔ)氣,分別是真誠(chéng)的自豪、調(diào)侃幽默、諷刺反話(huà)。在那個(gè)成功造梗的視頻中,V4 還解析了“夢(mèng)開(kāi)始的地方”“前方高能”“下次一定”等 B 站彈幕,每一條都標(biāo)注了字面意思、實(shí)際用法、出現(xiàn)位置和觀眾心理模式,甚至連“翻譯難度”都做了分級(jí)判斷。

還有一道職場(chǎng)對(duì)話(huà)分析題:“你這次方案做得也挺好的呀,雖然大家都不這么做,但你有自己的想法嘛,挺好的挺好的?!?/span>

V4 逐字拆解了這段話(huà)的語(yǔ)言策略:

“也挺好的”:也’是勉強(qiáng)附和的信號(hào);

“雖然大家都不這么做”:通過(guò)預(yù)設(shè)“不合群”來(lái)委婉指出方案是異類(lèi);

“挺好的挺好的”:機(jī)械重復(fù)恰恰是敷衍、想快速結(jié)束話(huà)題的標(biāo)志;

“不用管大家怎么說(shuō)”:表面挺你,實(shí)則切斷提醒你的可能性;

然后給出了直白翻譯:“你這次方案其實(shí)做得很一般,跟大家正常的做法根本不一樣。我懶得跟你認(rèn)真討論了,反正你覺(jué)得自己挺有想法的,那就照你的想法繼續(xù)弄吧,到時(shí)候出了問(wèn)題你自己看著辦?!?/span>

做完這項(xiàng)測(cè)試,我開(kāi)始理解網(wǎng)上有人用 AI 當(dāng)職場(chǎng)翻譯器了。

不過(guò)有一道測(cè)試暴露了嚴(yán)重問(wèn)題。我們故意問(wèn)了一個(gè)根本不存在的梗,“電子嘔吐”,而 V4 的反應(yīng)卻是洋洋灑灑一千多字的”深度解析”,來(lái)源、含義、使用場(chǎng)景、文化解讀一應(yīng)俱全。

它說(shuō),“電子嘔吐是一個(gè)最近在中文互聯(lián)網(wǎng)上很火的網(wǎng)絡(luò)流行語(yǔ),形容的是一種在社交媒體上的情緒宣泄行為……”。V4 甚至還這個(gè)梗編了兩種用法,分別是人類(lèi)情緒宣泄和 AI 生成低質(zhì)量?jī)?nèi)容,乍一聽(tīng)頭頭是道,唯一的問(wèn)題是,這個(gè)梗根本不存在。

正確的做法,是承認(rèn)自己不了解這個(gè)說(shuō)法,推測(cè)可能是新出現(xiàn)的表達(dá),建議提供上下文。

最后的考驗(yàn)是翻譯,不是單純地將一種語(yǔ)言變成另一種,而是把中國(guó)話(huà)講成世界聽(tīng)得懂、愿意聽(tīng)的樣子。

我們準(zhǔn)備的 6 道翻譯題中,覆蓋政策術(shù)語(yǔ)、企業(yè)用語(yǔ)、經(jīng)典標(biāo)語(yǔ)、成語(yǔ)比喻、長(zhǎng)段落綜合翻譯。這項(xiàng)測(cè)試同樣沒(méi)有量化評(píng)分,但 V4 的表現(xiàn)可以說(shuō)是游刃有余。

首先是政策術(shù)語(yǔ),V4 不僅精準(zhǔn)使用了“新質(zhì)生產(chǎn)力”的官方譯法 “new quality productive forces”,還解釋了”新質(zhì)”在政策語(yǔ)境中的四層含義,即技術(shù)革命驅(qū)動(dòng)、要素重組與躍升、全要素生產(chǎn)率提升、先進(jìn)生產(chǎn)力質(zhì)態(tài),并提供了兩種備選譯法及其優(yōu)劣對(duì)比。

更出色的是“綠水青山就是金山銀山”的分場(chǎng)景處理。V4 指出官方文件應(yīng)采用 “Lucid waters and lush mountains are invaluable assets”(官方定譯,概念化、抽象化),而如果是旅游景區(qū)宣傳牌則可保留 “mountains of gold and silver” 的具象比喻,如 “Green hills and clear waters are the real gold and silver”。

同一個(gè)詞組,在不同場(chǎng)景中給出不同譯法,這種對(duì)語(yǔ)境的敏感恰恰是很多翻譯模型缺乏的。

還有排比節(jié)奏的巧思,在“做大做強(qiáng)做優(yōu)國(guó)有資本”中,有三個(gè)兩字段動(dòng)詞形成了排比。V4 的處理堪稱(chēng)巧妙,它選用三個(gè)以 -er 結(jié)尾的比較級(jí)形容詞,“Make state-owned capital bigger, stronger, and better”,三詞均為單音節(jié)或雙音節(jié),長(zhǎng)短一致,產(chǎn)生了一種類(lèi)似詩(shī)句的頓挫感,恰好再現(xiàn)了中文排比的韻律美和氣勢(shì)。

四組“只有中國(guó)人懂”的測(cè)試跑完,我們發(fā)現(xiàn)的一個(gè)有趣規(guī)律是,在詩(shī)詞理解、中文翻譯等需要“中國(guó)心”的領(lǐng)域,V4 表現(xiàn)最強(qiáng)。它的確不是全能的,但對(duì)于中文,確實(shí)比大多數(shù)對(duì)手更懂。

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

03

當(dāng)一周牛馬——開(kāi)發(fā)者真實(shí)工作流實(shí)測(cè)

把大模型當(dāng)”賽博同事”用上一整周,它會(huì)是什么樣的員工?

這是我們?cè)O(shè)計(jì)的最接近真實(shí)開(kāi)發(fā)節(jié)奏的一組測(cè)試,涵蓋了從數(shù)據(jù)庫(kù)設(shè)計(jì)到核心代碼編寫(xiě),從 Bug 診斷到性能優(yōu)化,從技術(shù)文檔到智能體任務(wù)的完整項(xiàng)目周期。

其中涉及八項(xiàng)任務(wù),全部交給了 DeepSeek V4 Pro。這個(gè)過(guò)程中沒(méi)有標(biāo)準(zhǔn)答案參考,也沒(méi)有多選題提供容錯(cuò)空間,每一行代碼都要經(jīng)得起編譯器和人類(lèi)評(píng)委的雙重審視。

結(jié)果?V4 是一個(gè)代碼能力溢出的工程天才。

代碼生成的絕對(duì)主場(chǎng)

第一題要求 V4 設(shè)計(jì)一個(gè)支持全職、兼職、外包三種員工的工資系統(tǒng)數(shù)據(jù)庫(kù)。V4 給出的 PostgreSQL DDL,Opus 4.7 評(píng)委直接給了滿(mǎn)分三連,可運(yùn)行性、可讀性、可維護(hù)性均為 5 分。

它的設(shè)計(jì)思路堪稱(chēng)優(yōu)雅,沒(méi)有硬編碼三種員工類(lèi)型,而是用字典表 employee_types 統(tǒng)一管理。對(duì)于工資部分,V4 也沒(méi)有為每種工資項(xiàng)都寫(xiě)個(gè)獨(dú)立字段,而是用 salary_items 字典表 + employee_salary_structure 結(jié)構(gòu)表,堪稱(chēng)教科書(shū)級(jí)的抽象。

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

'E' 代表收入,'D' 代表扣除,is_taxable 標(biāo)記是否計(jì)稅。這種設(shè)計(jì)意味著,當(dāng)公司需要新增一個(gè)”通訊補(bǔ)貼”或者調(diào)整計(jì)稅規(guī)則,不需要改表結(jié)構(gòu),只需插入一條配置數(shù)據(jù)。

對(duì)此,Opus 4.7 評(píng)委的原話(huà)是:“設(shè)計(jì)專(zhuān)業(yè)、抽象得當(dāng),兼具可執(zhí)行性與可擴(kuò)展性,是一個(gè)優(yōu)秀的工資計(jì)算數(shù)據(jù)庫(kù)模型?!?/span>

測(cè)試任務(wù)還包括工資計(jì)算核心邏輯的 Python 實(shí)現(xiàn),其中要求包含類(lèi)型注解和文檔字符串。V4 的表現(xiàn)讓 Opus 4.7 評(píng)委再次給出全 5 分的評(píng)價(jià),評(píng)語(yǔ)“模塊化設(shè)計(jì)優(yōu)秀。”

代碼一開(kāi)頭就是規(guī)范的 dataclass 定義:

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

更令人印象深刻的是,它采用了抽象基類(lèi) + 子類(lèi)繼承的架構(gòu):Employee 作為 ABC 抽象基類(lèi)定義 calculate_base() 接口,F(xiàn)ullTimeEmployee、PartTimeEmployee、OutsourceEmployee 分別實(shí)現(xiàn)各自的計(jì)薪邏輯。

個(gè)稅計(jì)算部分,嚴(yán)格遵循了累計(jì)預(yù)扣法,不是按月獨(dú)立估算,而是維護(hù)了 YTDData(Year-to-Date)累計(jì)數(shù)據(jù)結(jié)構(gòu),正確處理了年初累計(jì)值傳遞。更難得的是,代碼還處理了公積金比例越界校驗(yàn)、累計(jì)稅負(fù)為負(fù)的兜底、浮點(diǎn)數(shù)精度四舍五入等邊界條件,這是能直接進(jìn)代碼倉(cāng)庫(kù)的水平。

DeepSeek V4 差的一分,丟在了工資單 Excel 導(dǎo)出的可維護(hù)性上。這部分的代碼功能實(shí)現(xiàn)了多 Sheet 生成、匯總表、表頭加粗、數(shù)字保留兩位小數(shù)、負(fù)數(shù)標(biāo)紅、自動(dòng)列寬等,已經(jīng)堪稱(chēng)完備,但是薪資項(xiàng)目仍部分硬編碼在字典 key 和字段列表中,未完全模板化配置。

通俗來(lái)說(shuō),這意味著當(dāng)用戶(hù)需要新增一個(gè)”交通補(bǔ)貼”列,就需要修改字典 key 定義、Sheet 寫(xiě)入邏輯和匯總表統(tǒng)計(jì)邏輯三個(gè)地方。對(duì)比它在 DDL 設(shè)計(jì)中展現(xiàn)的抽象功力,這個(gè) Excel 實(shí)現(xiàn)確實(shí)“偷懶”了。

Bug 診斷:比 linter 更敏銳的眼睛

如果說(shuō)代碼生成考驗(yàn)的是“寫(xiě)出來(lái)”的能力,那么 Bug 診斷考驗(yàn)的就是”看出來(lái)”的能力。我們向 V4 提交了一段個(gè)稅計(jì)算代碼,并指出問(wèn)題是”個(gè)稅總是偏高”。

V4 的診斷過(guò)程堪稱(chēng)法醫(yī)級(jí)別:

“代碼在計(jì)算應(yīng)納稅所得額時(shí),只扣除了社保、公積金和每月 5000 元的基本減除費(fèi)用,沒(méi)有扣除’專(zhuān)項(xiàng)附加扣除’(例如子女教育、繼續(xù)教育、大病醫(yī)療、住房貸款利息、住房租金、贍養(yǎng)老人等)。”

到這里,已經(jīng)是正確答案了。但 V4 沒(méi)有停,它還額外指出了五項(xiàng)潛在問(wèn)題:

1、負(fù)數(shù)應(yīng)納稅所得額未處理——當(dāng)收入低于扣除項(xiàng)時(shí),原代碼會(huì)算出負(fù)稅額

2、社保公積金基數(shù)簡(jiǎn)化——實(shí)際有上下限,不能直接用全額工資

3、未使用累計(jì)預(yù)扣法——按月獨(dú)立計(jì)算不符合現(xiàn)行稅法

4、浮點(diǎn)數(shù)精度問(wèn)題——沒(méi)有 round(tax, 2)

5、區(qū)間下界 lo 閑置——代碼定義了但未使用,可以簡(jiǎn)化

一道”找 Bug”的題,它做出了代碼審查深度。

技術(shù)文檔:能把代碼講清楚的人

第八題要求基于前面的工資計(jì)算器項(xiàng)目,產(chǎn)出 README、API 文檔和技術(shù)方案說(shuō)明三份文檔。V4 拿到了 5, 5, 4 的成績(jī),差的一分扣在技術(shù)選型的決策清晰度上,評(píng)委 Opus 4.7 認(rèn)為它“缺少與備選方案(如 Django ORM、pandas)的對(duì)比分析”。

但整體而言,三份文檔的結(jié)構(gòu)令人賞心悅目。README 遵循了”項(xiàng)目結(jié)構(gòu)→安裝→初始化→用法”的黃金路徑;API 文檔用表格列出了核心函數(shù)的參數(shù)和返回值;技術(shù)方案說(shuō)明則包含了架構(gòu)分層圖和擴(kuò)展方向。

特別值得稱(chēng)贊的是 API 文檔中的數(shù)據(jù)示例,不是干巴巴的參數(shù)列表,而是給出了完整的輸入輸出樣例。特別是在團(tuán)隊(duì)協(xié)作中,這種文檔,能讓一個(gè)剛剛接手任務(wù)的新人在 15 分鐘內(nèi)理解項(xiàng)目全貌。

Opus 4.7 評(píng)委的評(píng)語(yǔ)很到位:“三份文檔完整且結(jié)構(gòu)化,兼顧上手指南與架構(gòu)說(shuō)明,是一份高質(zhì)量的項(xiàng)目交接文檔?!?/span>

智能體能力:完成任務(wù),但不夠驚艷

智能體測(cè)試部分,考察的是多步任務(wù)規(guī)劃與執(zhí)行能力。我們給了 V4 一組關(guān)于具身智能行業(yè)動(dòng)態(tài)的搜索結(jié)果,要求它提取信息、整理表格、寫(xiě)趨勢(shì)總結(jié),最后組織成 Markdown 報(bào)告。

V4 的得分是任務(wù)分解 5 分、工具使用 4 分、自我糾錯(cuò) 4 分、任務(wù)完成度 5 分、狀態(tài)管理 5 分。Opus 4.7 評(píng)委的評(píng)語(yǔ):“整體完成質(zhì)量高,報(bào)告結(jié)構(gòu)清晰、信息準(zhǔn)確,趨勢(shì)分析具有深度洞察?!?/span>

具體到產(chǎn)出質(zhì)量,V4 的 200 字趨勢(shì)總結(jié)寫(xiě)得相當(dāng)扎實(shí):“近期具身智能領(lǐng)域的融資呈現(xiàn)出資本集中化與技術(shù)路徑差異化兩大顯著特征。頭部效應(yīng)初顯,如加速進(jìn)化獲得近 10 億元巨額融資……初創(chuàng)公司憑借獨(dú)特的技術(shù)路線(xiàn)仍能獲得資本垂青……。”

這段分析從”資本集中化”和”技術(shù)差異化”兩個(gè)維度切入,既有具體公司和金額的信息點(diǎn)又有賽道趨勢(shì)的全局呈現(xiàn),末尾還點(diǎn)出了”清華系、中科大系等頂尖學(xué)術(shù)背景的復(fù)合型創(chuàng)業(yè)團(tuán)隊(duì)成為最大贏家”的結(jié)構(gòu)性觀察。

一周 KPI 考核表:偏科天才的績(jī)效面談

把工作流任務(wù)和智能體任務(wù)匯總,V4 的”一周考核”成績(jī)單如下:

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

從綜合評(píng)分可以看出,V4 在代碼生成/診斷類(lèi)任務(wù)中的表現(xiàn)約等于 4.8 分,達(dá)到頂尖水平,而文檔/智能體類(lèi)任務(wù)則約等于 4.3 分。

這組數(shù)據(jù)背后的畫(huà)像非常清晰,DeepSeek V4 Pro 是一個(gè)技術(shù)能力強(qiáng)到溢出的工程天才。你給它明確的需求,它能交出工業(yè)級(jí)的代碼。在真實(shí)團(tuán)隊(duì)里,這種人就是 CTO 的心頭肉,代碼不用改就能合并,架構(gòu)圖不用重畫(huà)就能落地。

那么對(duì)于普通開(kāi)發(fā)者而言,這意味著什么?

用 V4 的最佳方案,就是把需求拆成明確、具體的子任務(wù),然后交給它寫(xiě)代碼。如果你已經(jīng)想清楚了要做什么,V4 可能是你能找到的最強(qiáng)幫手,從 Python 到 SQL,從架構(gòu)設(shè)計(jì)到性能優(yōu)化,它幾乎無(wú)所不能。

畢竟,能讓法拉利跑出比亞迪油耗的,全世界也沒(méi)幾個(gè)。

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

04

成本之仗:有人比拼便宜,有人重新定義貴

到此為止,可以算一筆賬。

對(duì) Agent 應(yīng)用而言,Input:Output 按 10:1 比例計(jì)算下,每天消耗 100 萬(wàn)輸入 token、10 萬(wàn)輸出 token 屬于正常量級(jí)。那么按各家當(dāng)前的 API 定價(jià)跑一個(gè)月:

排名第九、國(guó)內(nèi)第二,DeepSeek V4 憑什么讓人又愛(ài)又恨?

在國(guó)產(chǎn)模型中,V4 Pro 的月成本是 Kimi K2.6 的約三分之一,GLM 5.1 的約一半。

這還不是最狠的。V4 Flash 性能接近 Pro,但推理成本壓到了極低,月成本只要 $504。這個(gè)數(shù)字來(lái)到了 Kimi 的八分之一,GLM 的六分之一。

當(dāng)然這里有一個(gè)重要的前提。V4 Pro 的折扣價(jià)(75% off)目前標(biāo)注“延續(xù)至 2026/5/31”,模型發(fā)布之初官方就表示,“受限于高端算力,目前 Pro 的服務(wù)吞吐十分有限,預(yù)計(jì)下半年昇騰 950 超節(jié)點(diǎn)批量上市后價(jià)格會(huì)大幅下調(diào)?!?/span>

未來(lái)如果國(guó)產(chǎn)算力跟上,這個(gè)價(jià)格仍有下降空間,但同樣也有回調(diào)的可能。但至少在當(dāng)下,它是三家里面最便宜的頂級(jí)模型,沒(méi)有之一。如果你是個(gè)用量大的開(kāi)發(fā)者,V4 Pro 的性?xún)r(jià)比幾乎沒(méi)有對(duì)手。

所以到底要不要把 V3 換成 V4,如果你是開(kāi)發(fā)者,那我的答案是當(dāng)然。

V4 相比 V3 的提升不是 5% 的邊際改善,而是多個(gè)核心能力的質(zhì)變。詩(shī)詞理解從“還不錯(cuò)”變成”頂尖”,代碼生成從“能用”變成”優(yōu)秀”,技術(shù)文檔從“還行”變成”優(yōu)秀”。智能體能力雖然沒(méi)拿滿(mǎn)分,但已經(jīng)足以應(yīng)對(duì)大多數(shù)工具調(diào)用場(chǎng)景。

而且 V4 Pro 現(xiàn)在的折扣價(jià),和 V3 當(dāng)初的價(jià)格差不了太多?;ㄍ瑯拥腻X(qián)買(mǎi)更強(qiáng)的能力,這買(mǎi)賣(mài)不虧。

而如果你還不確定 Flash 和 Pro 要用哪個(gè),我的建議是先用 Flash。Flash 的價(jià)格是 Pro 的約三分之一,但能力差距遠(yuǎn)小于價(jià)格差距。根據(jù)社區(qū)反饋,F(xiàn)lash 在非思考模式下已經(jīng)能解決 80% 以上的日常任務(wù),思考模式下則能觸及 Pro 90% 以上的深度推理能力。

那么Pro 適合什么時(shí)候上?當(dāng)你的任務(wù)需要極致的代碼能力,或者需要 1M token 級(jí)的超長(zhǎng)上下文做深度文檔分析,又或者你對(duì)輸出質(zhì)量要求極高不能容忍“差不多”,否則,F(xiàn)lash 一定是更具性?xún)r(jià)比的選擇。

回到文章開(kāi)頭的問(wèn)題,DeepSeek V4 Pro 讓人失望了嗎?

或許更重要的問(wèn)題是,在今天的大模型之爭(zhēng)中,我們要如何定義失望。如果你期待的是一款拳打 GPT-5、腳踢 Claude Opus、同時(shí)支持多模態(tài)和實(shí)時(shí)聯(lián)網(wǎng)、還能秒回你每一條消息的”全能之神”,那這種失望幾乎是注定的。V4 Pro 不是,也沒(méi)必要成為那種模型。

但如果你期待的是用三分之一的價(jià)格,得到接近甚至超越國(guó)際頂尖閉源模型的核心能力,那么V4 Pro 不僅不讓人失望,反而是一次令人驚喜的交付。

讓我們用數(shù)據(jù)說(shuō)話(huà)。回顧一下 V4 Pro 在我們實(shí)測(cè)中的表現(xiàn):

詩(shī)詞理解:平均 4.75/5,頂尖

法律引用:約 4.5/5,優(yōu)秀

翻譯:定性 A+

代碼生成:4.9/5,頂尖

技術(shù)文檔:4.7/5,優(yōu)秀

智能體能力:4.6/5,良好

這份成績(jī)單,放在任何一家國(guó)產(chǎn)模型身上,都堪稱(chēng)亮眼。而放在一個(gè) API 價(jià)格比競(jìng)品便宜 3-5 倍的模型身上,則算得上離譜。

DeepSeek 給自己的定位也很清醒。官方在發(fā)布文檔里明確寫(xiě)了:“V4-Pro-Max 在標(biāo)準(zhǔn)推理 benchmark 上整體性能略遜于 GPT-5.4 和 Gemini-3.1-Pro,表明其發(fā)展軌跡大約落后最前沿閉源模型 3 到 6 個(gè)月?!泵鎸?duì)打了雞血一樣的市場(chǎng)情緒,DeepSeek 就是一句平平淡淡的“還差一截”。

那么 3 到 6 個(gè)月的差距,值 3 到 5 倍的價(jià)格差嗎?

對(duì)大多數(shù)開(kāi)發(fā)者和企業(yè)來(lái)說(shuō),答案是肯定的。V4 Pro 在代碼、文檔、寫(xiě)作、翻譯等核心生產(chǎn)力場(chǎng)景上表現(xiàn),已經(jīng)好到可以讓你忘記那份差距,心安理得地省下一大筆錢(qián)。所以如果你問(wèn)我 V4 Pro 值不值得用,它在該行的地方行,不行的也沒(méi)硬撐,這恰恰是一款好模型該有的樣子。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)
曲水县| 卓尼县| 台北县| 瓦房店市| 武汉市| 承德市| 五莲县| 砀山县| 北辰区| 斗六市| 武汉市| 纳雍县| 嘉荫县| 蕲春县| 田阳县| 乐都县| 兴城市| 长岛县| 多伦县| 建瓯市| 长沙县| 三明市| 静海县| 勐海县| 石台县| 页游| 沂水县| 岳阳县| 神农架林区| 耒阳市| 荥阳市| 乌什县| 寿阳县| 苍溪县| 兴宁市| 武义县| 寿宁县| 仙游县| 临海市| 淳安县| 无为县|