巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

本文作者：包永剛

2022-03-23 01:05

導(dǎo)語：GTC2022上，英偉達(dá)還帶來了最強(qiáng)大的CPU。

英偉達(dá)（Nvidia）一年一度的GTC大會如期而至，兩年一更新的GPU架構(gòu)Hopper也正式亮相。

今年，NVIDIA創(chuàng)始人兼CEO黃仁勛在英偉達(dá)新總部大樓發(fā)布了一系列新品，從新架構(gòu)GPU H100，到Grace CPU 超級芯片，再到汽車、邊緣計算的硬件新品，以及全面的軟件更新。

英偉達(dá)的全新發(fā)布再次向外界宣告，英偉達(dá)不止是一家芯片公司，而是全棧計算公司。他們正在加強(qiáng)其在AI、汽車等領(lǐng)域的領(lǐng)導(dǎo)力，同時也在努力占領(lǐng)下一波AI浪潮以及元宇宙的先機(jī)。

當(dāng)然，作為一家發(fā)明GPU的公司，英偉達(dá)的全新GPU架構(gòu)依舊是GTC 2022最值得關(guān)注的新品。

Nvidia Hopper新架構(gòu)以美國計算機(jī)領(lǐng)域的先驅(qū)科學(xué)家 Grace Hopper 的名字命名，將取代兩年前推出的 NVIDIA Ampere 架構(gòu)。相比上一代產(chǎn)品，基于Hopper架構(gòu)的H100 GPU實現(xiàn)了數(shù)量級的性能飛躍。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

黃仁勛表示，20個 H100 GPU 便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量，使其能夠幫助客戶推出先進(jìn)的推薦系統(tǒng)以及實時運(yùn)行數(shù)據(jù)推理的大型語言模型。

基于H100 GPU構(gòu)建的各種系統(tǒng)，以及與Grace CPU 超級芯片組合的各種系統(tǒng)，配合英偉達(dá)多年構(gòu)建強(qiáng)大的軟件生態(tài)，將成為了英偉達(dá)掀起新一代計算浪潮的能量。

H100 GPU將在今年第三季度出貨，明年上半年開始供貨Grace CPU超級芯片。

最新Hopper架構(gòu)H100 GPU的6大突破

黃仁勛2020年從自家廚房端出的當(dāng)時全球最大7nm芯片Ampere架構(gòu)GPU A100，兩年后有了繼任者——Hopper架構(gòu)H100。英偉達(dá)H100 GPU采用專為英偉達(dá)加速計算需求設(shè)計優(yōu)化的TSMC 4N 工藝，集成800億個晶體管，顯著提升了AI、HPC、顯存帶寬、互連和通信的速度，并能夠?qū)崿F(xiàn)近 5TB/s 的外部互聯(lián)帶寬。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

H100同時也集多個首個于一身，包括首款支持 PCIe 5.0 的 GPU，首款采用 HBM3 的 GPU，可實現(xiàn) 3TB/s 的顯存帶寬，全球首款具有機(jī)密計算功能的GPU。

H100的第二項突破就是其加速器的 Transformer 引擎能在不影響精度的情況下，將Transformer網(wǎng)絡(luò)的速度提升至上一代的六倍。Transformer 讓自監(jiān)督學(xué)習(xí)成為可能，如今已成為自然語言處理的標(biāo)準(zhǔn)模型方案，也是深度學(xué)習(xí)模型領(lǐng)域最重要的模型之一。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))了解到，H100 將支持聊天機(jī)器人使用功能超強(qiáng)大的monolithic Transformer 語言模型 Megatron 530B，吞吐量比上一代產(chǎn)品高出 30 倍，同時滿足實時對話式 AI 所需的次秒級延遲。

H100的第三項突破是進(jìn)一步升級的第二代多實例GPU。上一代產(chǎn)品中，英偉達(dá)的多實例GPU技術(shù)可將每個A100 GPU分割為七個獨立實例來執(zhí)行推理任務(wù)。新一代的Hopper H100與上一代產(chǎn)品相比，在云環(huán)境中通過為每個 GPU 實例提供安全的多租戶配置，將 MIG 的部分能力擴(kuò)展了 7 倍。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

MIG 技術(shù)支持將單個 GPU 分為七個更小且完全獨立的實例，以處理不同類型的任務(wù)。

H100的第四項突破就是其是全球首款具有機(jī)密計算功能的加速器，隱私計算此前只能在CPU上實現(xiàn)，H100是第一個實現(xiàn)隱私計算的GPU，可保護(hù) AI 模型和正在處理的客戶數(shù)據(jù)。機(jī)密計算的優(yōu)勢在于其不僅能確保數(shù)據(jù)的機(jī)密性，同時還不影響性能，可以應(yīng)用于醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí)，也可以應(yīng)用于共享云基礎(chǔ)設(shè)施。

H100的第五項突破是在互聯(lián)性能的提升，支持第4代 NVIDIA NVLink。如今的AI模型越來越大，帶寬成為了限制超大規(guī)模AI模型迭代的阻礙。英偉達(dá)將NVLink 結(jié)合全新的外接 NVLink Switch，可將 NVLink 擴(kuò)展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò)，最多可以連接多達(dá) 256 個 H100 GPU，相較于上一代采用 NVIDIA HDR Quantum InfiniBand網(wǎng)絡(luò)，帶寬高出9倍。

這項突破可以帶來的直接提升是，利用 H100 GPU，研究人員和開發(fā)者能夠訓(xùn)練龐大的模型，比如包含3950億個參數(shù)的混合專家模型，訓(xùn)練速度加速高達(dá)9倍，訓(xùn)練時間從幾周縮短到幾天。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

H100的第六個突破是對新的 DPX 指令可加速動態(tài)規(guī)劃，適用于包括路徑優(yōu)化和基因組學(xué)在內(nèi)的一系列算法，英偉達(dá)的測試數(shù)據(jù)顯示，與 CPU 和上一代 GPU 相比，其速度提升分別可達(dá) 40 倍和 7 倍。

另外，F(xiàn)loyd-Warshall 算法與 Smith-Waterman 算法也在H100 DPX指令的加速之列，前者可以在動態(tài)倉庫環(huán)境中為自主機(jī)器人車隊尋找最優(yōu)線路，后者可用于DNA和蛋白質(zhì)分類與折疊的序列比對。

硬件突破之外，英偉達(dá)也發(fā)布了一系列相應(yīng)的軟件更新，包括用于語音、推薦系統(tǒng)和超大規(guī)模推理等工作負(fù)載的 NVIDIA AI 軟件套件，還有60多個針對CUDA-X的一系列庫、工具和技術(shù)的更新，能夠加速量子計算和 6G 研究、網(wǎng)絡(luò)安全、基因組學(xué)和藥物研發(fā)等領(lǐng)域的研究進(jìn)展。

顯而易見，H100 GPU的六項突破，帶來的是更高的計算性能，但這些性能的提升和優(yōu)化，全都指向AI計算，這也是英偉達(dá)進(jìn)一步擴(kuò)大在AI計算領(lǐng)域領(lǐng)導(dǎo)力的體現(xiàn)。

NVIDIA Eos，比全球最快超級計算機(jī)AI性能快 4 倍

有了性能升級的GPU，英偉達(dá)的第四代DGX系統(tǒng)DGX H100也隨之亮相，包括DGX POD和DGX SupePOD兩種架構(gòu)，能夠滿足大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學(xué)的大規(guī)模計算需求。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

每個 DGX H100 系統(tǒng)配備八塊 NVIDIA H100 GPU，并由 NVIDIA NVLink連接，能夠在新的 FP8 精度下達(dá)到 32 Petaflop 的 AI 性能，比上一代系統(tǒng)性能高6倍。每個DGX H100 系統(tǒng)還包含兩個NVIDIA BlueField-3 DPU，用于卸載、加速和隔離高級網(wǎng)絡(luò)、存儲及安全服務(wù)。

新的 DGX SuperPOD 架構(gòu)采用全新的 NVIDIA NVLink Switch 系統(tǒng)，通過這一系統(tǒng)最多可連接32個節(jié)點，總計256塊H100 GPU。第四代NVLink與NVSwitch相結(jié)合，能夠在每個DGX H100系統(tǒng)中的各個GPU之間實現(xiàn) 900 GB/s 的連接速度，是上一代系統(tǒng)的 1.5 倍。

新一代DGX SuperPOD性能同樣顯著提升，能夠提供1 Exaflops的FP8 AI性能，比上一代產(chǎn)品性能高6倍，能夠運(yùn)行具有數(shù)萬億參數(shù)的龐大LLM工作負(fù)載，有助于推動氣候科學(xué)、數(shù)字生物學(xué)和 AI 未來的發(fā)展。

基于DGX H100，英偉達(dá)將在今年晚些時候開始運(yùn)行全球運(yùn)行速度最快的 AI 超級計算機(jī) —— NVIDIA Eos，“Eos"超級計算機(jī)共配備 576 臺 DGX H100 系統(tǒng)，共計 4608 塊 DGX H100 GPU，預(yù)計將提供 18.4 Exaflops 的 AI 計算性能，比日本的Fugaku（富岳）超級計算機(jī)快 4 倍，后者是目前運(yùn)行速度最快的系統(tǒng)。

在傳統(tǒng)的科學(xué)計算方面，Eos 超級計算機(jī)預(yù)計將提供 275 Petaflop 的性能。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

黃仁勛說：“對于 NVIDIA 及OEM 和云計算合作伙伴，Eos 將成為先進(jìn) AI 基礎(chǔ)設(shè)施的藍(lán)圖。”

576個DGX H100系統(tǒng)能夠構(gòu)建一臺全球運(yùn)行速度最快的AI系統(tǒng)，少量的DGX SuperPOD 單元組合，也可以為汽車、醫(yī)療健康、制造、通信、零售等行業(yè)提供開發(fā)大型模型所需的 AI 性能。

黃仁勛提到，為支持正在進(jìn)行AI開發(fā)的DGX客戶，NVIDIA DGX-Ready軟件合作伙伴（包括Domino Data Lab、Run:ai和Weights & Biases等）提供的MLOps解決方案將加入"NVIDIA AI 加速"計劃。

為了簡化AI部署，英偉達(dá)還推出了DGX-Ready 托管服務(wù)計劃，能夠為希望與服務(wù)提供商開展合作來監(jiān)督其基礎(chǔ)設(shè)施的客戶提供支持。通過新的 DGX-Ready 生命周期管理計劃，客戶還可以借助新的 NVIDIA DGX 平臺升級其現(xiàn)有 DGX 系統(tǒng)。

Grace CPU 超級芯片，最強(qiáng)大的CPU

去年的GTC 21，英偉達(dá)首款數(shù)據(jù)中心CPU Grace亮相，英偉達(dá)的芯片路線也升級為GPU+DPU+CPU。

今年的GTC 22，英偉達(dá)由推出了首款面向 AI 基礎(chǔ)設(shè)施和高性能計算的基于Arm Neoverse的數(shù)據(jù)中心專屬CPU Grace CPU 超級芯片。

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

Grace CPU 超級芯片是專為AI、HPC、云計算和超大規(guī)模應(yīng)用而設(shè)計，能夠在單個插座（socket）中容納 144 個 Arm 核心，在 SPECrate 2017_int_base 基準(zhǔn)測試中的模擬性能達(dá)到業(yè)界領(lǐng)先的 740 分。根據(jù) NVIDIA 實驗室使用同類編譯器估算，這一結(jié)果較當(dāng)前DGX A100搭載的雙CPU（AMD EPYC 7742）相比高 1.5 倍以上。

黃仁勛稱贊：“Garce的一切都令人驚嘆，我們預(yù)計Grace超級芯片屆時將是最強(qiáng)大的CPU，是尚未發(fā)布的第5代頂級CPU的2到3倍?！?/strong>

據(jù)介紹，依托帶有糾錯碼的LPDDR5x 內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng)，Grace CPU 超級芯片可實現(xiàn)速度和功耗的最佳平衡。LPDDR5x 內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng)DDR5設(shè)計的帶寬，可達(dá)到1 TB/s ，同時功耗也大幅降低，CPU加內(nèi)存整體功耗僅500瓦。

值得注意的是，Grace CPU超級芯片由兩個CPU芯片組成，通過NVLink-C2C互連在一起。NVLink-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術(shù)，將支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和 SOC 之間實現(xiàn)一致的互連。

借助先進(jìn)的封裝技術(shù)，NVIDIA NVLink-C2C 互連鏈路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍，面積效率高出90倍，可實現(xiàn)每秒900GB乃至更高的一致互聯(lián)帶寬。

得益于Grace CPU 超級芯片可以運(yùn)行所有的英偉達(dá)計算軟件棧，包括NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU超級芯片結(jié)合NVIDIA ConnectX-7 網(wǎng)卡，能夠靈活地配置到服務(wù)器中，可以作為獨立的純CPU系統(tǒng)，或作為GPU加速服務(wù)器，搭載一塊、兩塊、四塊或八塊基于Hopper的GPU，客戶通過維護(hù)一套軟件棧就能針對自身特定的工作負(fù)載做好性能優(yōu)化。

今日發(fā)布的NVIDIA Grace超級芯片系列以及去年發(fā)布的Grace Hopper超級芯片均采用了NVIDIA NVLink-C2C 技術(shù)來連接處理器芯片。

英偉達(dá)表示，除NVLink-C2C外，NVIDIA還將支持本月早些時候發(fā)布的 UCIe（Universal Chiplet Interconnect Express，通用小芯片互連傳輸通道）標(biāo)準(zhǔn)。與NVIDIA芯片的定制芯片集成既可以使用 UCIe 標(biāo)準(zhǔn)，也可以使用 NVLink-C2C。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

gtc2022 H100 GPU 英偉達(dá)hopper架構(gòu)

英偉達(dá)「三芯」策略初步奏效 | ISC 2022

國產(chǎn)EDA重大突破，數(shù)字驗證調(diào)試系統(tǒng)多項空白被填補(bǔ)

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

端側(cè)智能體邁入拐點，聯(lián)發(fā)科如何把AI平臺做成可交付的能力？

一臺手掌大小、300克的AI主機(jī)，為什么能跑122B模型？

一顆288核的至強(qiáng)6+，為什么能同時運(yùn)行500個Agent？

Agent時代的CPU軍備競賽，至強(qiáng)6+如何把Agentic AI變成生產(chǎn)力？

最新文章

Agent時代的CPU軍備競賽，至強(qiáng)6+如何把Agentic AI變成生產(chǎn)力？

一顆288核的至強(qiáng)6+，為什么能同時運(yùn)行500個Agent？

昇騰「減負(fù)」、鯤鵬「鋪路」：中國計算產(chǎn)業(yè)生態(tài)如何填平開發(fā)者的「踩坑」時代？

亢奮與焦慮之間：新華三如何重估AI硬件的價值標(biāo)尺？

摩爾線程描繪了更大的藍(lán)圖：從全功能GPU到Agent全場景落地

長江存儲的IPO能撐起萬億想象嗎？

熱門搜索

機(jī)器學(xué)習(xí) 漏洞 Apple Pay 電池智駕移動廣告越獄聊天機(jī)器人聯(lián)通美的東芝

97情色五月天,人妻的色诱伦理片,曰韩AV久久AV,99视频在线播放,久久国产黄色电影,999美女激情,婷婷AV一区二区三区,久草精品视频网站,操青青在线观看

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量

巨大飛躍！給英偉達(dá)1.6萬億個晶體管，它就能承托全球互聯(lián)網(wǎng)流量