阅读疯子 ydfz.cn » T客邦 » GTC 24：Blackwell全新架構帶來5倍效能表現

T客邦 April 01, 2024

NVIDIA在GTC 24春季場發表了具有6大創新的Blackwell架構GPU，不但提供更強悍的效能，更降低25倍總體擁有成本，還能透過先進管理功能縮短伺服器停機時間。

裸晶尺寸達到現今光罩極限

Blackwell是專為資料中心處理生成式AI而設計GPU，它採用TSMC（台積電）4NP製程節點，由2.08兆個電晶體構成，是目前世界上最大型的GPU。其晶片由2組裸晶（Die）所構成，每組裸晶的尺寸達到現今半導體製程中光罩的極限，並透過頻寬高達10 TB/s的NV-HBI（NVIDIA High-Bandwidth Interface）晶片對晶片互連（Chip-to-Chip Interconnection）相連，讓2組裸晶成為單一晶片並確保記憶體一致性（Coherent），能夠共享容量高達192 GB的HBM3e高頻寬記憶體。

延伸閱讀：
GTC 24：Blackwell全新架構帶來5倍效能表現（本文）
GTC 24：Blackwell架構詳解（下），看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛（工作中）
GTC 2024春季場系列報導目錄

Blackwell在Tensor核心（硬體層面）與TensorRT-LLM、Nemo運算框架（軟體層面）協同運作之下支援第2代Transformer引擎，能夠加速大型語言模型與混合專家（Mixture-of-Experts）AI模型在訓練與推論時的運算效能，並且能夠支援包含由社群定義的FP4與FP6資料類型的浮點運算，以及由社群定義的微擴充格式（Microscaling Formats），能夠提供高準確度與高吞吐量的運算成效。

全新的Micro-Tensor Scaling技術能夠支援動態範圍管理演算法（Dynamic Range Management Algorithm）、精細粒度擴充（Fine-Grain Scaling），並支援FP4資料類型運算，且最佳化運算效能與精準度，讓Blackwell的FP4 Tensor核心Core能夠達到雙倍記憶體參數頻寬，並讓GPU能夠容納雙倍尺度的AI模型。

NVIDIA創辦人暨執行長黃仁勳在GTC 2024春�場開幕演說�展示Blackwell GPU（左）以及前代Hopper架構的H100，可以明顯看出2者的尺寸差異。 ▲ NVIDIA創辦人暨執行長黃仁勳在GTC 2024春季場開幕演說中展示Blackwell GPU（左）以及前代Hopper架構的H100，可以明顯看出2者的尺寸差異。

▲ Blackwell GPU本體由提供多種2.08兆個電晶體構成，是目前世界上最大型的GPU並提供多種先進平台功能。

▲ GB200 Superchip上具有2組Blackwell GPU，可以看到Blackwell GPU晶片是由2組裸晶構成。

▲ Blackwell GPU在FP8資料類型的運算效能為Hopper的2.5倍，若改用新的FP4資料類型則可達到5倍運算效能。

▲ 與先前Pascal架構相比，Blackwell在8年內達到超1,000倍的效能提升。

▲ 根據NVIDIA提供的數據，Blackwell架構的GB200 NVL72能帶來30倍於前代HGX H100的大型語言Token輸出效能。

▲ 在1.8T GPT MoE模型的訓練部分，GB200 NVL72具有4倍於HGX H100的表現。

強化伺服器競爭力

Blackwell GPU也加入了許多專為企業與資料中心應用設計的功能，例如RAS引擎（Reliability, Availability,and Serviceability Engine，可靠性、可用性和可維護性引擎）會透過完整的自我檢查機制搭配由AI驅動的大數據分析，預測系統中可能會出狀況的檢查點（Chickpoint），讓維護團隊可以即早處理，或是在非不得以需要關機時，也可以安排在衝擊最小的時間簡進行維護，大幅縮短伺服器的停機時間（Downtime）。

NVIDIA也將機密運算（Confidential Computing）功能由CPU推廣至GPU，擴大可信任執行環境（Trusted Execution Environment，TEE）的範圍，讓Blackwell 成為首款支援TEE-I/O的GPU，能夠提供更快、更安全、可證明（Evidence-Based Attestable）的資安保護，並且提供幾乎等同於未加密模式的資料吞吐效能，讓客戶能夠確保AI智慧財產權，並確保機密AI訓練、推論理與聯邦學習（Federated Learning）的安全性。

為了提高資料傳輸的效率，NVIDIA也一改傳統資料分析和資料庫運算負載透過CPU處理資料緩慢又繁瑣的流程，讓Blackwell GPU加速支援包括Apache Spark在內的資料庫框架，並內建解壓縮效能高達800 GB/s的解壓縮引擎，並支援LZ4、Snappy、Deflate等最新壓縮格式，全面加速資料庫查詢（Database Query）管線效能。

Blackwell GPU搭配頻寬高達8 TB/s的HBM3e高頻寬記憶體以及透過NVLink-C2C互連技術連接至Grace CPU，可以提供18倍於傳統CPU或6倍於前代H100 GPU的查詢效能測試（Query Benchmark），達成資料分析和資料科學（Data Science）的最高運算效能。

上述的效能、運算密度、電力效率、RAS改善，對伺服器的成本都有正面幫助，另一方面NVIDIA也在Blackwell世代積極推動從空冷轉換到水冷的散熱方案，透過散熱工作液體循環於機架內的CPU、GPU等高溫元件以及外部散熱器（Radiator，功能等同於個人電腦水冷系統的散熱排），進一步降低機房空調的能源消耗。

整體而言，在執行萬億組參數的AI模型條件下，採用水冷方案的GB200能較採用空冷的H100降低25倍總體擁有成本（Total Cost of Ownership，TCO），對於資料中心來說相當有吸引力。

▲ GB200 NVL72在TCO與電力消耗部分的表現優於HGX H100約25倍。

▲ 受益於特化架構與解壓縮引擎的優勢，GB200 NVL72在資料庫查詢的效率校傳統x86架構系統高出18倍。

Blackwell GPU不但是目前最強的AI加速運算單元，而且還可透過串接多組GPU方式進行水平式擴充（Scale Out），大幅強化總體效能與吞吐量，筆者將於下篇文章進行詳細說明。

（回到GTC 2024春季場系列報導目錄）

加入T客邦Facebook粉絲團固定链接 'GTC 24：Blackwell全新架構帶來5倍效能表現' 提交: April 1, 2024, 5:00pm CST

← 春魚創意與 pixivFANBOX 推出台灣 Vtuber 合作企劃，4月起到全台 7-11 ibon 把推「印」回家！ Elgato 推出採用 HDR 技術的全新 Facecam MK.2，內建隱私保護蓋並支援慢動作拍攝功能 →