DLRM 訓練
取消
清空記錄
歷史記錄
清空記錄
歷史記錄
NVIDIA A100 Tensor Core GPU 可(ke)針(zhen)對(dui) AI、數(shu)據(ju)分析和 HPC 應用場景,在不同規模下實(shi)現出(chu)色的(de)加(jia)速,有(you)效助力(li)更高性(xing)能(neng)的(de)彈性(xing)數(shu)據(ju)中心。A100 采用 NVIDIA Ampere 架構(gou),是 NVIDIA 數(shu)據(ju)中心平(ping)臺(tai)的(de)引擎。A100 的(de)性(xing)能(neng)比上一代產品(pin)提(ti)(ti)升(sheng)高達 20 倍(bei),并可(ke)劃分為七(qi)個(ge) GPU 實(shi)例,以(yi)根(gen)據(ju)變(bian)化的(de)需(xu)求進行動態調整。A100 提(ti)(ti)供(gong) 40GB 和 80GB 顯(xian)存兩種(zhong)版(ban)本,A100 80GB 將 GPU 顯(xian)存增加(jia)了一倍(bei),并提(ti)(ti)供(gong)超快速的(de)顯(xian)存帶(dai)寬(每(mei)秒超過(guo) 2 萬億(yi)字節 [TB/s]),可(ke)處理超大型模型和數(shu)據(ju)集。
DLRM 訓練
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
當今的 AI 模型面臨著對話(hua)式(shi) AI 等更高層次的挑戰,這促(cu)使其(qi)復雜度(du)呈爆炸式(shi)增長。訓練這些模型需要大規模的計算能(neng)力和可擴展性。
NVIDIA A100 借助 Tensor 浮點運算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進一步提升 2 倍。與 NVIDIA? 、NVIDIA 、PCIe 4.0、NVIDIA? InfiniBand? 和 SDK 結合使用時,它能(neng)擴展到數千(qian)個 A100 GPU。
2048 個 A100 GPU 可(ke)在(zai)一分鐘內成規模地處理 BERT 之類的訓練工作負載,這是非常(chang)快速的解決問題速度。
對于具有龐大數據表的超大型模型(例如深度學習推薦模型 [DLRM]),A100 80GB 可為每個節點提供高達 1.3TB 的統一顯存,而且吞吐量比 A100 40GB 多高達 3 倍。
NVIDIA 的領先地位在 這(zhe)個行業(ye)級 AI 訓練基準測試中(zhong)得到印證(zheng),創下多項(xiang)性能紀錄。
A100 引入了(le)突破性的(de)(de)(de)功能(neng)來(lai)優化推理工作負載。它能(neng)在從(cong) FP32 到 INT4 的(de)(de)(de)整個(ge)精度范圍內(nei)進行加速(su)。多實例 GPU () 技術允許多個(ge)網絡同時基于單個(ge) A100 運行,從(cong)而(er)優化計(ji)算資源(yuan)的(de)(de)(de)利用率。在 A100 其他(ta)推理性能(neng)增益的(de)(de)(de)基礎(chu)之(zhi)上,僅(jin)結構稀疏支持(chi)一項就能(neng)帶來(lai)高達兩倍的(de)(de)(de)性能(neng)提(ti)升。
在 BERT 等先進的(de)對話(hua)式 AI 模型上(shang),A100 可將推理吞吐量提升到(dao)高達 CPU 的(de) 249 倍。
在(zai)受(shou)到批量大(da)小(xiao)限制的(de)(de)極復雜模型(例(li)如用(yong)于自動語音(yin)識別用(yong)途(tu)的(de)(de) RNN-T)上,顯存容量有所增加的(de)(de) A100 80GB 能使每個(ge) MIG 的(de)(de)大(da)小(xiao)增加一倍,并(bing)提供比 A100 40GB 高 1.25 倍的(de)(de)吞吐(tu)量。
NVIDIA 產(chan)品的出色性(xing)能在 測試中得到驗證。A100 再將性(xing)能提升了(le) 20 倍,進一步擴大了(le)這(zhe)種性(xing)能優勢。
BERT-LARGE 推理
BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100:采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。
RNN-T 推理:單流(liu)
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。
為了獲得新(xin)一代的(de)發現成果,科(ke)學家們希望通(tong)過仿真來更好地了解我們周圍的(de)世界。
NVIDIA A100 采用雙精(jing)度(du) Tensor Core,實現了自 GPU 推出以(yi)來高(gao)性能計算性能的(de)巨大飛躍。結(jie)合(he) 80GB 的(de)超快 GPU 顯存,研究人員(yuan)可以(yi)在 A100 上將 10 小(xiao)時雙精(jing)度(du)仿(fang)真縮(suo)短(duan)到 4 小(xiao)時以(yi)內。HPC 應(ying)用還(huan)可以(yi)利用 TF32 將單精(jing)度(du)、密集矩陣乘法運算的(de)吞吐(tu)量提高(gao)高(gao)達 10 倍(bei)。
對(dui)于具有超(chao)大(da)數據集的(de)高(gao)性能計(ji)算應用,顯存容量增(zeng)加(jia)的(de) A100 80GB 可在(zai)運行材(cai)料仿真 Quantum Espresso 時(shi)將吞吐量提(ti)升高(gao)達 2 倍。極(ji)大(da)的(de)顯存容量和超(chao)快速(su)的(de)顯存帶寬使 A100 80GB 非常適合用作(zuo)新一代工作(zuo)負載的(de)平臺。
熱門 HPC 應用
應用加(jia)(jia)速的幾何(he)平均(jun)值與 P100 加(jia)(jia)速性(xing)能對比:基準(zhun)應用:Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、隨機森林 FP32 [make_blobs (160000 x 64 : 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含雙路(lu) CPU 和 4 塊 NVIDIA P100、V100 或(huo) A100 GPU 的 GPU 節點。
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。
大(da)數據(ju)分(fen)析(xi)基準測試 | 針對 10TB 數據(ju)集的 30 次分(fen)析(xi)零售(shou)查詢、ETL、ML、NLP | V100 32GB,RAPIDS/Dask | A100 40GB 和(he) A100 80GB,RAPIDS/Dask/BlazingSQL
數據(ju)科學(xue)家需要(yao)能夠分析(xi)和可(ke)視化龐大的數據(ju)集,并將其轉化為(wei)寶貴見解(jie)。但(dan)是,由于數據(ju)集分散在多臺服(fu)務器上,橫向擴展(zhan)解(jie)決方案往往會陷入困境。
搭載 A100 的加速服務器可以提供必要的計算能力,并能利用大容量顯存、超過 2 TB/s 的顯存帶寬以及通過 NVIDIA? 實現(xian)的(de)可擴展性(xing),處(chu)理這些工(gong)作負(fu)載(zai)。通過結合(he) InfiniBand、 和 開(kai)源庫套件(包括(kuo)用于執行(xing) GPU 加速的(de)數(shu)(shu)據分析的(de) RAPIDS Accelerator for Apache Spark),NVIDIA 數(shu)(shu)據中(zhong)心平臺能(neng)夠加速這些大型工(gong)作負(fu)載(zai),并實現(xian)超高的(de)性(xing)能(neng)和效率水平。
在大數據(ju)分析基準測試(shi)中,A100 80GB 提供的(de)見解吞吐(tu)量比 A100 40GB 高(gao)兩倍,因此非常適合處理數據(ju)集大小急(ji)增的(de)新型工作負載。
BERT Large 推(tui)理
BERT Large 推理 | 采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。
A100 結合 技術可以更大限度地提高 GPU 加速的基礎設施的利用率。借助 MIG,A100 GPU 可劃分為多達 7 個獨立實例,讓多個用戶都能使用 GPU 加速功能。借助 A100 40GB,每個 MIG 實例可分配多達 5GB,而隨著 A100 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與 Kubernetes、容器和配合使用。MIG 可讓(rang)基礎(chu)設(she)施管(guan)理者為每(mei)(mei)項作業提供大小合適的(de) GPU,同時確保服務質量 (QoS),從(cong)而擴大加速計算資(zi)源(yuan)的(de)影響范圍,以覆蓋(gai)每(mei)(mei)位用戶。
性能出色(se),輕松處理各種工作負載。
十分適合處理各(ge)種工(gong)作負載(zai)。
A100 80GB PCIe | A100 80GB SXM | |
---|---|---|
FP64 | 9.7 TFLOPS | |
FP64 Tensor Core | 19.5 TFLOPS | |
FP32 | 19.5 TFLOPS | |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | |
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
INT8 Tensor Core | 624 TOPS | 1248 TOPS* | |
GPU 顯存 | 80GB HBM2 | 80GB HBM2e |
GPU 顯存帶寬 | 1935 GB/s | 2039 GB/s |
最大熱設計功耗 (TDP) | 300W | 400W *** |
多實例 GPU | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB |
外形規格 | PCIe 雙插槽風冷式或單插槽液冷式 | SXM |
互連 | NVIDIA? NVLink? 橋接器 2 塊 GPU:600 GB/s ** PCIe 4.0:64 GB/s | NVLink:600 GB/s PCIe 4.0:64 GB/s |
服務器選項 | 合作伙伴及配備 1 至 8 個 GPU 的 NVIDIA 認證系統? | NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認證系統 配備 8 塊 GPU 的 NVIDIA DGX? A100 |
* 采用稀疏技術
** SXM4 GPU 通過 HGX A100 服務器主板連接;PCIe GPU 通過 NVLink 橋接器可橋接多達兩個 GPU
*** 400W TDP(適用于標(biao)準配置)。HGX A100-80 GB 自定(ding)義散熱解決(jue)方案 (CTS) SKU 可支持高(gao)達 500W 的(de) TDP
NVIDIA A100 Tensor Core GPU 可(ke)針(zhen)對 AI、數據分(fen)析和(he) HPC 應用場景,在不(bu)同規模(mo)下實(shi)現出色的(de)(de)(de)加(jia)速(su),有效助力更高(gao)性(xing)(xing)能的(de)(de)(de)彈性(xing)(xing)數據中心。A100 采(cai)用 NVIDIA Ampere 架構,是 NVIDIA 數據中心平臺的(de)(de)(de)引擎。A100 的(de)(de)(de)性(xing)(xing)能比上一代產品提(ti)升高(gao)達(da) 20 倍,并(bing)可(ke)劃分(fen)為七個 GPU 實(shi)例,以根據變化的(de)(de)(de)需求進行動態調整。A100 提(ti)供 40GB 和(he) 80GB 顯存兩種版本(ben),A100 80GB 將(jiang) GPU 顯存增(zeng)加(jia)了一倍,并(bing)提(ti)供超快速(su)的(de)(de)(de)顯存帶寬(kuan)(每(mei)秒超過 2 萬億字(zi)節 [TB/s]),可(ke)處理超大型模(mo)型和(he)數據集。
DLRM 訓練
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
當今的 AI 模(mo)型(xing)面臨著對話式 AI 等更(geng)高層次(ci)的挑戰,這促使其復雜度呈爆炸(zha)式增長。訓練這些模(mo)型(xing)需要大(da)規模(mo)的計算能(neng)力和可擴展性。
NVIDIA A100 借助 Tensor 浮點運算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進一步提升 2 倍。與 NVIDIA? 、NVIDIA 、PCIe 4.0、NVIDIA? InfiniBand? 和 SDK 結合使用時,它(ta)能擴展到數千個 A100 GPU。
2048 個 A100 GPU 可在一分(fen)鐘(zhong)內成(cheng)規模(mo)地處理 BERT 之類的訓(xun)練(lian)工作負載,這(zhe)是非常快速的解決問(wen)題速度。
對于具有龐大數據表的超大型模型(例如深度學習推薦模型 [DLRM]),A100 80GB 可為每個節點提供高達 1.3TB 的統一顯存,而且吞吐量比 A100 40GB 多高達 3 倍。
NVIDIA 的領(ling)先地位(wei)在(zai) 這個行業級 AI 訓練基準測試(shi)中得(de)到(dao)印證,創下多項(xiang)性能(neng)紀錄。
A100 引入了突破(po)性(xing)的(de)(de)功能(neng)來優化(hua)推理工作負(fu)載。它能(neng)在從(cong) FP32 到 INT4 的(de)(de)整(zheng)個精度范圍(wei)內進(jin)行加(jia)速。多實例 GPU () 技(ji)術允許多個網絡同時基于單個 A100 運行,從(cong)而(er)優化(hua)計算資(zi)源(yuan)的(de)(de)利用率(lv)。在 A100 其他推理性(xing)能(neng)增益的(de)(de)基礎之上,僅結(jie)構稀疏支持一項就能(neng)帶來高達兩倍的(de)(de)性(xing)能(neng)提升。
在 BERT 等先進的(de)(de)對話式(shi) AI 模型(xing)上,A100 可將推理吞吐量提升(sheng)到高達 CPU 的(de)(de) 249 倍。
在受到批量大小限制的極復(fu)雜模型(例(li)如用于自動語音識別用途(tu)的 RNN-T)上,顯存容量有所增加(jia)的 A100 80GB 能使每個 MIG 的大小增加(jia)一倍,并提供比 A100 40GB 高 1.25 倍的吞吐(tu)量。
NVIDIA 產(chan)品的出色性(xing)能(neng)在(zai) 測試中得到驗證(zheng)。A100 再將(jiang)性(xing)能(neng)提升了(le) 20 倍,進(jin)一步擴(kuo)大了(le)這種性(xing)能(neng)優勢。
BERT-LARGE 推理
BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100:采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。
RNN-T 推理:單流
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。
為了(le)獲得新(xin)一代的發現成果,科學家們希望(wang)通過仿真來更好地了(le)解我們周圍(wei)的世界(jie)。
NVIDIA A100 采用(yong)雙精(jing)度 Tensor Core,實(shi)現了(le)自 GPU 推出以(yi)來高性(xing)(xing)能(neng)計算性(xing)(xing)能(neng)的(de)巨大飛(fei)躍。結合 80GB 的(de)超快 GPU 顯存(cun),研究人員可以(yi)在 A100 上將 10 小(xiao)時雙精(jing)度仿(fang)真縮短到 4 小(xiao)時以(yi)內(nei)。HPC 應用(yong)還可以(yi)利用(yong) TF32 將單精(jing)度、密(mi)集矩(ju)陣(zhen)乘(cheng)法運(yun)算的(de)吞吐量提高高達 10 倍。
對于具有超大數(shu)據集的高性(xing)能計算應(ying)用,顯存(cun)容量(liang)增加(jia)的 A100 80GB 可在運行材料仿真 Quantum Espresso 時(shi)將吞(tun)吐(tu)量(liang)提升高達 2 倍。極大的顯存(cun)容量(liang)和超快速的顯存(cun)帶寬使(shi) A100 80GB 非常適合(he)用作新一代工作負載的平(ping)臺。
熱門 HPC 應用
應(ying)用(yong)加速的(de)幾何平(ping)均值(zhi)與 P100 加速性能對比:基(ji)準(zhun)應(ying)用(yong):Amber [PME-Cellulose_NVE]、Chroma [szscl21_24_128]、GROMACS [ADH Dodec]、MILC [Apex Medium]、NAMD [stmv_nve_cuda]、PyTorch (BERT-Large Fine Tuner]、Quantum Espresso [AUSURF112-jR]、隨機森林 FP32 [make_blobs (160000 x 64 : 10)]、TensorFlow [ResNet-50]、VASP 6 [Si Huge] | 包含雙路 CPU 和 4 塊 NVIDIA P100、V100 或(huo) A100 GPU 的(de) GPU 節點。
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。
大(da)數據分(fen)(fen)析基準測試(shi) | 針(zhen)對(dui) 10TB 數據集的(de) 30 次分(fen)(fen)析零售查詢(xun)、ETL、ML、NLP | V100 32GB,RAPIDS/Dask | A100 40GB 和(he) A100 80GB,RAPIDS/Dask/BlazingSQL
數據科學(xue)家(jia)需要能(neng)夠分析和可視化龐大的數據集(ji),并將其轉化為寶貴見解(jie)。但是,由于(yu)數據集(ji)分散在多臺服務器上,橫向擴展解(jie)決(jue)方案往(wang)往(wang)會陷入困境(jing)。
搭載 A100 的加速服務器可以提供必要的計算能力,并能利用大容量顯存、超過 2 TB/s 的顯存帶寬以及通過 NVIDIA? 實現的(de)(de)可擴展性,處理這(zhe)些工作(zuo)負(fu)載。通過結合 InfiniBand、 和 開源(yuan)庫(ku)套(tao)件(包括(kuo)用(yong)于(yu)執行 GPU 加(jia)速的(de)(de)數據(ju)分析的(de)(de) RAPIDS Accelerator for Apache Spark),NVIDIA 數據(ju)中心平(ping)臺能夠加(jia)速這(zhe)些大型(xing)工作(zuo)負(fu)載,并實現超高的(de)(de)性能和效率水平(ping)。
在大數(shu)據分析基準(zhun)測(ce)試(shi)中,A100 80GB 提(ti)供的(de)見(jian)解吞吐量比 A100 40GB 高兩倍,因此非常適合處(chu)理(li)數(shu)據集大小急增的(de)新型(xing)工(gong)作負(fu)載。
BERT Large 推理(li)
BERT Large 推理 | 采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。
A100 結合 技術可以更大限度地提高 GPU 加速的基礎設施的利用率。借助 MIG,A100 GPU 可劃分為多達 7 個獨立實例,讓多個用戶都能使用 GPU 加速功能。借助 A100 40GB,每個 MIG 實例可分配多達 5GB,而隨著 A100 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與(yu) Kubernetes、容器(qi)和配合(he)使用。MIG 可讓基礎設施管(guan)理者為每(mei)項作(zuo)業提供大小合(he)適(shi)的 GPU,同時確保服務質量 (QoS),從而擴大加(jia)速計算資源的影響(xiang)范圍,以覆蓋(gai)每(mei)位用戶。
性能(neng)出色,輕松處理各種(zhong)工作負載(zai)。
十分適合處理各種工作負載。
A100 80GB PCIe | A100 80GB SXM | |
---|---|---|
FP64 | 9.7 TFLOPS | |
FP64 Tensor Core | 19.5 TFLOPS | |
FP32 | 19.5 TFLOPS | |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | |
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |
INT8 Tensor Core | 624 TOPS | 1248 TOPS* | |
GPU 顯存 | 80GB HBM2 | 80GB HBM2e |
GPU 顯存帶寬 | 1935 GB/s | 2039 GB/s |
最大熱設計功耗 (TDP) | 300W | 400W *** |
多實例 GPU | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB |
外形規格 | PCIe 雙插槽風冷式或單插槽液冷式 | SXM |
互連 | NVIDIA? NVLink? 橋接器 2 塊 GPU:600 GB/s ** PCIe 4.0:64 GB/s | NVLink:600 GB/s PCIe 4.0:64 GB/s |
服務器選項 | 合作伙伴及配備 1 至 8 個 GPU 的 NVIDIA 認證系統? | NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認證系統 配備 8 塊 GPU 的 NVIDIA DGX? A100 |
* 采用稀疏技術
** SXM4 GPU 通過 HGX A100 服務器主板連接;PCIe GPU 通過 NVLink 橋接器可橋接多達兩個 GPU
*** 400W TDP(適(shi)用(yong)于(yu)標準配置)。HGX A100-80 GB 自定(ding)義散熱解(jie)決方案 (CTS) SKU 可支持高達 500W 的(de) TDP