第一生活网

世界上第一款最快的 4nm 数据中心芯片

桑雄珍
导读 NVIDIA 正式推出了其下一代数据中心强国 Hopper GH100 GPU,它采用全新的 4nm 工艺节点。GPU 绝对是一个拥有 800 亿个晶体管的怪

NVIDIA 正式推出了其下一代数据中心强国 Hopper GH100 GPU,它采用全新的 4nm 工艺节点。GPU 绝对是一个拥有 800 亿个晶体管的怪物,并提供市场上任何 GPU 中最快的 AI 和计算能力。

NVIDIA Hopper GH100 GPU 官方:首款配备 4nm 和 HBM3 的数据中心芯片、800 亿个晶体管、地球上最快的 AI/计算产品,具有高达 4000 TFLOPs 的马力

基于 Hopper 架构的 Hopper GPU 是在尖端台积电 4nm 工艺节点上生产的工程奇迹。就像之前的数据中心 GPU 一样,Hopper GH100 将针对各种工作负载,包括人工智能 (AI)、机器学习 (ML)、深度神经网络 (DNN) 和各种以 HPC 为重点的计算工作负载。

NVIDIA 推出适用于台式机和笔记本电脑的新型工作站 GPU,RTX A5500 A RTX 3080 Ti In Diguise

GPU 是满足所有 HPC 要求的一次性解决方案,如果我们查看它的尺寸和性能数据,它就是一个芯片怪物。

新的流式多处理器 (SM) 具有许多性能和效率改进。主要新功能包括:

与 A100 相比,新的第四代 Tensor Core 的芯片到芯片速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟。在每个 SM 基础上,与上一代 16 位浮点数相比,Tensor Core 在等效数据类型上的 MMA(矩阵乘累加)计算速率是 A100 SM 的 2 倍,在使用新的 FP8 数据类型时是 A100 的 4 倍点选项。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。

新的 DPX 指令将动态编程算法的速度提高了 A100 GPU 的 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。

○ 与 A100 相比,芯片到芯片的 IEEE FP64 和 FP32 处理速率快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上额外的 SM 计数和 H100 的更高时钟。

新的线程块集群功能允许以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。这通过向编程层次结构添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块集群和网格。集群使多个线程块在多个 SM 上同时运行,以同步和协作获取和交换数据。

○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。

新的 Transformer Engine 结合了软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer 引擎智能管理并在 FP8 和 16 位计算之间动态选择,自动处理每层 FP8 和 16 位之间的重铸和缩放,以提供高达 9 倍的 AI 训练速度和高达 30

倍的人工智能推理加速与上一代 A100 相比的语言模型。