第一生活网

NVIDIAcuTENSOR1.4现在可用于创建多GPUTensor操作

管燕纨
导读 NVIDIAcuTENSORv1-4NVIDIA本周宣布了其cuTENSORv1 4的可用性,它现在支持高达64维的张量、分布式多GPU张量操作,并有助于改进张量收缩性能

NVIDIAcuTENSORv1-4NVIDIA本周宣布了其cuTENSORv1.4的可用性,它现在支持高达64维的张量、分布式多GPU张量操作,并有助于改进张量收缩性能模型。cuTENSORv1.4软件现在可以免费下载,让您可以查看其功能。cuTENSOR是用于张量基元的高性能CUDA库,其功能包括对

具有FP32计算的FP64输入、具有FP16、BF16或TF32计算的FP32输入、复杂时间实运算和共轭(无转置)的广泛混合精度支持支持。

NVIDIAcuTENSORv1.4新功能

“cuTENSOR库是首创的GPU加速张量线性代数库,提供张量收缩、约简和元素运算。cuTENSOR用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理领域的应用。”

cuTENSORv1.4最多支持64维张量、任意数据布局和可简单序列化的数据结构,并支持各种激活函数、任意张量排列和不同数据类型之间的转换。

最多支持64维张量。

支持分布式、多GPU张量操作。

改进的张量收缩性能模型(即,algoCUTENSOR_ALGO_DEFAULT)。

改进了具有整体大收缩尺寸的张量收缩的性能(即,添加了平行缩减)。

改进了具有微小收缩尺寸(<=8)的张量收缩的性能。

改进了类似外积的张量收缩的性能(例如,C[a,b,c,d]=A[b,d]*B[a,c])。

额外的错误修复。