导读 NVIDIAcuTENSORv1-4NVIDIA本周宣布了其cuTENSORv1 4的可用性,它现在支持高达64维的张量、分布式多GPU张量操作,并有助于改进张量收缩性能
NVIDIAcuTENSORv1-4NVIDIA本周宣布了其cuTENSORv1.4的可用性,它现在支持高达64维的张量、分布式多GPU张量操作,并有助于改进张量收缩性能模型。cuTENSORv1.4软件现在可以免费下载,让您可以查看其功能。cuTENSOR是用于张量基元的高性能CUDA库,其功能包括对
具有FP32计算的FP64输入、具有FP16、BF16或TF32计算的FP32输入、复杂时间实运算和共轭(无转置)的广泛混合精度支持支持。
NVIDIAcuTENSORv1.4新功能
“cuTENSOR库是首创的GPU加速张量线性代数库,提供张量收缩、约简和元素运算。cuTENSOR用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理领域的应用。”
cuTENSORv1.4最多支持64维张量、任意数据布局和可简单序列化的数据结构,并支持各种激活函数、任意张量排列和不同数据类型之间的转换。
最多支持64维张量。
支持分布式、多GPU张量操作。
改进的张量收缩性能模型(即,algoCUTENSOR_ALGO_DEFAULT)。
改进了具有整体大收缩尺寸的张量收缩的性能(即,添加了平行缩减)。
改进了具有微小收缩尺寸(<=8)的张量收缩的性能。
改进了类似外积的张量收缩的性能(例如,C[a,b,c,d]=A[b,d]*B[a,c])。
额外的错误修复。
免责声明:免责声明:本文由用户上传,如有侵权请联系删除!