zikele

zikele

人生如此自可乐

利用硬件感知计算的混合精度矩阵乘法:一种基于块的方法

2508.14848v1

中文标题#

利用硬件感知计算的混合精度矩阵乘法:一种基于块的方法

英文标题#

Leveraging Hardware-Aware Computation in Mixed-Precision Matrix Multiply: A Tile-Centric Approach

中文摘要#

通用矩阵乘法(GEMM)是支撑高性能计算(HPC)和人工智能(AI)广泛应用的关键操作。 针对低精度算术优化的硬件的出现,需要重新评估数值算法,以利用混合精度计算,实现性能和能效的提升。 本研究引入了一个自适应混合精度 GEMM 框架,可在细粒度的块 /tile 级别支持不同的精度格式。 我们利用 PaRSEC 运行时系统在各种架构上平衡工作负载。 该性能在基于 ARM CPU 的 Fugaku 超级计算机、基于 Nvidia GPU 的 A100 DGX 和基于 AMD GPU 的 Frontier 超级计算机上表现良好。 本研究旨在通过弥合算法进步与硬件创新之间的差距,提高计算效率和准确性,推动各种应用的变革性进展。

英文摘要#

General Matrix Multiplication (GEMM) is a critical operation underpinning a wide range of applications in high-performance computing (HPC) and artificial intelligence (AI). The emergence of hardware optimized for low-precision arithmetic necessitates a reevaluation of numerical algorithms to leverage mixed-precision computations, achieving improved performance and energy efficiency. This research introduces an adaptive mixed-precision GEMM framework that supports different precision formats at fine-grained tile/block levels. We utilize the PaRSEC runtime system to balance workloads across various architectures. The performance scales well on ARM CPU-based Fugaku supercomputer, Nvidia GPU-based A100 DGX, and AMD GPU-based Frontier supercomputer. This research aims to enhance computational efficiency and accuracy by bridging algorithmic advancements and hardware innovations, driving transformative progress in various applications.

文章页面#

利用硬件感知计算的混合精度矩阵乘法:一种基于块的方法

PDF 获取#

查看中文 PDF - 2508.14848v1

智能达人抖店二维码

抖音扫码查看更多精彩内容

Loading...
Ownership of this post data is guaranteed by blockchain and smart contracts to the creator alone.