zikele

zikele

人生如此自可乐

ハードウェア感知計算を利用した混合精度行列乗法:ブロックベースのアプローチ

2508.14848v1

日本語タイトル#

ハードウェア認識計算を活用した混合精度行列乗算:タイル中心のアプローチ

英文タイトル#

Leveraging Hardware-Aware Computation in Mixed-Precision Matrix Multiply: A Tile-Centric Approach

日本語摘要#

一般的な行列乗算(GEMM)は、高性能計算(HPC)と人工知能(AI)の幅広いアプリケーションを支える重要な操作です。 低精度算術に最適化されたハードウェアの出現により、混合精度計算を活用して性能とエネルギー効率を向上させるために数値アルゴリズムの再評価が必要です。本研究では、異なる精度フォーマットを細粒度のタイル / ブロックレベルでサポートする適応型混合精度 GEMM フレームワークを導入します。さまざまなアーキテクチャで作業負荷をバランスさせるために、PaRSEC ランタイムシステムを利用します。この性能は、ARM CPU ベースの Fugaku スーパーコンピュータ、Nvidia GPU ベースの A100 DGX、AMD GPU ベースの Frontier スーパーコンピュータで良好にスケールします。本研究は、アルゴリズムの進歩とハードウェアの革新とのギャップを埋めることで、計算効率と精度を向上させ、さまざまなアプリケーションにおける変革的な進展を促進することを目指しています。

英文摘要#

General Matrix Multiplication (GEMM) is a critical operation underpinning a wide range of applications in high-performance computing (HPC) and artificial intelligence (AI). The emergence of hardware optimized for low-precision arithmetic necessitates a reevaluation of numerical algorithms to leverage mixed-precision computations, achieving improved performance and energy efficiency. This research introduces an adaptive mixed-precision GEMM framework that supports different precision formats at fine-grained tile/block levels. We utilize the PaRSEC runtime system to balance workloads across various architectures. The performance scales well on ARM CPU-based Fugaku supercomputer, Nvidia GPU-based A100 DGX, and AMD GPU-based Frontier supercomputer. This research aims to enhance computational efficiency and accuracy by bridging algorithmic advancements and hardware innovations, driving transformative progress in various applications.

文章ページ#

ハードウェア認識計算を活用した混合精度行列乗算:タイル中心のアプローチ

PDF 入手#

日本語 PDF を表示 - 2508.14848v1

スマート達人の抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを確認

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。