zikele

zikele

人生如此自可乐

TorchAO:PyTorchネイティブトレーニングからサービスモデルの最適化

2507.16099v1

日本語タイトル#

TorchAO:PyTorch ネイティブのトレーニングからサービスへのモデル最適化

英文タイトル#

TorchAO: PyTorch-Native Training-to-Serving Model Optimization

日本語摘要#

私たちは TorchAO を紹介します。これは PyTorch に基づくモデル最適化フレームワークで、量子化とスパース性を利用して AI モデルのエンドツーエンドのトレーニングからサービスへのワークフローを提供します。TorchAO は、FP8 量子化トレーニング、量子化認識トレーニング(QAT)、トレーニング後量子化(PTQ)、および 2:4 スパース性を含むさまざまな人気のモデル最適化技術をサポートし、INT4、INT8、FP8、MXFP4、MXFP6、および MXFP8 を含む、広く使用されているバックエンドに依存しない低精度データ型を表現するための新しいテンソルサブクラス抽象を活用します。TorchAO は、事前トレーニング(TorchTitan)から微調整(TorchTune、Axolotl)、サービス(HuggingFace、vLLM、SGLang、ExecuTorch)まで、モデル最適化パイプラインの各ステップでより広範なエコシステムと密接に統合されており、分散した空間を単一の統一されたワークフローに接続します。TorchAO は、最近発表された量子化 Llama 3.2 1B/3B および LlamaGuard3-8B モデルに利用され、https://github.com/pytorch/ao/ でオープンソースです。

英文摘要#

We present TorchAO, a PyTorch-native model optimization framework leveraging quantization and sparsity to provide an end-to-end, training-to-serving workflow for AI models. TorchAO supports a variety of popular model optimization techniques, including FP8 quantized training, quantization-aware training (QAT), post-training quantization (PTQ), and 2:4 sparsity, and leverages a novel tensor subclass abstraction to represent a variety of widely-used, backend agnostic low precision data types, including INT4, INT8, FP8, MXFP4, MXFP6, and MXFP8. TorchAO integrates closely with the broader ecosystem at each step of the model optimization pipeline, from pre-training (TorchTitan) to fine-tuning (TorchTune, Axolotl) to serving (HuggingFace, vLLM, SGLang, ExecuTorch), connecting an otherwise fragmented space in a single, unified workflow. TorchAO has enabled recent launches of the quantized Llama 3.2 1B/3B and LlamaGuard3-8B models and is open-source at https://github.com/pytorch/ao/.

PDF 入手#

中文 PDF を見る - 2507.16099v1

スマート達人の抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。