日本語タイトル#
合成自適応ガイド埋め込み(SAGE):新しい知識蒸留法
英文タイトル#
Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method
日本語摘要#
モデル蒸留は、大規模モデルからコンパクトな学生モデルへの知識の移転を可能にし、リソース制約のある環境での展開を促進します。しかし、従来の蒸留アプローチは、計算オーバーヘッドや限られた一般化能力に悩まされることがよくあります。私たちは、学生モデルの損失が高い領域でトレーニングデータを動的に増強する新しい適応蒸留フレームワークを提案します。UMAP ベースの次元削減と最近傍サンプリングを使用して、私たちの方法は埋め込み空間内のパフォーマンスが低い領域を特定し、学生の学習を導くためのターゲット合成例を生成します。効率をさらに向上させるために、教師の入力層をバイパスする軽量の教師 - 学生インターフェースを導入し、ベクトル化された表現に対する直接蒸留を可能にします。標準的な自然言語処理ベンチマークでの実験は、私たちの 66M パラメータの学生モデルが常に確立されたベースラインと一致またはそれを上回り、QNLI で 91.2%、SST-2 で 92.3% を達成し、より少ないエポックでトレーニングされることを示しています。これらの結果は、損失に基づくデータ増強とベクトル化蒸留が効率的かつ効果的なモデル圧縮の可能性を示しています。
英文摘要#
Model distillation enables the transfer of knowledge from large-scale models to compact student models, facilitating deployment in resource-constrained environments. However, conventional distillation approaches often suffer from computational overhead and limited generalization. We propose a novel adaptive distillation framework that dynamically augments training data in regions of high student model loss. Using UMAP-based dimensionality reduction and nearest neighbor sampling, our method identifies underperforming regions in the embedding space and generates targeted synthetic examples to guide student learning. To further improve efficiency, we introduce a lightweight teacher-student interface that bypasses the teacher's input layer, enabling direct distillation on vectorized representations. Experiments across standard NLP benchmarks demonstrate that our 66M-parameter student model consistently matches or surpasses established baselines, achieving 91.2% on QNLI and 92.3% on SST-2, while training with fewer epochs. These results highlight the promise of loss-aware data augmentation and vectorized distillation for efficient and effective model compression.
文章ページ#
PDF 入手#
抖音扫码查看更多精彩内容