zikele

zikele

人生如此自可乐

圧力下のピクセル:高解像度医療画像における基礎モデルの微調整パラダイムの探求

2508.14931v1

日本語タイトル#

圧力下のピクセル:高解像度医療画像における基盤モデルのファインチューニングパラダイムの探求

英文タイトル#

Pixels Under Pressure: Exploring Fine-Tuning Paradigms for Foundation Models in High-Resolution Medical Imaging

日本語摘要#

拡散に基づく基盤モデルの進展は、テキストから画像への生成を改善しましたが、ほとんどの努力は低解像度の設定に限られています。高解像度画像合成がさまざまなアプリケーション、特に医療画像の分野でますます重要になるにつれて、ファインチューニングは、これらの強力な事前学習モデルを特定のタスクの要件やデータ分布に適応させるための重要なメカニズムとして浮上しています。本研究では、高解像度 512x512 ピクセルにスケーリングする際の画像生成品質に対するさまざまなファインチューニング技術の影響を調査する体系的な研究を行います。完全なファインチューニング戦略やパラメータ効率の良いファインチューニング(PEFT)を含む多様なファインチューニング手法のベンチマークを行います。異なるファインチューニング手法が Fréchet Inception Distance(FID)、Vendi スコア、プロンプト画像の整合性などの主要な品質指標にどのように影響するかを分析します。また、データが不足している条件下で生成された画像の下流分類タスクにおける有用性を評価し、合成画像を用いて分類器のトレーニングを行い、実画像で評価する際に特定のファインチューニング戦略が生成の忠実度と下流性能の両方を向上させることを示します。私たちのコードはプロジェクトのウェブサイトから入手可能です - https://tehraninasab.github.io/PixelUPressure/.

英文摘要#

Advancements in diffusion-based foundation models have improved text-to-image generation, yet most efforts have been limited to low-resolution settings. As high-resolution image synthesis becomes increasingly essential for various applications, particularly in medical imaging domains, fine-tuning emerges as a crucial mechanism for adapting these powerful pre-trained models to task-specific requirements and data distributions. In this work, we present a systematic study, examining the impact of various fine-tuning techniques on image generation quality when scaling to high resolution 512x512 pixels. We benchmark a diverse set of fine-tuning methods, including full fine-tuning strategies and parameter-efficient fine-tuning (PEFT). We dissect how different fine-tuning methods influence key quality metrics, including Fr'echet Inception Distance (FID), Vendi score, and prompt-image alignment. We also evaluate the utility of generated images in a downstream classification task under data-scarce conditions, demonstrating that specific fine-tuning strategies improve both generation fidelity and downstream performance when synthetic images are used for classifier training and evaluation on real images. Our code is accessible through the project website - https://tehraninasab.github.io/PixelUPressure/.

文章ページ#

圧力下のピクセル:高解像度医療画像における基盤モデルのファインチューニングパラダイムの探求

PDF 入手#

日本語 PDF を表示 - 2508.14931v1

スマート達人抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。