zikele

zikele

人生如此自可乐

RadReason:理由とサブスコアを持つ放射線学報告評価指標

2508.15464v1

日本語タイトル#

RadReason:理由とサブスコアを持つ放射線レポート評価指標

英文タイトル#

RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores

日本語要約#

自動生成された放射線科レポートの評価は、臨床に基づいた、解釈可能で細粒度の指標が不足しているため、依然として基本的な課題です。既存の方法は、粗い全体スコアを生成するか、不透明なブラックボックスモデルに依存しており、現実の臨床ワークフローでの有用性が制限されています。私たちは、放射線科レポートのための新しい評価フレームワークである RadReason を導入します。このフレームワークは、6 つの臨床的に定義されたエラータイプにわたる細粒度のサブスコアを出力するだけでなく、各スコアの根拠を説明する人間が読み取れる正当化も生成します。私たちの方法は、グループ相対政策最適化に基づいており、2 つの重要な革新を組み込んでいます:(1) サブスコア動的重み付け、これはリアルタイムの F1 統計に基づいて臨床的に挑戦的なエラータイプを適応的に優先します;および (2) 多数決に基づくアドバンテージスケーリング、これはサブスコアの一致から導き出されたプロンプトの難易度に基づいて政策勾配の更新を調整します。これらのコンポーネントは、より安定した最適化を可能にし、専門家の臨床判断とより良く整合します。ReXVal ベンチマークでの実験は、RadReason がすべての以前のオフライン指標を上回り、GPT-4 ベースの評価と同等のレベルに達しつつ、説明可能性、コスト効率を維持し、臨床展開に適していることを示しています。コードは発表後に公開されます。

英文要約#

Evaluating automatically generated radiology reports remains a fundamental challenge due to the lack of clinically grounded, interpretable, and fine-grained metrics. Existing methods either produce coarse overall scores or rely on opaque black-box models, limiting their usefulness in real-world clinical workflows. We introduce RadReason, a novel evaluation framework for radiology reports that not only outputs fine-grained sub-scores across six clinically defined error types, but also produces human-readable justifications that explain the rationale behind each score. Our method builds on Group Relative Policy Optimization and incorporates two key innovations: (1) Sub-score Dynamic Weighting, which adaptively prioritizes clinically challenging error types based on live F1 statistics; and (2) Majority-Guided Advantage Scaling, which adjusts policy gradient updates based on prompt difficulty derived from sub-score agreement. Together, these components enable more stable optimization and better alignment with expert clinical judgment. Experiments on the ReXVal benchmark show that RadReason surpasses all prior offline metrics and achieves parity with GPT-4-based evaluations, while remaining explainable, cost-efficient, and suitable for clinical deployment. Code will be released upon publication.

文章ページ#

RadReason:理由とサブスコアを持つ放射線レポート評価指標

PDF 入手#

日本語 PDF を見る - 2508.15464v1

スマート達人の抖店 QR コード

抖音で QR コードをスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。