zikele

zikele

人生如此自可乐

GraSP:グラフに基づく統一フレームワークで、SFTおよびDPO用の拡張可能な生成、品質マーク付け、合成データ管理を行います。

2508.15432v1

日本語タイトル#

GraSP:スケーラブルな生成、品質タグ付け、合成データの管理のための統一されたグラフベースのフレームワーク、SFT および DPO 用

英文タイトル#

GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

日本語要約#

大規模言語モデル(LLMs)の進展は、監視微調整(SFT)、直接的な好みの最適化(DPO)などのための高品質データセットの可用性に大きく依存しています。本研究では、これらのトレーニングパラダイムに特化したスケーラブルで構成可能かつ高忠実度の合成データ生成を実現する包括的な合成データ生成フレームワークを提案します。私たちのアプローチは、最小限の手動介入で複雑な対話フローをモデル化できるモジュール式で構成ベースのパイプラインを採用しています。このフレームワークは、ヒューリスティックルールと LLM ベースの評価を組み合わせた二段階の品質タグ付けメカニズムを使用して、OASST 形式の会話から抽出されたデータを自動的にフィルタリングおよびスコアリングし、高品質な対話サンプルのキュレーションを確保します。生成されたデータセットは、SFT および DPO ユースケースをサポートする柔軟なスキーマの下で構造化され、さまざまなトレーニングワークフローにシームレスに統合できるようになっています。これらの革新は、スケールで合成対話データを生成および管理するための強力なソリューションを提供し、LLM トレーニングパイプラインにおけるデータ準備のオーバーヘッドを大幅に削減します。

英文要約#

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeling complex dialogue flows with minimal manual intervention. This framework uses a dual-stage quality tagging mechanism, combining heuristic rules and LLM-based evaluations, to automatically filter and score data extracted from OASST-formatted conversations, ensuring the curation of high-quality dialogue samples. The resulting datasets are structured under a flexible schema supporting both SFT and DPO use cases, enabling seamless integration into diverse training workflows. Together, these innovations offer a robust solution for generating and managing synthetic conversational data at scale, significantly reducing the overhead of data preparation in LLM training pipelines.

文章ページ#

GraSP:スケーラブルな生成、品質タグ付け、合成データの管理のための統一されたグラフベースのフレームワーク、SFT および DPO 用

PDF 入手#

日本語 PDF を見る - 2508.15432v1

スマートな達人の抖店 QR コード

抖音でスキャンしてさらに素晴らしいコンテンツを見る

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。