zikele

zikele

人生如此自可乐

GraSP:一种统一的基于图的框架,用于可扩展生成、质量标记和管理合成数据,用于SFT和DPO

2508.15432v1

中文标题#

GraSP:一种统一的基于图的框架,用于可扩展生成、质量标记和管理合成数据,用于 SFT 和 DPO

英文标题#

GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO

中文摘要#

大型语言模型(LLMs)的进步在很大程度上依赖于用于监督微调(SFT)、对齐任务如直接偏好优化(DPO)等的高质量数据集的可用性。 在本工作中,我们提出了一种全面的合成数据生成框架,该框架能够实现可扩展、可配置且高保真的合成数据生成,专门针对这些训练范式。 我们的方法采用模块化和基于配置的流程,能够在最少人工干预的情况下建模复杂的对话流程。 该框架使用双阶段质量标记机制,结合启发式规则和基于 LLM 的评估,自动过滤和评分从 OASST 格式对话中提取的数据,确保高质量对话样本的整理。 生成的数据集在支持 SFT 和 DPO 用例的灵活模式下进行结构化,可无缝集成到各种训练工作流中。 这些创新共同提供了一个强大的解决方案,用于大规模生成和管理合成对话数据,显著降低了 LLM 训练流程中的数据准备开销。

英文摘要#

The advancement of large language models (LLMs) is critically dependent on the availability of high-quality datasets for Supervised Fine-Tuning (SFT), alignment tasks like Direct Preference Optimization (DPO), etc. In this work, we present a comprehensive synthetic data generation framework that facilitates scalable, configurable, and high-fidelity generation of synthetic data tailored for these training paradigms. Our approach employs a modular and configuration-based pipeline capable of modeling complex dialogue flows with minimal manual intervention. This framework uses a dual-stage quality tagging mechanism, combining heuristic rules and LLM-based evaluations, to automatically filter and score data extracted from OASST-formatted conversations, ensuring the curation of high-quality dialogue samples. The resulting datasets are structured under a flexible schema supporting both SFT and DPO use cases, enabling seamless integration into diverse training workflows. Together, these innovations offer a robust solution for generating and managing synthetic conversational data at scale, significantly reducing the overhead of data preparation in LLM training pipelines.

文章页面#

GraSP:一种统一的基于图的框架,用于可扩展生成、质量标记和管理合成数据,用于 SFT 和 DPO

PDF 获取#

查看中文 PDF - 2508.15432v1

智能达人抖店二维码

抖音扫码查看更多精彩内容

Loading...
Ownership of this post data is guaranteed by blockchain and smart contracts to the creator alone.