zikele

zikele

人生如此自可乐

具有上下文感知记忆的长上下文语音合成

2508.14713v1

中文标题#

具有上下文感知记忆的长上下文语音合成

英文标题#

Long-Context Speech Synthesis with Context-Aware Memory

中文摘要#

在长文本语音合成中,当前方法通常在句子级别将文本转换为语音,并连接结果以形成伪段落级别的语音。 这些方法忽略了段落的上下文连贯性,导致长篇语音中的自然度降低以及风格和音色的一致性问题。 为了解决这些问题,我们提出了一种基于上下文感知记忆(CAM)的长上下文文本到语音(TTS)模型。 CAM 模块整合并检索长期记忆和局部上下文细节,能够在长段落中实现动态记忆更新和传递,以指导句子级别的语音合成。 此外,前缀掩码通过在保持单向生成的同时允许前缀标记的双向注意力来增强上下文学习能力。 实验结果表明,所提出的方法在段落级别语音的韵律表现力、连贯性和上下文推理成本方面优于基线和最先进的长上下文方法。

英文摘要#

In long-text speech synthesis, current approaches typically convert text to speech at the sentence-level and concatenate the results to form pseudo-paragraph-level speech. These methods overlook the contextual coherence of paragraphs, leading to reduced naturalness and inconsistencies in style and timbre across the long-form speech. To address these issues, we propose a Context-Aware Memory (CAM)-based long-context Text-to-Speech (TTS) model. The CAM block integrates and retrieves both long-term memory and local context details, enabling dynamic memory updates and transfers within long paragraphs to guide sentence-level speech synthesis. Furthermore, the prefix mask enhances the in-context learning ability by enabling bidirectional attention on prefix tokens while maintaining unidirectional generation. Experimental results demonstrate that the proposed method outperforms baseline and state-of-the-art long-context methods in terms of prosody expressiveness, coherence and context inference cost across paragraph-level speech.

文章页面#

具有上下文感知记忆的长上下文语音合成

PDF 获取#

查看中文 PDF - 2508.14713v1

智能达人抖店二维码

抖音扫码查看更多精彩内容

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。