你好,问个事,是不是模型 文字生成完了才能开始生成音频

#2
by develop2025 - opened

你好,问个事,是不是模型 文字生成完了才能开始生成音频?
现在首包音频的token 延迟太大了,无法使用 实时对话场景
延迟 3000秒左右 A100 80G

你好,目前的实现是文本先生成一定数量token(e.g. 128 tokens)后开始生成第一段音频,然后同时生成文本和音频,首包音频的token 延迟确实比较大。有需求的话这个token数是可以调小的。

Sign up or log in to comment