你好，问个事，是不是模型文字生成完了才能开始生成音频

by develop2025 - opened Nov 7, 2025

Nov 7, 2025

你好，问个事，是不是模型文字生成完了才能开始生成音频？
现在首包音频的token 延迟太大了，无法使用实时对话场景
延迟 3000秒左右 A100 80G

Owner Nov 10, 2025

你好，目前的实现是文本先生成一定数量token（e.g. 128 tokens）后开始生成第一段音频，然后同时生成文本和音频，首包音频的token 延迟确实比较大。有需求的话这个token数是可以调小的。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

你好，问个事，是不是模型 文字生成完了才能开始生成音频