我是TTS的研究生，大家就觉得gpt有什么不足

百里瑾轩 · 发表于 2025-4-18 08:20:28

kemco 发表于 2025-4-17 00:31
你好，重复是什么意思？口胡是什么，说出非文本引导词吗。多音字这个其实比较简单，注入大模型就可以，不 ...

口胡是会出现参考音频中的内容还有语气词，重复是给的文本会突然一个词重复好几遍，这些都偏离了给的文本，也没什么解决的好办法。

yzc281 · 发表于 2025-4-27 00:32:53

一句话中应该有一个重音，现在是每个字都是被分配了一样的力度

kemco · 发表于 2025-5-19 21:11:20

gengxin 更新一下，多音字的问题已经可以解决了

kctboy · 发表于 2026-1-12 10:25:06

建议楼主别折腾了，虽然GPT-SoVITS有RTF低生成速度快，训练出来模型以后音纹像的特点，但是本身的框架限制太高，有些东西是没法改的，比如多音字问题，你除非让GPT-SoVITS能像人一样识别出前后文的意思，才能推测出多音字在某个地方应该读什么。但是如果这样，就像Index-TTS2一样了，生成速度肯定就降下来了。同样的，要解决情绪语调问题，也得消耗算力进行推测，先不说能不能解决内部通信让GPT-SoVITS的模型接受这些修改接入LLM大模型进行推测，就算可以通过底层代码解决了，那生成速度就慢的多了，就没必要用GPT-SoVITS了

kemco · 发表于 2026-3-7 23:47:31

kctboy 发表于 2026-1-12 10:25
建议楼主别折腾了，虽然GPT-SoVITS有RTF低生成速度快，训练出来模型以后音纹像的特点，但是本身的框架限制 ...

我已经解决了，投稿中

		自动登录	找回密码
密码			立即注册（仅限QQ邮箱）

我是TTS的研究生，大家就觉得gpt有什么不足

浏览过的版块

万事如意节日勋章