deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
12
返回列表 发新帖
楼主: kemco

我是TTS的研究生,大家就觉得gpt有什么不足

[复制链接]

3

主题

208

帖子

4275

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
4275

万事如意节日勋章

发表于 2025-4-18 08:20:28 | 显示全部楼层
kemco 发表于 2025-4-17 00:31
你好,重复是什么意思?口胡是什么,说出非文本引导词吗。多音字这个其实比较简单,注入大模型就可以,不 ...

口胡是会出现参考音频中的内容还有语气词,重复是给的文本会突然一个词重复好几遍,这些都偏离了给的文本,也没什么解决的好办法。
回复 支持 反对

使用道具 举报

1

主题

100

帖子

1188

积分

初级丹圣

Rank: 8Rank: 8

积分
1188
发表于 2025-4-27 00:32:53 | 显示全部楼层
一句话中应该有一个重音,现在是每个字都是被分配了一样的力度
回复 支持 反对

使用道具 举报

1

主题

25

帖子

1430

积分

初级丹圣

Rank: 8Rank: 8

积分
1430
 楼主| 发表于 2025-5-19 21:11:20 | 显示全部楼层
gengxin 更新一下,多音字的问题已经可以解决了
回复 支持 反对

使用道具 举报

1

主题

3

帖子

74

积分

高级丹童

Rank: 2

积分
74
发表于 2026-1-12 10:25:06 | 显示全部楼层
建议楼主别折腾了,虽然GPT-SoVITS有RTF低生成速度快,训练出来模型以后音纹像的特点,但是本身的框架限制太高,有些东西是没法改的,比如多音字问题,你除非让GPT-SoVITS能像人一样识别出前后文的意思,才能推测出多音字在某个地方应该读什么。但是如果这样,就像Index-TTS2一样了,生成速度肯定就降下来了。同样的,要解决情绪语调问题,也得消耗算力进行推测,先不说能不能解决内部通信让GPT-SoVITS的模型接受这些修改接入LLM大模型进行推测,就算可以通过底层代码解决了,那生成速度就慢的多了,就没必要用GPT-SoVITS了
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2026-2-2 15:13 , Processed in 0.110872 second(s), 29 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表