deepfacelab中文网

 找回密码
 立即注册(仅限QQ邮箱)
查看: 453|回复: 11

我是TTS的研究生,大家就觉得gpt有什么不足

[复制链接]

1

主题

24

帖子

1310

积分

初级丹圣

Rank: 8Rank: 8

积分
1310
 楼主| 发表于 2025-4-15 19:13:36 | 显示全部楼层 |阅读模式
是这样,我是一个人工智能的研究生,然后方向是语音生成。

现在接触了gpt-sovits的生成语音,感觉确实很强,不知道大家觉得还有哪些不足的,我试图改进(创新点

回复

使用道具 举报

46

主题

321

帖子

3856

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
3856

万事如意节日勋章

发表于 2025-4-15 19:27:20 | 显示全部楼层
当然是语音停顿和语调方面了,没有感情的朗读
回复 支持 反对

使用道具 举报

1

主题

24

帖子

1310

积分

初级丹圣

Rank: 8Rank: 8

积分
1310
 楼主| 发表于 2025-4-15 20:07:05 | 显示全部楼层
DFL小白02 发表于 2025-4-15 19:27
当然是语音停顿和语调方面了,没有感情的朗读

好,这个我也考虑过,主要是句读问题,语调也有办法引导
回复 支持 反对

使用道具 举报

13

主题

1109

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
14136
发表于 2025-4-16 03:04:39 | 显示全部楼层
主要是要让ai理解文字之后,自己生成语调吧。
回复 支持 反对

使用道具 举报

3

主题

200

帖子

2880

积分

初级丹圣

Rank: 8Rank: 8

积分
2880

万事如意节日勋章

发表于 2025-4-16 08:39:58 | 显示全部楼层
一个是重复问题比较严重,还有口胡比较严重,再一个多音字要自己手动输入很累,有没办法直接内置啊,还有电音问题。
回复 支持 反对

使用道具 举报

0

主题

38

帖子

241

积分

初级丹师

Rank: 3Rank: 3

积分
241
发表于 2025-4-16 09:53:19 | 显示全部楼层
这个好!肯定是感情,语调,需要的是正常带情感的说话,而不是读课文的效果。你可以参考seedvc变声模拟音调,但那个又变得不太准了
回复 支持 反对

使用道具 举报

1

主题

24

帖子

1310

积分

初级丹圣

Rank: 8Rank: 8

积分
1310
 楼主| 发表于 2025-4-17 00:30:27 | 显示全部楼层
seancai110 发表于 2025-4-16 03:04
主要是要让ai理解文字之后,自己生成语调吧。

是通病
回复 支持 反对

使用道具 举报

1

主题

24

帖子

1310

积分

初级丹圣

Rank: 8Rank: 8

积分
1310
 楼主| 发表于 2025-4-17 00:31:44 | 显示全部楼层
百里瑾轩 发表于 2025-4-16 08:39
一个是重复问题比较严重,还有口胡比较严重,再一个多音字要自己手动输入很累,有没办法直接内置啊,还有电 ...

你好,重复是什么意思?口胡是什么,说出非文本引导词吗。多音字这个其实比较简单,注入大模型就可以,不过好像没人做;电音这个我倾向于是模型训练问题,主要可能是你数据集
回复 支持 反对

使用道具 举报

13

主题

1109

帖子

1万

积分

高级丹圣

Rank: 13Rank: 13Rank: 13Rank: 13

积分
14136
发表于 2025-4-17 00:51:11 | 显示全部楼层

和语言大模型结合一下呢,就像让gpt写ai绘图提示词一样
回复 支持 反对

使用道具 举报

1

主题

24

帖子

1310

积分

初级丹圣

Rank: 8Rank: 8

积分
1310
 楼主| 发表于 2025-4-17 15:37:38 | 显示全部楼层
seancai110 发表于 2025-4-17 00:51
和语言大模型结合一下呢,就像让gpt写ai绘图提示词一样

没有这么简单,这个涉及到复杂的语义理解。
回复 支持 反对

使用道具 举报

QQ|Archiver|手机版|deepfacelab中文网 |网站地图

GMT+8, 2025-5-10 13:12 , Processed in 0.117085 second(s), 34 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表