开启左侧

【技术讨论】使用vits技术制作JR发车音乐

[复制链接]
州周 作者认证 2024-5-20 21:03:56
本帖最后由 州周 于 2024-5-20 21:20 编辑
7 n' y' C' g2 i% {  T/ z
# E% P- ^4 L  b& N' I( r起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
) n9 @8 H/ h, W7 l! z' S! w1 p, E) a7 `/ h2 a* y( v( X3 b- h9 _
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
, Z1 _  O) H+ p1 i- DSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
) _! Q3 T2 A) ^* S
7 m, j: N9 c6 g, a. x7 J: I( e$ V准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。/ I" I" p# }' m9 L. _+ w- m
训练步骤:5 p. D3 n& }+ [4 e5 D5 N+ \
step0~1600 FP32 1e-5 控制ir值在30以下
& g5 D: L$ u7 Q% i5 k0 M' i' e
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
2 ]' t2 _) u+ Z+ O& P
step3200~4000 FP32  1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收
噪声公式及学习率相关
: o# v8 `2 M9 b8 g" ]% H

0 ]7 c, e$ r6 X  }

/ B( K4 M$ T% `$ ~( K# Q" D5 d3 |$ F$ z& q; a# Q; G- W
& x1 Y1 B1 g& p( u$ _1 Z8 j9 \- T
8 }5 u) K* g2 g( h; C; A# |

4 o" Q1 {8 [0 X. H5 b: `; f% h2 M$ A1 Y* K# C( _/ a

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
我是只老虎,我还是一个一个一个一个の铁道迷啊
Harlotte 作者认证 2024-5-20 21:09:13
看着好厉害 期待成品!
有事加我QQ: 3435494979
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表