本帖最后由 州周 于 2024-5-20 21:20 编辑 4 L, |8 y/ X3 t6 R. e% A: a
8 V5 K2 t4 q3 i. B7 [起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。2 H! L6 h) i0 J) d( k- a: x
9 g/ S! m* X6 d
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。# c' a, u/ U) y
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
) \4 k! A6 i* A3 a8 y
: Z' }7 [2 ^+ U6 _6 `9 [, v准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。: v. O3 y5 m- }# p
训练步骤:5 D& z# V; f1 T
step0~1600 FP32 1e-5 控制ir值在30以下
0 E: S4 w2 `4 W( d) \1 f% dstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 8 Q5 `- V7 [: [: }
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
) G& \2 f( r+ D: \; V ! M ?7 q2 V+ o0 o0 _5 [
2 O5 [ |; J5 o% I/ I$ d4 j5 Q- j2 e- l3 ?, t
4 b2 g" G' @6 L5 h5 C: g+ v5 j6 M1 m, W' s, O- E$ Y
) d9 S. L8 I2 b6 s5 v$ T& Y8 p- e7 | ?' L$ l$ r; s- H# ^
|