本帖最后由 州周 于 2024-5-20 21:20 编辑 ! Z5 ~% u) h$ e
" p9 h4 i/ F4 u' d) I
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。' J5 b* w$ \0 O4 _) l0 I9 S
/ G" d( _0 E9 d. G4 r0 A
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
5 M' j0 H# [$ B7 zSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
5 m k4 r/ U, z g9 y |3 f
/ K8 a; r/ d- f J准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。- Y4 ~5 G8 l! {; a
训练步骤:' h, E! _) d" n' t7 d: f4 E5 O# p: a3 R
step0~1600 FP32 1e-5 控制ir值在30以下
0 v' z; y. B; n2 H2 U$ nstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
9 Z% z5 K( d% V: astep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
. f$ p7 Y K6 Z" s# Z$ A + L+ u0 l) m; n
! v. Q- h A0 q/ V+ ~
5 r4 n/ ]2 Q3 L" R! `) e9 h" ~6 R- W; s8 n. g
]; ], H! g( f+ e' h% G
% \, J# q# O" D {6 V; a* @2 U$ W" Z
?; H& ^; U/ J8 d M |