本帖最后由 州周 于 2024-5-20 21:20 编辑
% C f P/ P. S, I6 h, T& Z( X$ p6 X
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
0 o5 i& a( L; Z( c9 o. U1 x4 j: K; t
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。2 { }8 F1 Q8 O6 d$ F
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
2 A% M% e: c9 |: i+ i& R
v% [; h& E5 ^- ^$ a6 ~准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
3 ~2 S" C, W: [* E( W% c训练步骤:
1 c( b, v9 v9 m# V: }step0~1600 FP32 1e-5 控制ir值在30以下$ n( k) W# F7 |+ f0 O* I6 ^
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 r8 I; e7 [0 D" p2 E- C- Z8 R$ G
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
& A2 a5 s! ]6 K9 h" ] S" v
" m1 x' z! G: J5 u1 f6 B) s+ ?8 \& `4 q( W" k
' k- U2 d8 _& e u0 B e0 d/ L% P* |7 H" z6 ]. a- H! _- I( P
+ r/ { n n1 X" n- [ @2 X; G1 ~9 d6 m# d' @0 v- U
7 ^4 l; Z) u) k' h) |' h/ [- L
|