本帖最后由 州周 于 2024-5-20 21:20 编辑
2 b) R$ N# n: y
) u5 P$ C3 q6 u起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。; P7 {% k0 g( f; f: b3 n
9 p2 S |4 ?( l) N2 P首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
( S* `; j/ P. L! C( F" sSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
( f; C7 @( ]! o: O9 l @$ [
- G6 U9 k* v8 L准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
- g W" z& M) N/ Z+ V$ v, W% p训练步骤:" y8 U% x5 q+ ]/ J! K4 {+ L5 o+ L
step0~1600 FP32 1e-5 控制ir值在30以下" u" a+ ^; }' }) E
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
* g! t/ W) r2 l' L2 gstep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
b. D6 N! b" n . A1 v" {0 k5 X9 z5 x; v; F, e
[3 G, @$ v w" p* g
0 s6 u: {( \& L: f( H; a# x
0 p) B* T- p- u( w6 }, X
d* u9 |- u# x: J4 {: \# l! `( }% I3 x) O
! p9 ^; X2 W! v. z4 a! b |