本帖最后由 州周 于 2024-5-20 21:20 编辑
) R a/ Y9 @6 c( z/ u+ _2 F
3 C& K! X" b. \% q6 @% o起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
7 ]5 Z' l; t; ]+ P
! F2 h. r# d/ A5 V* ?- ]. E% n首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。/ w5 {% y: S6 B# H7 R: b4 M- {
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。- o! C) j' H8 F
" f n3 j1 I: v8 c, d4 S8 l准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
% a) }( _( f/ g+ w* M/ d; ?1 D& h训练步骤:" g3 E1 m& p& Y* h
step0~1600 FP32 1e-5 控制ir值在30以下
$ ^. Y* g( l& @- `, Pstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 , J, }9 p4 L( K% |, L9 _1 q
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 8 W5 _! c9 j7 Y- h( Z
3 p z9 G. m! A/ d
) t4 c$ Q2 h p0 a S
' P+ l: Q0 J& d, o0 d: a9 c
% H( q* o4 N* `' T- f
2 B7 w0 s) e' R5 k( t
3 c" P. R7 I; G% y3 R$ ^* u* {
- [3 ~" {4 o- l$ \, D |