本帖最后由 州周 于 2024-5-20 21:20 编辑 ' }/ _) O1 C/ s: P* i" z$ }
* z: j( P3 e. J起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。( r/ b2 B" C' }! V6 s K: ?. O& W8 P
$ s+ }/ }% Z3 L# Y, H" q
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。* Z: T# Y1 h2 J4 P5 y7 n1 P5 u
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。5 ]1 d% G/ R) ?3 P* H( b4 o; O
% V" s7 _* q2 A) q+ G准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。1 T! w& t* G/ }; Y' f
训练步骤:+ A, D: e$ p5 d9 Q
step0~1600 FP32 1e-5 控制ir值在30以下
' V( @$ T5 I+ w, t+ Vstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 $ }: u1 x: `$ V! b! m/ k% \+ t
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 2 m0 I* ~% S, e$ q3 _1 o) o
& P# } z) `5 V# ~9 w8 b3 z8 [$ [/ w% @* v5 d
0 A* T7 a+ {) Z" G% `/ A: q
! z7 n, @% R" Y# T8 R* _
2 t0 [$ N2 A' Q9 `5 v, K7 k5 s2 C! N4 ^1 L/ E& j, I
, Y: _: X1 ~! @# ] |