本帖最后由 州周 于 2024-5-20 21:20 编辑 5 J5 A1 G7 h* p' D# S
$ e O& i: w* P) }1 z
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
8 q2 Y+ c1 l2 N& u+ x7 [; D5 |
( o1 q, w0 K! O i首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。6 i h" R3 p2 K/ D1 L# z
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
% j' v- D$ \ V5 }
- j% C9 q8 C' B+ V. z准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。+ t/ Z/ y9 a* h! p: F! P* T+ `- F1 J! R
训练步骤:- n+ Q& Q8 _' e* G* l' u5 ^5 e
step0~1600 FP32 1e-5 控制ir值在30以下
! \, u' J* O F' A7 |step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
: I' I+ E7 H3 C( ^step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 1 H# u. T) V3 {
3 W8 m$ ?+ I4 b( \+ @, X* T3 I3 Q: j7 V1 H4 s
# B$ I4 U, ?' ^# m5 i2 G
7 N# u, A3 b/ a4 g9 f/ Q, h3 Z( z7 _0 q1 T. r
' B5 P$ ?& C4 N6 C+ c
8 s% N5 t( V( E0 _; i- G) b3 d& H
|