本帖最后由 州周 于 2024-5-20 21:20 编辑
6 g( g! \# f8 Z* w& ^. x) C8 Z9 |: r! K; A9 y& d% P/ r
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。 R7 L$ o+ x# p' a7 a8 f
- C# W( M- a+ ^+ G2 N' p( A首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
% Y/ O0 e" ?4 y6 V/ ^SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
: E$ n- X( y0 q! v7 G! b! v1 v B4 f- E3 B. x5 [; H4 J+ J) c# z9 }6 Q
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
* `( H3 D! E8 a9 }, x训练步骤:7 b% `( C- Q# r& M7 M' D z
step0~1600 FP32 1e-5 控制ir值在30以下! q8 _- K# u/ m1 C: `
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
/ A4 T3 A7 Q# D& [step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
- {* j$ a! u r2 E! }$ p* e2 A4 B P' `
7 {- B/ y1 K1 i4 Y) Q* ^1 c
5 Z7 C# Z" @* @; c: r: W& l2 n' T9 t
' c$ {" `* N8 P; _. R% `
* `, j5 f5 p0 |& x% L/ l; G- v' w' G5 d& w2 [0 u
b7 o' Y1 s# q% r- ?! ^( W4 f$ G( M
|