本帖最后由 州周 于 2024-5-20 21:20 编辑
, I$ f. {! K/ W+ F& G. Q X( K- Q e* C# a) C' w5 D' p! I; {
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
& `* G- S3 T8 H" a
1 i4 J* q( M+ ^/ [+ T首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。: ^% M5 {; G: p N8 q" l# I
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。+ `- ?" ?" {/ K$ Z% e/ v
2 k# c+ S. b; t" ^+ J6 c$ j) @准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
( ^3 V1 M& E( Y训练步骤:
% K O* s; l q7 l$ Ystep0~1600 FP32 1e-5 控制ir值在30以下0 W& W& V: g+ g! G
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
1 a, X- Q/ g( V# S6 \4 Y* Vstep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 0 T- R7 |" _& i5 C( q) L& A
. R; a0 w* e: c
5 R% O- ?% y, p# F5 ?: h9 z3 t
- I4 k; _- [8 x( g9 n- i& L* ^! s6 H) i( F( w) z5 a, a2 N
+ Q y1 }$ T9 S
0 [, I% P! `: B+ E
0 @. t+ N, ~& R" f+ j2 d |