本帖最后由 州周 于 2024-5-20 21:20 编辑
; |0 H' p) S5 q, `2 G+ E% i6 y3 c* `) G, Q; I! h/ Q* ^
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。; T4 h' G" L, s
/ H- m5 `, X# m
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
2 m4 r3 a; M$ l' b! V- }- SSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
+ G8 A# }# t" Z) V: \: t$ X: i+ t' h, ]8 j# I' U" h, Q$ {
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
+ v8 V' J3 l' |$ f( Q( ]训练步骤:
6 }" a% n$ k2 |+ i7 y. }step0~1600 FP32 1e-5 控制ir值在30以下
; X% U6 t2 O; c8 c' cstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 0 V K( w* l: i. g4 I
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 : m$ }" g8 F, |% v" }1 w
" o2 A0 @5 M! Q! a' v8 V* q+ N: C
/ P* f4 m& q+ [
" }- M. T3 _; ]
; u& ?. `4 I7 z% o g7 S
1 }# D) S& N8 m+ M& v; X9 |/ a5 u+ C* t: S9 e" J+ F# Y
5 ]( r- E3 R6 D( S
|