本帖最后由 州周 于 2024-5-20 21:20 编辑
# v% c% _9 f6 V3 c$ ^7 ]( ~0 Q, c) L4 F I9 w
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。+ D( X! ?* b& j3 [- x% [
' w; D! j- s$ M# d) P首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
. n% ]+ I! [7 M" hSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。: ?2 `/ W" ^* C& y# C7 u4 ?
, D! H$ d# S! U$ A" j
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
/ }! S& h6 l, r4 e" u训练步骤:6 f/ c# t6 y2 Q) o4 z- K; X0 \" c
step0~1600 FP32 1e-5 控制ir值在30以下3 ^' D: Y# z2 X! C' ^0 R
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 6 m7 p B3 l" @6 f5 z% Y' ]9 L ^; v
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 4 G- X- P* @, b/ h* D
2 b* v3 ]9 L4 n1 X4 ]
$ M0 Q f$ G5 }
# ~) A0 |/ O5 k) y* W
. c3 J) T u' U, W1 o7 u) W1 @" K4 u
3 f1 i" I7 E; f \& U
4 T$ W. J1 ]$ c% G+ \ |