本帖最后由 州周 于 2024-5-20 21:20 编辑 . U: _( C4 ]* a) C1 s
& Z0 k5 ]( A+ }5 }
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。2 _2 |3 k3 F; g. p
1 b2 h) a h5 A- M) ]首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。: Y* e) U, [. d" F9 q6 j; P
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。8 m4 Q9 B- I8 T( Y( {# v
# B+ r$ N1 s% D% o+ ^9 R
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。7 r2 |, Z5 D2 ]2 t1 \# x& D4 j
训练步骤:
/ Y3 Z g7 M3 k6 s' Mstep0~1600 FP32 1e-5 控制ir值在30以下6 z1 ~8 v; t) d% M( E; W/ I
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
8 M- e7 v. ^$ p# y2 C0 l4 nstep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 - g2 A/ n L a' ^4 e1 z
& {. e. i8 Q- g2 ]$ }* _
2 L& M$ b1 b7 J# p6 Y/ `6 D, q
/ k f) g; K, C4 A1 _
: s3 w" y$ O6 H# \' k6 j& G
1 R8 y5 I" i& z& a: Z* R9 X/ k3 G9 |
8 R$ _$ t" n4 C2 n' ^0 ?# ]; o9 g( H4 U2 \. X3 H# f5 j
|