本帖最后由 州周 于 2024-5-20 21:20 编辑 ' S5 e8 Y. j1 D9 j
" M- c3 B' ]- k起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。' R. u$ P3 z( S* i
9 p) F) d* `7 A2 V1 |$ o3 ]2 x首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
( [: `1 }7 s9 P) i8 hSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。% N6 r+ j, {- ^1 x
$ o4 m6 W, G" t O
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
K' d |6 T+ P9 ^4 N- g+ f2 T训练步骤:+ K8 n0 T" B# M3 E$ ?# w
step0~1600 FP32 1e-5 控制ir值在30以下# z* u% v0 y) `. s
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 ) x1 M0 G* H6 W* \+ Y
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 8 r7 S. r, Q9 c
3 R3 l8 W$ R3 W5 ~: K h
7 Z! ^5 L1 K/ l0 C% L1 x( V0 _) e6 h4 X* G9 `
# F0 H" \4 Y; d2 W/ k/ r
9 ^& ^. E% ?' E* c% m' s
4 E5 R+ w* p6 e
$ q3 |0 X3 F1 T) ]5 \ |