本帖最后由 州周 于 2024-5-20 21:20 编辑
% ~9 F8 n# k |0 h* K( `
# I3 N- d% v' h2 I4 |; |5 n起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
2 t; ]" q+ K- R! d5 c
2 B2 l2 J U3 Q. p# ]首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
7 A6 v$ t* e9 V- WSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
, ]+ X) V# `. B! X% d4 M+ b4 l3 ?- j) p! C, A' k0 d. Z
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。# y& b) s) q& ^ i+ A) {3 c$ p
训练步骤:' d7 E- ^/ g2 }* Z: h6 V X9 v! H
step0~1600 FP32 1e-5 控制ir值在30以下
1 _0 ?3 r7 W0 |( Z) h# Z- X: J; estep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 " C$ h8 X# u: ~+ ]' N# A5 r# }
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
/ p, s* g' ~) b+ Z2 m1 {# @ $ Z; E- ^, v/ e7 N" t6 `
: ~3 ?8 F, r) V% w- D) i$ \
; Y1 l0 R; @0 C
2 _5 s6 X4 u6 t* @6 a
; ]3 Q# `( r; D; v; ?$ e6 m5 k* u* y! v& M8 l8 l1 P5 I5 \. e
* q6 i# H) m% d* x8 p: w
|