本帖最后由 州周 于 2024-5-20 21:20 编辑 : e6 V, g8 @% T
3 b! ~% b; V. q, L$ h
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
" _" m& A5 z6 l1 w8 d9 C' y0 r* d/ g5 x: ?( |2 C' i
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。% p2 k; u. a+ g& H: S' p( b. V
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。) v; O$ i8 C) g8 p/ a
; p& r" `5 Z# K$ k0 I1 ~准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。& \1 h# R" l3 S2 Q
训练步骤:
6 G* e4 p p' j5 Istep0~1600 FP32 1e-5 控制ir值在30以下% V8 ~9 J1 [; m0 c" f* [& L
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 3 N2 v) m- C v, X' ]( F
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
$ P) b5 l: B% h8 q$ w# ~
, ?2 N5 X# O- p6 g" m" [$ X3 e4 u; m! U9 P1 I, w- ?' c: O
1 Z2 K. R- ]# U, V3 X; F) [5 o. Q3 J
K5 d) y) h& N) ]' J) { z- Z1 e3 `) Y6 e1 n
" A+ q/ e l8 W! E1 B6 v
, X( i0 L) T3 K+ z: Y
|