当然要形成这种情况的训练也是极为变态的文字转WAV音频