在原有训练的基础上增加两层的训练文字转WAV音频