其实前面特训的时候就已经有了文字转WAV音频