他们之前已经接受过了一些训练文字转WAV音频