这是训练时用来录像的文字转WAV音频