更多的则是监督文字转WAV音频