都是通过他往下传递的文字转WAV音频