但是他们依然需要指引文字转WAV音频