也就只能是采取一种相对于文字转WAV音频