这两者都不选择文字转WAV音频