但他们必须执行文字转WAV音频