那么很多东西都没办法继续推理文字转WAV音频