我认为我们可以接受这个条件文字转WAV音频