一个很少被详细描述的环境文字转WAV音频