所以他理解罗林的做法文字转WAV音频