为什么一开始的时候没有提及这些考虑呢文字转WAV音频