他们也差不多接受了文字转WAV音频