他们就主动进行解释文字转WAV音频