他们甚至可能会降级文字转WAV音频