首先得瞒过其感知文字转WAV音频