根据气息应该有三四位文字转WAV音频