就是使用者必须是站立的文字转WAV音频