还必须假设出各种可能出现得情况文字转WAV音频