他必须要在百息的时间内做出选择来文字转WAV音频