因为他并不是按照编号顺序来念的文字转WAV音频