主要是他们有的时候言语之间文字转WAV音频