至少不会在言语上面有太多的表示文字转WAV音频