可以理解为人字被强行分开了文字转WAV音频