就是从不断地分离它们文字转WAV音频