结果却是混合的无法分离文字转WAV音频