也并没有真正捕捉到话中的精髓文字转WAV音频