比如嘴唇和鼻孔等地方还是比较松软的文字转WAV音频