刻意用略显沙哑的方式进行演绎文字转WAV音频