包括普通人的气息进行对比文字转WAV音频