他们应该是按照他们自己的样子文字转WAV音频