这个话是对后面的两个人说的文字转WAV音频