毕竟他们先前已经听到了文字转WAV音频