所以他可以假定这群人是任何长相文字转WAV音频