而是根据他的外形所判断的文字转WAV音频