可以看到他们的脸是用某种东西拼凑而成的文字转WAV音频