人体的头部和肩膀是最容易被认出文字转WAV音频