分出高下的是使用它们的人的水平文字转WAV音频