是十倍于同样数量的人族文字转WAV音频