因此他们的数量是稀少的文字转WAV音频