可以说排在中下的程度文字转WAV音频