就是看掌握的单词有多少文字转WAV音频