所以他才会用为数不多的词汇量加了个文字转WAV音频