首先是要求学习大概一百多个中文词组的含义文字转WAV音频