首先凭借记忆建立一个认识文字转WAV音频