然后按照脑海中的记忆组合起来文字转WAV音频