根据他们之前一系列动作的推测文字转WAV音频