他全是凭借记忆里那点东西推理出来的文字转WAV音频