你还打算用逻辑和常识来理解他们的作为文字转WAV音频