其实这是一种高度受暗示的状态文字转WAV音频