很显然是不排斥自己在场文字转WAV音频