施展时必须先捕捉轨迹然后对应文字转WAV音频