在观察和捕捉目标时文字转WAV音频