是一个视觉捕捉系统文字转WAV音频