他们只能是捕捉到一点镜头文字转WAV音频