他们不会亲自去捕捉文字转WAV音频