或许可以在代价不大的情况下捕捉一些活体文字转WAV音频