因为得同时操控几千上万个文字转WAV音频