我觉得不应该将关注点放在最坏预计上文字转WAV音频