并且将后续有可能发生的情况都模拟出来文字转WAV音频