因为我们的能力从根本上来说其实是一脉文字转WAV音频