同时也确实耗费了太多的气息和文字转WAV音频