而是在控制自己的消耗文字转WAV音频