双方都计算着自身的消耗文字转WAV音频