一般最终会以一方认输文字转WAV音频