基本上都是用商量的语气文字转WAV音频