毕竟双方都是一个系统里面的人文字转WAV音频