还是送入到自己的嘴里面文字转WAV音频