区别在于他们没有说出来文字转WAV音频