我刚才所说的一切都是一种推测文字转WAV音频