所以他必须把话说到前面文字转WAV音频