然后他再给出具体的指示文字转WAV音频