因此下游的情景文字转WAV音频