是架构在一起的文字转WAV音频