而是直接分成了三排文字转WAV音频