毕竟它也是在寻求两域青源的提前融合文字转WAV音频