但一般情况下他们四个人就够用了文字转WAV音频