绝大多数的人会选择前者的文字转WAV音频