但他们两人毕竟是后面加入文字转WAV音频