我们可以跟之前一样有个口头协议文字转WAV音频